獨(dú)家 | 每個(gè)數(shù)據(jù)科學(xué)家都應(yīng)該熟悉的 5 個(gè)統(tǒng)計(jì)學(xué)悖論
在醫(yī)學(xué)測(cè)試中可以找到一些準(zhǔn)確度悖論的真實(shí)案例。假設(shè)有一種患病概率為十萬(wàn)分之一的罕見病。如果創(chuàng)建了一個(gè)在檢測(cè)疾病方面有99.9%準(zhǔn)確度的測(cè)試,并將其提供給只有0.1%的患病人群,則該測(cè)試將具有99.9%的高準(zhǔn)確率。然而,它將導(dǎo)致大量的假陽(yáng)性(False Positive),也就是說,許多健康人將被錯(cuò)誤地診斷為患有該疾病。
精確度和召回率在評(píng)估分類任務(wù)的表現(xiàn)上比準(zhǔn)確度更好。而這兩個(gè)指標(biāo)(精確度和召回率)與我們下一節(jié)討論的假陽(yáng)性悖論有關(guān)。
2.False Positive Paradox 假陽(yáng)性悖論
Python解釋假陽(yáng)性悖論的簡(jiǎn)單示例:
例如,想象一個(gè)病患占總?cè)丝?%的疾病的醫(yī)學(xué)測(cè)試。如果該測(cè)試有99%的準(zhǔn)確率,則它有99%的概率正確識(shí)別疾病的存在或不存在。但倘若對(duì)1000人進(jìn)行檢測(cè),那么將會(huì)有10人被測(cè)出陽(yáng)性,盡管事實(shí)上只有1人患病。這意味著陽(yáng)性測(cè)試結(jié)果更可能是假陽(yáng)性而不是真陽(yáng)性。
下面是另一個(gè)針對(duì)假陽(yáng)性悖論的Python代碼示例:
3.Gambler’s Fallacy 賭徒謬誤
我們可以借助Python中的numpy模擬投擲一枚公平的硬幣來說明這一點(diǎn):
賭徒謬誤會(huì)在股票市場(chǎng)等生活場(chǎng)景中出現(xiàn)。一些投資者可能認(rèn)為,如果一只股票的價(jià)值連續(xù)幾天持續(xù)上漲,之后它就更有可能下跌,盡管市場(chǎng)運(yùn)動(dòng)其實(shí)仍然是內(nèi)在不可預(yù)測(cè)的,并受一系列因素的影響。
4.Simpson’s Paradox 辛普森悖論
辛普森悖論是指在一個(gè)具有某種趨勢(shì)的數(shù)據(jù)集中,倘若我們把這個(gè)數(shù)據(jù)集分成許多子數(shù)據(jù)集,那么原趨勢(shì)會(huì)消失或子數(shù)據(jù)集呈現(xiàn)的趨勢(shì)與原趨勢(shì)相反。如果數(shù)據(jù)被錯(cuò)誤處理與分析,這可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。
我們通過一個(gè)例子來更好地理解這一現(xiàn)象。假設(shè)我們想比較一所大學(xué)男女申請(qǐng)者的錄取率。已知我們有兩個(gè)院系的數(shù)據(jù):院系A(chǔ)和院系B。
出現(xiàn)這種悖論是因?yàn)槊總€(gè)院系的申請(qǐng)人數(shù)和錄取率都不一樣。院系A(chǔ)整體錄取率較高,但女性申請(qǐng)者比例較低。院系B整體錄取率較低,但女性申請(qǐng)者比例較高。
在Python中,我們可以使用以下代碼演示這個(gè)示例:
在代碼中,我們用上表中的數(shù)據(jù)創(chuàng)建了一個(gè)dataframe,計(jì)算錄取率并顯示數(shù)據(jù)圖表。然后計(jì)算整體錄取率,得出為19.44%。最后,我們將數(shù)據(jù)按院系和性別分組,并計(jì)算每個(gè)分組的錄取率。我們看到兩個(gè)院系的女性錄取率都較高,盡管男性的整體錄取率較高。這是辛普森悖論的一個(gè)例子。
5.Berkson’s Paradox 伯克森悖論
我們將萼片長(zhǎng)度和寬度作為兩個(gè)感興趣的變量,使用鳶尾花數(shù)據(jù)集來解釋這個(gè)悖論。首先,可以在pandas中使用corr()方法計(jì)算這兩個(gè)變量之間的相關(guān)系數(shù):
然而,如果我們按品種分割數(shù)據(jù)集并分別計(jì)算每個(gè)品種的相關(guān)系數(shù),我們可能會(huì)得到不同的結(jié)果。比如,如果我們只考慮setosa,我們會(huì)得到一個(gè)正相關(guān):
這種矛盾的出現(xiàn)是因?yàn)閟etosa的萼片長(zhǎng)度和寬度的數(shù)值范圍比其他品種小。因此,當(dāng)我們只考慮setosa時(shí),整個(gè)數(shù)據(jù)集內(nèi)的負(fù)相關(guān)性被setosa內(nèi)的正相關(guān)性所掩蓋。
6.Conclusion 結(jié)論
1. 準(zhǔn)確度悖論告訴我們,僅僅依靠準(zhǔn)確度不足以評(píng)估分類任務(wù),精確度和召回率能提供更多有價(jià)值的信息;2.假陽(yáng)性悖論強(qiáng)調(diào)了理解假陽(yáng)性相對(duì)于假陰性的重要性;3.賭徒謬誤提醒我們,每個(gè)事件都是獨(dú)立的,過去的結(jié)果不會(huì)影響未來;4.辛普森悖論表明:整體數(shù)據(jù)有可能掩蓋細(xì)節(jié)變量之間的關(guān)系,從而導(dǎo)致錯(cuò)誤的結(jié)論;5.最后,伯克森悖論顯示了從總體中選取非隨機(jī)樣本時(shí),抽樣偏差是如何發(fā)生的。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。