哈佛大學(xué)教授詳解:深度學(xué)習(xí)和經(jīng)典統(tǒng)計(jì)學(xué)差異?(1)
來(lái)源:pythonic生物人
深度學(xué)習(xí)和簡(jiǎn)單的統(tǒng)計(jì)學(xué)是一回事嗎?很多人可能都有這個(gè)疑問(wèn),畢竟二者連術(shù)語(yǔ)都有很多相似的地方。在這篇文章中,理論計(jì)算機(jī)科學(xué)家、哈佛大學(xué)知名教授 Boaz Barak 詳細(xì)比較了深度學(xué)習(xí)與經(jīng)典統(tǒng)計(jì)學(xué)的差異,認(rèn)為“如果純粹從統(tǒng)計(jì)學(xué)角度認(rèn)識(shí)深度學(xué)習(xí),就會(huì)忽略其成功的關(guān)鍵因素”。
圖源:https://twitter.com/YiMaTweets/status/1553913464183091200
深度學(xué)習(xí)(或一般的機(jī)器學(xué)習(xí))經(jīng)常被認(rèn)為是簡(jiǎn)單的統(tǒng)計(jì)學(xué),即它與統(tǒng)計(jì)學(xué)家研究的基本是相同的概念,但是使用與統(tǒng)計(jì)學(xué)不同的術(shù)語(yǔ)來(lái)描述。Rob Tibshirani 曾總結(jié)了下面這個(gè)有趣的“詞匯表”:
表中的某些內(nèi)容是不是很能引起共鳴?事實(shí)上所有從事機(jī)器學(xué)習(xí)的人都清楚,Tibshiriani 發(fā)布的這張表中,右側(cè)的許多術(shù)語(yǔ)在機(jī)器學(xué)習(xí)中已被廣泛使用。
如果純粹從統(tǒng)計(jì)學(xué)角度認(rèn)識(shí)深度學(xué)習(xí),就會(huì)忽略其成功的關(guān)鍵因素。對(duì)深度學(xué)習(xí)更恰當(dāng)?shù)脑u(píng)價(jià)是:它使用統(tǒng)計(jì)學(xué)術(shù)語(yǔ)來(lái)描述完全不同的概念。
對(duì)深度學(xué)習(xí)的恰當(dāng)評(píng)價(jià)不是它用不同的詞來(lái)描述舊的統(tǒng)計(jì)術(shù)語(yǔ),而是它用這些術(shù)語(yǔ)來(lái)描述完全不同的過(guò)程
本文會(huì)解釋為什么深度學(xué)習(xí)的基礎(chǔ)其實(shí)不同于統(tǒng)計(jì)學(xué),甚至不同于經(jīng)典的機(jī)器學(xué)習(xí)。本文首先討論模型擬合數(shù)據(jù)時(shí)的「解釋(explanation)」任務(wù)和「預(yù)測(cè)(prediction)」任務(wù)之間的差異。接著討論學(xué)習(xí)過(guò)程的兩個(gè)場(chǎng)景:
1. 使用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化擬合統(tǒng)計(jì)模型;
2. 向?qū)W生傳授數(shù)學(xué)技能。然后,文章又討論了哪一個(gè)場(chǎng)景更接近深度學(xué)習(xí)的本質(zhì)。
雖然深度學(xué)習(xí)的數(shù)學(xué)和代碼與擬合統(tǒng)計(jì)模型幾乎相同。但在更深層次上,深度學(xué)習(xí)更像是向?qū)W生傳授數(shù)學(xué)技能這種場(chǎng)景。而且應(yīng)該很少有人敢宣稱:我掌握了完整的深度學(xué)習(xí)理論!其實(shí)是否存在這樣的理論也是存疑的。相反深度學(xué)習(xí)的不同方面最好從不同的角度來(lái)理解,而僅僅從統(tǒng)計(jì)角度無(wú)法提供完整的藍(lán)圖。
本文對(duì)比了深度學(xué)習(xí)和統(tǒng)計(jì)學(xué),這里的統(tǒng)計(jì)學(xué)特指的是“經(jīng)典統(tǒng)計(jì)學(xué)”,因?yàn)樗谎芯康米罹?,并且在教科?shū)中經(jīng)久不衰。許多統(tǒng)計(jì)學(xué)家正在研究深度學(xué)習(xí)和非經(jīng)典理論方法,就像 20 世紀(jì)物理學(xué)家需要擴(kuò)展經(jīng)典物理學(xué)的框架一樣。事實(shí)上,模糊計(jì)算機(jī)科學(xué)家和統(tǒng)計(jì)學(xué)家之間的界限對(duì)雙方都是有利的。
一、預(yù)測(cè)與模型擬合
一直以來(lái),科學(xué)家們都是將模型計(jì)算結(jié)果與實(shí)際觀測(cè)結(jié)果進(jìn)行比較,以驗(yàn)證模型的準(zhǔn)確性。埃及天文學(xué)家托勒密提出了關(guān)于行星運(yùn)動(dòng)的巧妙模型。托勒密的模型遵循地心說(shuō),但有一系列的本輪(見(jiàn)下圖),使其具有極好的預(yù)測(cè)準(zhǔn)確性。相比之下,哥白尼最初的日心說(shuō)模型比托勒密模型簡(jiǎn)單,但在預(yù)測(cè)觀察結(jié)果方面不太準(zhǔn)確。(哥白尼后來(lái)添加了自己的本輪,以便能夠與托勒密的模型媲美。)
托勒密和哥白尼的模型都是無(wú)與倫比的。如果我們想通過(guò) “黑盒” 進(jìn)行預(yù)測(cè),那么托勒密的地心模型更勝一籌。但如果你想要一個(gè)簡(jiǎn)單的模型,以便可以“觀察模型內(nèi)部”(這是解釋恒星運(yùn)動(dòng)理論的起點(diǎn)),那么哥白尼的模型是不二選擇。后來(lái),開(kāi)普勒將哥白尼的模型改進(jìn)為橢圓軌道,并提出了開(kāi)普勒行星運(yùn)動(dòng)三定律,這使得牛頓能夠用適用于地球的引力定律來(lái)解釋行星規(guī)律。
因此,重要的是,日心說(shuō)模型不只是一個(gè)提供預(yù)測(cè)的“黑盒”,而是由幾個(gè)簡(jiǎn)單的數(shù)學(xué)方程給出的,但是方程中的 “運(yùn)動(dòng)部分” 極少。多年來(lái),天文學(xué)一直是發(fā)展統(tǒng)計(jì)技術(shù)的靈感來(lái)源。高斯和勒讓德分別獨(dú)立地在 1800 年左右發(fā)明了最小二乘回歸,以預(yù)測(cè)小行星和其他天體的軌道。1847 年,柯西發(fā)明了梯度下降法,這也是由天文預(yù)測(cè)推動(dòng)的。
在物理學(xué)中,有時(shí)學(xué)者們可以掌握全部細(xì)節(jié),從而找到 “正確” 的理論,把預(yù)測(cè)準(zhǔn)確性做到最優(yōu),并且對(duì)數(shù)據(jù)做出最好的解釋。這些都在奧卡姆剃刀之類(lèi)的觀點(diǎn)范疇內(nèi),可以認(rèn)為是假設(shè)簡(jiǎn)單性、預(yù)測(cè)能力和解釋性都相互和諧一致的。
然而,在許多其它領(lǐng)域,解釋和預(yù)測(cè)這兩個(gè)目標(biāo)之間的關(guān)系卻沒(méi)有那么和諧。如果只想預(yù)測(cè)觀察結(jié)果,通過(guò) “黑盒” 可能是最好的。另一方面,如果想獲得解釋性的信息,如因果模型、通用原則或重要特征,那么可以理解和解釋的模型可能越簡(jiǎn)單越好。
模型的正確選擇與否取決于其用途。例如,考慮一個(gè)包含許多個(gè)體的遺傳表達(dá)和表型(例如某些疾?。┑臄?shù)據(jù)集,如果目標(biāo)是預(yù)測(cè)一個(gè)人生病的幾率,那么無(wú)論它有多復(fù)雜或依賴于多少個(gè)基因,都要使用適配該任務(wù)的最佳預(yù)測(cè)模型。相反,如果目的是識(shí)別一些基因,以便進(jìn)行進(jìn)一步研究,那么一個(gè)復(fù)雜的非常精確的 “黑盒” 的用處是有限的。
統(tǒng)計(jì)學(xué)家 Leo Breiman 在 2001 年關(guān)于統(tǒng)計(jì)建模的兩種文化的著名文章中闡述了這一點(diǎn)。第一種是“數(shù)據(jù)建模文化”,側(cè)重于能解釋數(shù)據(jù)的簡(jiǎn)單生成模型。第二種是“算法建模文化”,對(duì)數(shù)據(jù)的生成方式不可知,側(cè)重于尋找能夠預(yù)測(cè)數(shù)據(jù)的模型,無(wú)論其多么復(fù)雜。
文章鏈接:https://projecteuclid.org/journals/statistical-science/volume-16/issue-3/Statistical-Modeling--The-Two-Cultures-with-comments-and-a/10.1214/ss/1009213726.full
Breiman 認(rèn)為,統(tǒng)計(jì)學(xué)過(guò)于受第一種文化的支配,這種關(guān)注造成兩種問(wèn)題:
導(dǎo)致了不相關(guān)的理論和可疑的科學(xué)結(jié)論。
阻止了統(tǒng)計(jì)學(xué)家研究令人興奮的新問(wèn)題。
Breiman 的論文一出,就引起了一些爭(zhēng)議。同為統(tǒng)計(jì)學(xué)家的 Brad Efron 回應(yīng)說(shuō),雖然他同意一些觀點(diǎn),但他也強(qiáng)調(diào),Breiman 的論點(diǎn)似乎是反對(duì)節(jié)儉和科學(xué)見(jiàn)解,支持花大力氣制造復(fù)雜的“黑盒”。但在最近的一篇文章中,Efron 摒棄了之前的觀點(diǎn),承認(rèn) Breima 更有先見(jiàn)之明,因?yàn)椤?1 世紀(jì)統(tǒng)計(jì)學(xué)的焦點(diǎn)都聚焦在預(yù)測(cè)算法上,在很大程度上沿著 Breiman 提出的路線演進(jìn)”。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。