研究揭秘:神經(jīng)網(wǎng)絡(luò)越大、表現(xiàn)越好的“神秘力量”
以下文章來源于數(shù)據(jù)實(shí)戰(zhàn)派 ,作者青蘋果
對(duì)人類來說,對(duì)生拇指(opposable thumbs)的出現(xiàn)是一個(gè)重大的時(shí)刻。那么,如果在進(jìn)化過程中大自然又賜給我們額外的拇指,人類使用工具的能力是否會(huì)更強(qiáng)呢?情況可能不會(huì)有太大改觀,畢竟一只手有一個(gè)拇指就夠了。
但對(duì)神經(jīng)網(wǎng)絡(luò)而言,并非如此。
神經(jīng)網(wǎng)絡(luò)已經(jīng)成為執(zhí)行類人任務(wù)(human-like)的領(lǐng)先AI系統(tǒng)。隨著其規(guī)模越來越大,理解力也隨之增強(qiáng)。這無疑對(duì)研究者來說,驚喜與挑戰(zhàn)并存。
基本的數(shù)學(xué)結(jié)果表明,網(wǎng)絡(luò)差不多大就可以了,但現(xiàn)代神經(jīng)網(wǎng)絡(luò)的規(guī)模往往遠(yuǎn)超出預(yù)測需求——這種情況被稱為過度參數(shù)化(over-parameterization)。
一般來說,只要參數(shù)的數(shù)量大于要滿足的方程的數(shù)量,就可以使用參數(shù)化模型類進(jìn)行數(shù)據(jù)插值。
而深度學(xué)習(xí)中一個(gè)令人費(fèi)解的現(xiàn)象是,模型的訓(xùn)練參數(shù)比這個(gè)經(jīng)典理論所暗示的要多得多。具體而言,求解n個(gè)方程一般只需要 n 個(gè)未知數(shù)。然而,革命性的深度學(xué)習(xí)方法圍繞著高度參數(shù)化的模型,從 n 個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)學(xué)習(xí)的參數(shù)遠(yuǎn)遠(yuǎn)超過 n 個(gè)。
NeurIPS 會(huì)議上發(fā)表的一篇題為“A Universal Law of Robustness via Isoperimetry”論文中,微軟研究院的 Sébastien Bubeck 和斯坦福大學(xué)的 Mark Sellke 對(duì)規(guī)模擴(kuò)展成功背后的奧秘提供了新的解釋:找到一個(gè)擬合d維數(shù)據(jù)的平滑函數(shù)至少需要nd參數(shù)。
換句話說,d 因子的過度參數(shù)化對(duì)于平滑插值是必要的,這也恰好表明,深度學(xué)習(xí)中使用的大尺寸模型是有用的,而非框架的弱點(diǎn)。
而且,神經(jīng)網(wǎng)絡(luò)必須比傳統(tǒng)的預(yù)期要大得多,才能避免某些基本問題。
這一發(fā)現(xiàn)為一個(gè)持續(xù)了幾十年的問題提供了普適性的見解。
“這是一個(gè)非常有趣的數(shù)學(xué)理論結(jié)果。”瑞士洛桑聯(lián)邦理工學(xué)院的Lenka Zdeborová說道?!八麄円砸环N非常普遍的方式證明了這一點(diǎn)。因此,從該意義上說,它將成為計(jì)算機(jī)科學(xué)的核心。”
對(duì)神經(jīng)網(wǎng)絡(luò)規(guī)模的標(biāo)準(zhǔn)期望,來自于對(duì)它們?nèi)绾斡洃洈?shù)據(jù)的分析。但要理解記憶,首要做的是理解網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)的一個(gè)常見任務(wù)是識(shí)別圖像中的物體。為了創(chuàng)建這樣的網(wǎng)絡(luò),首先,研究人員需要提供大量的圖像和標(biāo)簽,以訓(xùn)練其學(xué)習(xí)數(shù)據(jù)之間的相關(guān)性。然后,網(wǎng)絡(luò)將會(huì)在所看到的圖像中進(jìn)行正確地的識(shí)別。換句話說,訓(xùn)練會(huì)使網(wǎng)絡(luò)記住數(shù)據(jù)。更值得注意的是,一旦網(wǎng)絡(luò)記住了足夠多的訓(xùn)練數(shù)據(jù),它還能以不同程度的準(zhǔn)確度預(yù)測從未見過的物體標(biāo)簽,即泛化。
可以說,網(wǎng)絡(luò)的規(guī)模決定了它的記憶量。
這點(diǎn)可以借助圖形的方式加以理解。想象一下,在xy平面上得到了兩個(gè)數(shù)據(jù)點(diǎn)。接下來,你可以將這些點(diǎn)與一條由兩個(gè)參數(shù)(線的斜率和穿過垂直軸時(shí)的高度)描述的線相連接。如果給定其他人這條線,以及其中一個(gè)原始數(shù)據(jù)點(diǎn)的x坐標(biāo),那么,他們只需查看這條線(或使用參數(shù))就可以找出相應(yīng)的y坐標(biāo)。因?yàn)椋@條線已經(jīng)記住了這兩個(gè)數(shù)據(jù)點(diǎn)。
當(dāng)然,神經(jīng)網(wǎng)絡(luò)與之類似。例如,圖像由數(shù)百或數(shù)千個(gè)值描述——每個(gè)像素對(duì)應(yīng)一個(gè)值。構(gòu)成這個(gè)組合的自由值,在數(shù)學(xué)上就等價(jià)于高維空間中的點(diǎn)的坐標(biāo),而坐標(biāo)的數(shù)量稱為維數(shù)。
一個(gè)古老的數(shù)學(xué)結(jié)果表明,要用曲線擬合n個(gè)數(shù)據(jù)點(diǎn),需要一個(gè)包含n個(gè)參數(shù)的函數(shù)。當(dāng)神經(jīng)網(wǎng)絡(luò)在 20 世紀(jì) 80 年代首次作為一股力量出現(xiàn)時(shí),思考同樣的事情是有意義的。無論數(shù)據(jù)的維度如何,他們應(yīng)該只需要n個(gè)參數(shù)來擬合n個(gè)數(shù)據(jù)點(diǎn)。
“這不再是將會(huì)發(fā)生的事情,”德克薩斯大學(xué)奧斯汀分校的 Alex Dimakis 說。“現(xiàn)在,我們常規(guī)地創(chuàng)建神經(jīng)網(wǎng)絡(luò),它的參數(shù)比訓(xùn)練樣本的數(shù)量還要多,這意味著書必須重寫?!?/span>
他們正在研究神經(jīng)網(wǎng)絡(luò)需要加強(qiáng)的另一種特性——魯棒性,即網(wǎng)絡(luò)處理微小變化的能力。例如,一個(gè)魯棒性差的網(wǎng)絡(luò)可能已經(jīng)學(xué)會(huì)了識(shí)別長頸鹿,但它會(huì)將一個(gè)幾乎沒有修改的版本錯(cuò)誤地標(biāo)記為沙鼠。2019 年,在 Bubeck 和同事們意識(shí)到這個(gè)問題與網(wǎng)絡(luò)規(guī)模有關(guān)時(shí),也試圖進(jìn)行一些與之相關(guān)的定理證明。
據(jù)研究推測,魯棒性法則應(yīng)該適用于所有的兩層神經(jīng)網(wǎng)絡(luò)。在本文中,研究團(tuán)隊(duì)也證明了它實(shí)際上適用于任意光滑參數(shù)化函數(shù)類,只要參數(shù)的大小至多為多項(xiàng)式。而且多項(xiàng)式大小限制對(duì)于有界深度神經(jīng)網(wǎng)絡(luò)是必要的。
Bubeck 說:“我們當(dāng)時(shí)正在研究對(duì)抗的例子,然后網(wǎng)絡(luò)規(guī)模就強(qiáng)行加入了進(jìn)來。于是,我們意識(shí)到這或許是一個(gè)令人難以置信的機(jī)會(huì),因?yàn)樯婕暗搅私庖?guī)模本身的一系列問題。”
在研究過程中,這對(duì)搭檔證明了過度參數(shù)化對(duì)于網(wǎng)絡(luò)魯棒性的必要程度。隨后,他們通過計(jì)算需要多少個(gè)參數(shù)來將數(shù)據(jù)點(diǎn)與具有等同于魯棒性的曲線擬合,得出了平滑性(smoothness)。
為了充分理解該點(diǎn),再次回想平面中的曲線,其中 x 坐標(biāo)表示單個(gè)像素的顏色,y 坐標(biāo)表示圖像標(biāo)簽。由于曲線是平滑的,如果對(duì)像素顏色稍加修改,沿著曲線移動(dòng)一小段距離,相應(yīng)的預(yù)測只會(huì)發(fā)生很小的變化。另一方面,對(duì)于明顯鋸齒狀的曲線,x 坐標(biāo)的微小變化可能誘發(fā)y坐標(biāo)的劇烈變化。
這項(xiàng)研究表明,平滑擬合高維數(shù)據(jù)點(diǎn)并非需要 n 個(gè)參數(shù),而是高達(dá) n × d 個(gè)參數(shù),其中 d 是輸入的維數(shù)(例如,對(duì)于 784 像素的圖像,d 值為 784)。
換句話說,如果你希望網(wǎng)絡(luò)能可靠地記憶其訓(xùn)練數(shù)據(jù),過度參數(shù)化不僅有幫助,而且是強(qiáng)制性的。這一證明依賴于高維幾何的一個(gè)奇怪的事實(shí),即在球面上隨機(jī)分布的點(diǎn)彼此之間幾乎都是一個(gè)直徑的距離。點(diǎn)之間的巨大間隔意味著用一條平滑的曲線擬合它們,需要許多額外的參數(shù)。
“這個(gè)證明非常簡單——不需要復(fù)雜的數(shù)學(xué)運(yùn)算,而且說明了一些非常普遍的原理,”耶魯大學(xué)的 Amin Karbasi 說。
該結(jié)果提供了一種新穎的方法,以更好地理解為什么簡單的神經(jīng)網(wǎng)絡(luò)擴(kuò)展策略卻如此有效。
除了這次的研究之外,其他相關(guān)的一些研究,也揭示了過度參數(shù)化之所以有用的原因。例如,它可以提高訓(xùn)練過程的效率,以及網(wǎng)絡(luò)的泛化能力。雖然依據(jù)目前所知,過度參數(shù)化對(duì)于魯棒性是必要的,但尚不清楚魯棒性對(duì)其他事物究竟有多重要。但是,如果能將其與過度參數(shù)化聯(lián)系起來,新的研究便給出了明示,魯棒性極有可能比人們想象的更重要。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
電磁爐相關(guān)文章:電磁爐原理