研究揭秘：神經(jīng)網(wǎng)絡(luò)越大、表現(xiàn)越好的“神秘力量”

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2022-03-13 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

以下文章來源于數(shù)據(jù)實(shí)戰(zhàn)派，作者青蘋果

對(duì)人類來說，對(duì)生拇指（opposable thumbs）的出現(xiàn)是一個(gè)重大的時(shí)刻。那么，如果在進(jìn)化過程中大自然又賜給我們額外的拇指，人類使用工具的能力是否會(huì)更強(qiáng)呢？情況可能不會(huì)有太大改觀，畢竟一只手有一個(gè)拇指就夠了。
但對(duì)神經(jīng)網(wǎng)絡(luò)而言，并非如此。
神經(jīng)網(wǎng)絡(luò)已經(jīng)成為執(zhí)行類人任務(wù)（human-like）的領(lǐng)先AI系統(tǒng)。隨著其規(guī)模越來越大，理解力也隨之增強(qiáng)。這無疑對(duì)研究者來說，驚喜與挑戰(zhàn)并存。
基本的數(shù)學(xué)結(jié)果表明，網(wǎng)絡(luò)差不多大就可以了，但現(xiàn)代神經(jīng)網(wǎng)絡(luò)的規(guī)模往往遠(yuǎn)超出預(yù)測需求——這種情況被稱為過度參數(shù)化（over-parameterization）。
一般來說，只要參數(shù)的數(shù)量大于要滿足的方程的數(shù)量，就可以使用參數(shù)化模型類進(jìn)行數(shù)據(jù)插值。
而深度學(xué)習(xí)中一個(gè)令人費(fèi)解的現(xiàn)象是，模型的訓(xùn)練參數(shù)比這個(gè)經(jīng)典理論所暗示的要多得多。具體而言，求解n個(gè)方程一般只需要 n 個(gè)未知數(shù)。然而，革命性的深度學(xué)習(xí)方法圍繞著高度參數(shù)化的模型，從 n 個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)學(xué)習(xí)的參數(shù)遠(yuǎn)遠(yuǎn)超過 n 個(gè)。

NeurIPS 會(huì)議上發(fā)表的一篇題為“A Universal Law of Robustness via Isoperimetry”論文中，微軟研究院的 Sébastien Bubeck 和斯坦福大學(xué)的 Mark Sellke 對(duì)規(guī)模擴(kuò)展成功背后的奧秘提供了新的解釋：找到一個(gè)擬合d維數(shù)據(jù)的平滑函數(shù)至少需要nd參數(shù)。
換句話說，d 因子的過度參數(shù)化對(duì)于平滑插值是必要的，這也恰好表明，深度學(xué)習(xí)中使用的大尺寸模型是有用的，而非框架的弱點(diǎn)。
而且，神經(jīng)網(wǎng)絡(luò)必須比傳統(tǒng)的預(yù)期要大得多，才能避免某些基本問題。
這一發(fā)現(xiàn)為一個(gè)持續(xù)了幾十年的問題提供了普適性的見解。
“這是一個(gè)非常有趣的數(shù)學(xué)理論結(jié)果。”瑞士洛桑聯(lián)邦理工學(xué)院的Lenka Zdeborová說道?！八麄円砸环N非常普遍的方式證明了這一點(diǎn)。因此，從該意義上說，它將成為計(jì)算機(jī)科學(xué)的核心。”
對(duì)神經(jīng)網(wǎng)絡(luò)規(guī)模的標(biāo)準(zhǔn)期望，來自于對(duì)它們?nèi)绾斡洃洈?shù)據(jù)的分析。但要理解記憶，首要做的是理解網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)的一個(gè)常見任務(wù)是識(shí)別圖像中的物體。為了創(chuàng)建這樣的網(wǎng)絡(luò)，首先，研究人員需要提供大量的圖像和標(biāo)簽，以訓(xùn)練其學(xué)習(xí)數(shù)據(jù)之間的相關(guān)性。然后，網(wǎng)絡(luò)將會(huì)在所看到的圖像中進(jìn)行正確地的識(shí)別。換句話說，訓(xùn)練會(huì)使網(wǎng)絡(luò)記住數(shù)據(jù)。更值得注意的是，一旦網(wǎng)絡(luò)記住了足夠多的訓(xùn)練數(shù)據(jù)，它還能以不同程度的準(zhǔn)確度預(yù)測從未見過的物體標(biāo)簽，即泛化。
可以說，網(wǎng)絡(luò)的規(guī)模決定了它的記憶量。
這點(diǎn)可以借助圖形的方式加以理解。想象一下，在xy平面上得到了兩個(gè)數(shù)據(jù)點(diǎn)。接下來，你可以將這些點(diǎn)與一條由兩個(gè)參數(shù)（線的斜率和穿過垂直軸時(shí)的高度）描述的線相連接。如果給定其他人這條線，以及其中一個(gè)原始數(shù)據(jù)點(diǎn)的x坐標(biāo)，那么，他們只需查看這條線（或使用參數(shù)）就可以找出相應(yīng)的y坐標(biāo)。因?yàn)椋@條線已經(jīng)記住了這兩個(gè)數(shù)據(jù)點(diǎn)。
當(dāng)然，神經(jīng)網(wǎng)絡(luò)與之類似。例如，圖像由數(shù)百或數(shù)千個(gè)值描述——每個(gè)像素對(duì)應(yīng)一個(gè)值。構(gòu)成這個(gè)組合的自由值，在數(shù)學(xué)上就等價(jià)于高維空間中的點(diǎn)的坐標(biāo)，而坐標(biāo)的數(shù)量稱為維數(shù)。
一個(gè)古老的數(shù)學(xué)結(jié)果表明，要用曲線擬合n個(gè)數(shù)據(jù)點(diǎn)，需要一個(gè)包含n個(gè)參數(shù)的函數(shù)。當(dāng)神經(jīng)網(wǎng)絡(luò)在 20 世紀(jì) 80 年代首次作為一股力量出現(xiàn)時(shí)，思考同樣的事情是有意義的。無論數(shù)據(jù)的維度如何，他們應(yīng)該只需要n個(gè)參數(shù)來擬合n個(gè)數(shù)據(jù)點(diǎn)。
“這不再是將會(huì)發(fā)生的事情，”德克薩斯大學(xué)奧斯汀分校的 Alex Dimakis 說。“現(xiàn)在，我們常規(guī)地創(chuàng)建神經(jīng)網(wǎng)絡(luò)，它的參數(shù)比訓(xùn)練樣本的數(shù)量還要多，這意味著書必須重寫?！?/span>
他們正在研究神經(jīng)網(wǎng)絡(luò)需要加強(qiáng)的另一種特性——魯棒性，即網(wǎng)絡(luò)處理微小變化的能力。例如，一個(gè)魯棒性差的網(wǎng)絡(luò)可能已經(jīng)學(xué)會(huì)了識(shí)別長頸鹿，但它會(huì)將一個(gè)幾乎沒有修改的版本錯(cuò)誤地標(biāo)記為沙鼠。2019 年，在 Bubeck 和同事們意識(shí)到這個(gè)問題與網(wǎng)絡(luò)規(guī)模有關(guān)時(shí)，也試圖進(jìn)行一些與之相關(guān)的定理證明。
據(jù)研究推測，魯棒性法則應(yīng)該適用于所有的兩層神經(jīng)網(wǎng)絡(luò)。在本文中，研究團(tuán)隊(duì)也證明了它實(shí)際上適用于任意光滑參數(shù)化函數(shù)類，只要參數(shù)的大小至多為多項(xiàng)式。而且多項(xiàng)式大小限制對(duì)于有界深度神經(jīng)網(wǎng)絡(luò)是必要的。
Bubeck 說：“我們當(dāng)時(shí)正在研究對(duì)抗的例子，然后網(wǎng)絡(luò)規(guī)模就強(qiáng)行加入了進(jìn)來。于是，我們意識(shí)到這或許是一個(gè)令人難以置信的機(jī)會(huì)，因?yàn)樯婕暗搅私庖?guī)模本身的一系列問題。”
在研究過程中，這對(duì)搭檔證明了過度參數(shù)化對(duì)于網(wǎng)絡(luò)魯棒性的必要程度。隨后，他們通過計(jì)算需要多少個(gè)參數(shù)來將數(shù)據(jù)點(diǎn)與具有等同于魯棒性的曲線擬合，得出了平滑性（smoothness）。
為了充分理解該點(diǎn)，再次回想平面中的曲線，其中 x 坐標(biāo)表示單個(gè)像素的顏色，y 坐標(biāo)表示圖像標(biāo)簽。由于曲線是平滑的，如果對(duì)像素顏色稍加修改，沿著曲線移動(dòng)一小段距離，相應(yīng)的預(yù)測只會(huì)發(fā)生很小的變化。另一方面，對(duì)于明顯鋸齒狀的曲線，x 坐標(biāo)的微小變化可能誘發(fā)y坐標(biāo)的劇烈變化。
這項(xiàng)研究表明，平滑擬合高維數(shù)據(jù)點(diǎn)并非需要 n 個(gè)參數(shù)，而是高達(dá) n × d 個(gè)參數(shù)，其中 d 是輸入的維數(shù)（例如，對(duì)于 784 像素的圖像，d 值為 784）。
換句話說，如果你希望網(wǎng)絡(luò)能可靠地記憶其訓(xùn)練數(shù)據(jù)，過度參數(shù)化不僅有幫助，而且是強(qiáng)制性的。這一證明依賴于高維幾何的一個(gè)奇怪的事實(shí)，即在球面上隨機(jī)分布的點(diǎn)彼此之間幾乎都是一個(gè)直徑的距離。點(diǎn)之間的巨大間隔意味著用一條平滑的曲線擬合它們，需要許多額外的參數(shù)。
“這個(gè)證明非常簡單——不需要復(fù)雜的數(shù)學(xué)運(yùn)算，而且說明了一些非常普遍的原理，”耶魯大學(xué)的 Amin Karbasi 說。
該結(jié)果提供了一種新穎的方法，以更好地理解為什么簡單的神經(jīng)網(wǎng)絡(luò)擴(kuò)展策略卻如此有效。
除了這次的研究之外，其他相關(guān)的一些研究，也揭示了過度參數(shù)化之所以有用的原因。例如，它可以提高訓(xùn)練過程的效率，以及網(wǎng)絡(luò)的泛化能力。雖然依據(jù)目前所知，過度參數(shù)化對(duì)于魯棒性是必要的，但尚不清楚魯棒性對(duì)其他事物究竟有多重要。但是，如果能將其與過度參數(shù)化聯(lián)系起來，新的研究便給出了明示，魯棒性極有可能比人們想象的更重要。