Nature重磅:Hinton、LeCun、Bengio三巨頭權威科普深度學習
借助深度學習,多處理層組成的計算模型可通過多層抽象來學習數(shù)據(jù)表征( representations)。這些方法顯著推動了語音識別、視覺識別、目標檢測以及許多其他領域(比如,藥物發(fā)現(xiàn)以及基因組學)的技術發(fā)展。利用反向傳播算法(backpropagation algorithm)來顯示機器將會如何根據(jù)前一層的表征改變用以計算每層表征的內(nèi)部參數(shù),深度學習發(fā)現(xiàn)了大數(shù)據(jù)集的復雜結(jié)構。深層卷積網(wǎng)絡(deep convolutional nets)為圖像、視頻和音頻等數(shù)據(jù)處理上帶來突破性進展,而遞歸網(wǎng)絡(recurrent nets )也給序列數(shù)據(jù)(諸如文本、語言)的處理帶來曙光。
本文引用地址:http://www.biyoush.com/article/201612/342188.htm機器學習為現(xiàn)代生活諸多方面帶來巨大動力:從網(wǎng)頁搜索到社交網(wǎng)絡內(nèi)容過濾再到電商網(wǎng)商推薦,在相機、智能手機等消費品中也越來越多見。機器學習系統(tǒng)被用來識別圖像中的物體、將語音轉(zhuǎn)為文本,根據(jù)用戶興趣自動匹配新聞、消息或產(chǎn)品,挑選相關搜索結(jié)果。這類被應用程序越來越多地采用的技術,叫做深度學習。
傳統(tǒng)機器學習技術在處理原始輸入的自然數(shù)據(jù)方面能力有限。幾十年來,建構模式識別或機器學習系統(tǒng)需要利用嚴謹?shù)墓こ虒W和相當豐富的專業(yè)知識設計出一個特征提取器,它能將原始數(shù)據(jù)(例如圖像像素值)轉(zhuǎn)化成適于內(nèi)部描述或表征的向量( vector ),在提取器中,學習子系統(tǒng)(通常是一個分類器)可以檢測或分類輸入模式。
表征學習(representation learning)是這樣一套學習方法:輸入原始數(shù)據(jù)后,機器能夠自動發(fā)現(xiàn)檢測或分類所需的表征信息。深度學習是一種多層描述的表征學習,通過組合簡單、非線性模塊來實現(xiàn),每個模塊都會將最簡單的描述(從原始輸入開始)轉(zhuǎn)變成較高層、較為抽象的描述。通過積累足夠多的上述表征轉(zhuǎn)化,機器能學習非常復雜的函數(shù)。就分類任務來說,更高層的表征會放大輸入信號的特征,而這對區(qū)分和控制不相關變量非常關鍵。比如,圖片最初以像素值的方式出現(xiàn),第一特征層級中,機器習得的特征主要是圖像中特定方位、位置邊沿之有無。第二特征層級中,主要是通過發(fā)現(xiàn)特定安排的邊緣來檢測圖案,此時機器并不考慮邊沿位置的微小變化。第三層中會將局部圖像與物體相應部分匹配,后續(xù)的層級將會通過把這些局部組合起來從而識別出整個物體。深度學習的關鍵之處在于:這些特征層級并非出自人類工程師之手;而是機器通過一個通用(general-purpose)學習程序,從大量數(shù)據(jù)中自學得出。
某些根深蒂固的問題困擾了人工智能從業(yè)者許多年,以至于人們最出色的嘗試都無功而返。而深度學習的出現(xiàn),讓這些問題的解決邁出了至關重要的步伐。深度學習善于在高維度的數(shù)據(jù)中摸索出錯綜復雜的結(jié)構,因此能應用在許多不同的領域,比如科學、商業(yè)和政府。此外,除了圖像識別和語音識別,它還在許多方面擊敗了其他機器學習技術,比如預測潛在藥物分子的活性、分析粒子加速器的數(shù)據(jù)、重構大腦回路、預測非編碼DNA的突變對基因表達和疾病有何影響等。也許,最讓人驚訝的是,在自然語言理解方面,特別是話題分類、情感分析、問答系統(tǒng)和語言翻譯等不同的任務上,深度學習都展現(xiàn)出了無限光明的前景。
在不久的將來,我們認為深度學習將取得更多成就,因為它只需要極少的人工參與,所以它能輕而易舉地從計算能力提升和數(shù)據(jù)量增長中獲得裨益。目前正在開發(fā)的用于深層神經(jīng)網(wǎng)絡的新型學習算法和體系結(jié)構必將加速這一進程。
監(jiān)督式學習
不管深度與否,機器學習最普遍的形式都是監(jiān)督式學習(supervised learning)。比如說,我們想構造一個系統(tǒng),它能根據(jù)特定元素對圖片進行分類,例如包含一棟房子、一輛車、一個人或一只寵物。首先,我們要收集大量包含有房子、車、人或?qū)櫸锏膱D片,組成一個數(shù)據(jù)集(data set),每張圖片都標記有它的類別。在訓練時,每當我們向機器展示一張圖片,機器就會輸出一個相應類別的向量。我們希望的結(jié)果是:指定類別的分數(shù)最高,高于其他所有類別。然而,如果不經(jīng)過訓練,這將是不可能完成的任務。為此,我們通過一個目標函數(shù)來計算實際輸出與期望輸出之間的誤差或距離。接下來,為了減小誤差,機器會對其內(nèi)部可調(diào)參數(shù)進行調(diào)整。這些可調(diào)參數(shù)常被稱為「權重」(weight),是實數(shù),可看做定義機器輸入-輸出功能的「門把手」。在一個典型的深度學習系統(tǒng)中,可能存在著成千上億的可調(diào)權重及用以訓練機器的標記樣本。
為了正確地調(diào)整權重矢量( weight vector),學習算法會計算出一個梯度矢量( gradient vector)。對每一個權重,這個梯度矢量都能指示出,當權重略微增減一點點時,誤差會隨之增減多少量。接著,權重矢量就會往梯度矢量的反方向進行調(diào)整。
從所有訓練范例之上,平均看來,目標函數(shù)( objective function)可被視為一片崎嶇的山地,坐落于由權重組成的高維空間。梯度矢量為負值的地方,意味著山地中最陡峭的下坡方向,一路接近最小值。這個最小值,也就是平均輸出誤差最小之處。
在實踐中,大多數(shù)業(yè)內(nèi)人士都是用一種被稱為「隨機梯度下降」(SGD - Stochastic Gradient Descent)的算法(梯度下降Grident Descent 是「最小化風險函數(shù)」以及「損失函數(shù)」的一種常用方法,「隨機梯度下降」是此類下的一種通過迭代求解的思路——譯者注)。每一次迭代包括以下幾個步驟:獲取一些樣本的輸入矢量( input vector),計算輸出結(jié)果和誤差,計算這些樣本的平均梯度,根據(jù)平均梯度調(diào)整相應權重。這個過程在各個從整個訓練集中抽取的小子集之上重復,直到目標函數(shù)的平均值停止下降。它被稱做隨機(Stochastic)是因為每個樣本組都會給出一個對于整個訓練集( training set)的平均梯度(average gradient)的噪音估值(noisy estimate)。較于更加精確的組合優(yōu)化技術,這個簡單的方法通??梢陨衿娴乜焖俚卣页鲆粋€權重適當?shù)臉颖咀蛹?。訓練過后,系統(tǒng)的性能將在另外一組不同樣本(即測試集)上進行驗證,以期測試機器的泛化能力( generalization ability) ——面對訓練中從未遇過的新輸入,機器能夠給出合理答案。
很多當今機器學習的實際應用都在人工設定的特征上使用「線性分類」(linear classifiers)。一個「二元線性分類器」(two-class linear classifier)可以計算出特征向量的「加權和」(weighted sum)。如果「加權和」高于閾值,該輸入樣本就被歸類于某個特定的類別。
二十世紀六十年代以來,我們就知道線性分類只能將輸入樣本劃分到非常簡單的區(qū)域中,即被超平面切分的半空間。但是,對于類似圖像及語音識別等問題,要求「輸入-輸出函數(shù)」(input–output function)必須對輸入樣本的無關變化不敏感,比如,圖片中物體的位置,方向或者物體上的裝飾圖案,又比如,聲音的音調(diào)或者口音;與此同時「輸入-輸出函數(shù)」又需要對某些細微差異特別敏感(比如,一匹白色的狼和一種長得很像狼的被稱作薩摩耶的狗)。兩只薩摩耶在不同的環(huán)境里擺著不同姿勢的照片從像素級別來說很可能會非常地不一樣,然而在類似背景下擺著同樣姿勢的一只薩摩耶和一只狼的照片在像素級別來說很可能會非常相像。一個「線性分類器」(linear classifier),或者其他基于原始像素操作的「淺層(shallow)」分類操作是無論如何也無法將后者中的兩只區(qū)分開,也無法將前者中的兩只分到同樣的類別里的。這也就是為什么「淺層」「分類器(classifiers)」需要一個可以出色地解決「選擇性-恒常性困境」( selectivity–invariance dilemma)的「特征提取器」(feature extractor)—— 提取出對于辨別圖片內(nèi)容有意義的信息,同時忽略不相關的信息,比如,動物的姿勢。我們可以用一些常規(guī)的非線性特征來增強「分類器」(classifiers)的效果,比如「核方法」(kernel methods),但是,這些常規(guī)特征,比如「高斯核」(Gaussian Kernel)所找出來的那些,很難泛化( generalize )到與訓練集差別別較大的輸入上。傳統(tǒng)的方法是人工設計好的「特征提取器」,這需要相當?shù)墓こ碳记珊蛦栴}領域的專業(yè)知識。但是,如果好的「特征提取器」可以通過「通用學習程序(General-Purpose learning procedure)」完成自學習,那么這些麻煩事兒就可以被避免了。這就是深度學習的重要優(yōu)勢。
圖1| 多層神經(jīng)網(wǎng)路和反向傳播
a. 一個多層神經(jīng)網(wǎng)絡(如圖所示相互連接的點)能夠整合(distort)輸入空間(圖中以紅線與藍線為例)讓數(shù)據(jù)變得線性可分。注意輸入空間的規(guī)則網(wǎng)格(左側(cè))如何轉(zhuǎn)被隱藏單元(中間)轉(zhuǎn)換的。例子只有兩個輸入單元、兩個隱藏單元和一個輸出單元,但事實上,用于對象識別和自然語言處理的網(wǎng)絡通常包含了數(shù)十或成千上萬個單元。(本節(jié)引用改寫自 C. Olah (http://colah.github.io/).)
b. 導數(shù)的鏈式法則告訴我們,兩個微小增量(即x關于y的增量,以及y關于z的增量)是如何構成的。x的增量Δx導致了y的增量Δy,這是通過乘以?y/?x來實現(xiàn)的(即偏導數(shù)的定義)。同樣,Δy的變化也會引起Δz的變化。用一個方程代替另一個方程引出了導數(shù)的鏈式法則( the chain rule of derivatives),即增量Δx如何通過與?y/?x及 ?z/?x相乘使得z也發(fā)生增量Δz。當x,y 和 z都是向量時這一規(guī)律也同樣適用(使用雅克比矩陣)。
c. 這個公式用于計算在包含著兩個隱層和一個輸出層的神經(jīng)網(wǎng)絡中的前向傳輸,每個層面的逆向傳遞梯度都構成了一個模組。在每一層,我們首先計算面向每個單元的總輸入值z,即上一層的輸出單元的加權和;然后,通過將一個非線性函數(shù)f(.)應用于z來得出這個單元的輸出。為了簡化流程,我們忽略掉一些閾值項(bias terms)。在神經(jīng)網(wǎng)絡中使用的非線性函數(shù)包含了近些年較為常用的校正線性單元(ReLU) f(z) = max(0,z),以及更傳統(tǒng)的 sigmoid函數(shù),比如,雙曲線正切函數(shù), f(z) = (exp(z) ? exp(?z))/(exp(z) + exp(?z)) 和 邏輯函數(shù)f(z) = 1/(1 + exp(?z)).
d. 該公式用于計算反向傳遞。在每一個隱藏層中,我們都會計算每個單元輸出的導數(shù)誤差,即上述層中上一層所有單元輸入的導數(shù)誤差的加權總和。 然后,將關于輸出的導數(shù)誤差乘以函數(shù)f(z)的梯度(gradient),得到關于輸入的導數(shù)誤差。 在輸出層中,通過對成本函數(shù)進行微分計算,求得關于輸出單元的誤差導數(shù)。因此我們得出結(jié)論 yl - tl 如果對應于單元l的成本函數(shù)是 0.5(yl - tl) 2 (注意tl是目標值)。一旦?E/?zk已知,那么,就能通過yj ?E/?zk調(diào)整單元j的內(nèi)星權向量wjk。
圖2 | 卷積網(wǎng)絡的內(nèi)部
評論