深度學(xué)習(xí)最全優(yōu)化方法總結(jié)比較(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
本文僅對一些常見的優(yōu)化方法進(jìn)行直觀介紹和簡單的比較,各種優(yōu)化方法的詳細(xì)內(nèi)容及公式只好去認(rèn)真啃論文了,在此我就不贅述了。
01 SGD此處的SGD指mini-batch gradient descentm,關(guān)于batch gradient descent、 stochastic gradient descent 以及 mini-batch gradient descent的具體區(qū)別就不細(xì)說了?,F(xiàn)在的SGD一般都指mini-batch gradient descent。SGD就是每一次迭代計(jì)算mini-batch的梯度,然后對參數(shù)進(jìn)行更新,是最常見的優(yōu)化方法了。即:其中,是學(xué)習(xí)率,是梯度SGD完全依賴于當(dāng)前batch的梯度,所以可以理解為允許當(dāng)前的batch的梯度多大程度影響參數(shù)更新。哭缺點(diǎn)(正因?yàn)橛羞@些缺點(diǎn)才讓這么多大神發(fā)展出了后續(xù)的各種算法):· 選擇合適的learning rate比較困難 - 對所有的參數(shù)更新使用同樣的learning rate。對于稀疏數(shù)據(jù)或者特征,有時(shí)我們可能想更新快一些對于不經(jīng)常出現(xiàn)的特征,對于常出現(xiàn)的特征更新慢一些,這時(shí)候SGD就不太能滿足要求了。· SGD容易收斂到局部最優(yōu),并且在某些情況下可能被困在鞍點(diǎn)。
02 Momentummomentum是模擬物理里動(dòng)量的概念,積累之前的動(dòng)量來替代真正的梯度。公式如下:其中,是動(dòng)量因子。特點(diǎn):· 下降初期時(shí),使用上一次參數(shù)更新,下降方向一致,乘上較大的能夠進(jìn)行很好的加速。· 下降中后期時(shí),在局部最小值來回震蕩的時(shí)候,,使得更新幅度增大,跳出陷阱。· 在梯度改變方向的時(shí)候,能夠減少更新,總而言之,momentum項(xiàng)能夠在相關(guān)方向加速SGD,抑制振蕩,從而加快收斂。
03 Nesterovnesterov項(xiàng)在梯度更新時(shí)做一個(gè)校正,避免前進(jìn)太快,同時(shí)提高靈敏度。將上一節(jié)中的公式展開可得:可以看出,并沒有直接改變當(dāng)前梯度,所以Nesterov的改進(jìn)就是讓之前的動(dòng)量直接影響當(dāng)前的動(dòng)量。即:所以,加上nesterov項(xiàng)后,梯度在大的跳躍后,進(jìn)行計(jì)算對當(dāng)前梯度進(jìn)行校正。如下圖:
momentum首先計(jì)算一個(gè)梯度(短的藍(lán)色向量),然后在加速更新梯度的方向進(jìn)行一個(gè)大的跳躍(長的藍(lán)色向量),nesterov項(xiàng)首先在之前加速的梯度方向進(jìn)行一個(gè)大的跳躍(棕色向量),計(jì)算梯度然后進(jìn)行校正(綠色梯向量)。其實(shí),momentum項(xiàng)和nesterov項(xiàng)都是為了使梯度更新更加靈活,對不同情況有針對性。但是,人工設(shè)置一些學(xué)習(xí)率總還是有些生硬,接下來介紹幾種自適應(yīng)學(xué)習(xí)率的方法。
Adagrad其實(shí)是對學(xué)習(xí)率進(jìn)行了一個(gè)約束。即:
此處,對從1到進(jìn)行一個(gè)遞推形成一個(gè)約束項(xiàng)regularizer,,用來保證分母非0。
特點(diǎn):· 前期較小的時(shí)候,regularizer較大,能夠放大梯度。· 后期較大的時(shí)候,regularizer較小,能夠約束梯度。· 適合處理稀疏梯度。缺點(diǎn):· 由公式可以看出,仍依賴于人工設(shè)置一個(gè)全局學(xué)習(xí)率。· 設(shè)置過大的話,會使regularizer過于敏感,對梯度的調(diào)節(jié)太大。· 中后期,分母上梯度平方的累加將會越來越大,使,使得訓(xùn)練提前結(jié)束。05 AdadeltaAdadelta是對Adagrad的擴(kuò)展,最初方案依然是對學(xué)習(xí)率進(jìn)行自適應(yīng)約束,但是進(jìn)行了計(jì)算上的簡化。Adagrad會累加之前所有的梯度平方,而Adadelta只累加固定大小的項(xiàng),并且也不直接存儲這些項(xiàng),僅僅是近似計(jì)算對應(yīng)的平均值。即:在此處Adadelta其實(shí)還是依賴于全局學(xué)習(xí)率的,但是作者做了一定處理,經(jīng)過近似牛頓迭代法之后:
其中,代表求期望。
此時(shí),可以看出Adadelta已經(jīng)不用依賴于全局學(xué)習(xí)率了。
特點(diǎn):· 訓(xùn)練初中期,加速效果不錯(cuò),很快· 訓(xùn)練后期,反復(fù)在局部最小值附近抖動(dòng)
RMSprop可以算作Adadelta的一個(gè)特例,當(dāng)=0.5時(shí):就變?yōu)榱饲筇荻绕椒胶偷钠骄鶖?shù)。如果再求根的話,就變成了RMS(均方根):此時(shí),這個(gè)RMS就可以作為學(xué)習(xí)率的一個(gè)約束:
特點(diǎn):· 其實(shí)RMSprop依然依賴于全局學(xué)習(xí)率。· RMSprop算是Adagrad的一種發(fā)展,和Adadelta的變體,效果趨于二者之間。· 適合處理非平穩(wěn)目標(biāo) - 對于RNN效果很好。
Adam(Adaptive Moment Estimation)本質(zhì)上是帶有動(dòng)量項(xiàng)的RMSprop,它利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率。Adam的優(yōu)點(diǎn)主要在于經(jīng)過偏置校正后,每一次迭代學(xué)習(xí)率都有個(gè)確定范圍,使得參數(shù)比較平穩(wěn)。公式如下:其中,、分別是對梯度的一階矩估計(jì)和二階矩估計(jì),可以看作對期望、的估計(jì);、是對、的校正,這樣可以近似為對期望的無偏估計(jì)??梢钥闯?,直接對梯度的矩估計(jì)對內(nèi)存沒有額外的要求,而且可以根據(jù)梯度進(jìn)行動(dòng)態(tài)調(diào)整,而 對學(xué)習(xí)率形成一個(gè)動(dòng)態(tài)約束,而且有明確的范圍。特點(diǎn):· 結(jié)合了Adagrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標(biāo)的優(yōu)點(diǎn)。· 對內(nèi)存需求較小。· 為不同的參數(shù)計(jì)算不同的自適應(yīng)學(xué)習(xí)率。· 也適用于大多非凸優(yōu)化 - 適用于大數(shù)據(jù)集和高維空間。
08 AdamaxAdamax是Adam的一種變體,此方法對學(xué)習(xí)率的上限提供了一個(gè)更簡單的范圍。公式上的變化如下:可以看出,Adamax學(xué)習(xí)率的邊界范圍更簡單。
09 NadamNadam類似于帶有Nesterov動(dòng)量項(xiàng)的Adam。公式如下:可以看出,Nadam對學(xué)習(xí)率有了更強(qiáng)的約束,同時(shí)對梯度的更新也有更直接的影響。一般而言,在想使用帶動(dòng)量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。
10 經(jīng)驗(yàn)之談· 對于稀疏數(shù)據(jù),盡量使用學(xué)習(xí)率可自適應(yīng)的優(yōu)化方法,不用手動(dòng)調(diào)節(jié),而且最好采用默認(rèn)值。· SGD通常訓(xùn)練時(shí)間更長,但是在好的初始化和學(xué)習(xí)率調(diào)度方案的情況下,結(jié)果更可靠。· 如果在意更快的收斂,并且需要訓(xùn)練較深較復(fù)雜的網(wǎng)絡(luò)時(shí),推薦使用學(xué)習(xí)率自適應(yīng)的優(yōu)化方法。· Adadelta,RMSprop,Adam是比較相近的算法,在相似的情況下表現(xiàn)差不多。· 在想使用帶動(dòng)量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。
最后展示兩張比較厲害的圖,一切盡在圖中......損失平面等高線在鞍點(diǎn)處的比較
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。