理解神經(jīng)網(wǎng)絡(luò)中的Dropout

作者：時(shí)間：2018-07-24 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中，對(duì)于神經(jīng)網(wǎng)絡(luò)單元，按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄。注意是暫時(shí)，對(duì)于隨機(jī)梯度下降來(lái)說(shuō)，由于是隨機(jī)丟棄，故而每一個(gè)mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)。

本文引用地址：http://www.biyoush.com/article/201807/383602.htm

過(guò)擬合是深度神經(jīng)網(wǎng)(DNN)中的一個(gè)常見問(wèn)題：模型只學(xué)會(huì)在訓(xùn)練集上分類，這些年提出的許多過(guò)擬合問(wèn)題的解決方案，其中dropout具有簡(jiǎn)單性而且效果也非常良好。

算法概述

我們知道如果要訓(xùn)練一個(gè)大型的網(wǎng)絡(luò)，而訓(xùn)練數(shù)據(jù)很少的話，那么很容易引起過(guò)擬合，一般情況我們會(huì)想到用正則化、或者減小網(wǎng)絡(luò)規(guī)模。然而Hinton在2012年文獻(xiàn)：《Improving neural networks by preventing co-adaptation of feature detectors》提出了，在每次訓(xùn)練的時(shí)候，隨機(jī)讓一半的特征檢測(cè)器停過(guò)工作，這樣可以提高網(wǎng)絡(luò)的泛化能力，Hinton又把它稱之為dropout。

第一種理解方式是，在每次訓(xùn)練的時(shí)候使用dropout，每個(gè)神經(jīng)元有百分之50的概率被移除，這樣可以使得一個(gè)神經(jīng)元的訓(xùn)練不依賴于另外一個(gè)神經(jīng)元，同樣也就使得特征之間的協(xié)同作用被減弱。Hinton認(rèn)為，過(guò)擬合可以通過(guò)阻止某些特征的協(xié)同作用來(lái)緩解。

第二種理解方式是，我們可以把dropout當(dāng)做一種多模型效果平均的方式。對(duì)于減少測(cè)試集中的錯(cuò)誤，我們可以將多個(gè)不同神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果取平均，而因?yàn)閐ropout的隨機(jī)性，我們每次dropout后，網(wǎng)絡(luò)模型都可以看成是一個(gè)不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，而此時(shí)要訓(xùn)練的參數(shù)數(shù)目卻是不變的，這就解脫了訓(xùn)練多個(gè)獨(dú)立的不同神經(jīng)網(wǎng)絡(luò)的時(shí)耗問(wèn)題。在測(cè)試輸出的時(shí)候，將輸出權(quán)重除以二，從而達(dá)到類似平均的效果。

需要注意的是如果采用dropout，訓(xùn)練時(shí)間大大延長(zhǎng)，但是對(duì)測(cè)試階段沒(méi)影響。

帶dropout的訓(xùn)練過(guò)程

而為了達(dá)到ensemble的特性，有了dropout后，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測(cè)就會(huì)發(fā)生一些變化。在這里使用的是dropout以p的概率舍棄神經(jīng)元

訓(xùn)練層面