CVPR 2022 | 針對(duì)目標(biāo)檢測(cè)的重點(diǎn)與全局知識(shí)蒸餾(FGD)
來源丨h(huán)ttps://zhuanlan.zhihu.com/p/477707304編輯丨極市平臺(tái)
本文介紹我們CVPR2022關(guān)于目標(biāo)檢測(cè)的知識(shí)蒸餾工作: Focal and Global Knowledge Distillation for Detectors,只需要30行代碼就可以在anchor-base, anchor-free的單階段、兩階段各種檢測(cè)器上穩(wěn)定漲點(diǎn),現(xiàn)在代碼已經(jīng)開源,歡迎大家試用~
文章鏈接:https://arxiv.org/abs/2111.11837
代碼鏈接:https://github.com/yzd-v/FGD
前背景的不平衡對(duì)于目標(biāo)檢測(cè)而言是一個(gè)重要的問題,這個(gè)問題同樣影響著知識(shí)蒸餾。
知識(shí)蒸餾旨在使學(xué)生學(xué)習(xí)教師的知識(shí),以獲得相似的輸出從而提升性能。為了探索學(xué)生與教師在特征層面的差異,我們首先對(duì)二者的特征圖進(jìn)行了可視化??梢钥吹皆诳臻g與通道注意力上,教師與學(xué)生均存在較大的差異。其中在空間注意力上,二者在前景中的差異較大,在背景中的差異較小,這會(huì)給蒸餾中的學(xué)生帶來不同的學(xué)習(xí)難度。
為了進(jìn)一步探索前背景對(duì)于知識(shí)蒸餾的影響,我們分離出前背景進(jìn)行了蒸餾實(shí)驗(yàn),全圖一起蒸餾會(huì)導(dǎo)致蒸餾性能的下降,將前景與背景分開學(xué)生能夠獲得更好的表現(xiàn)。
針對(duì)學(xué)生與教師注意力的差異,前景與背景的差異,我們提出了重點(diǎn)蒸餾Focal Distillation:分離前背景,并利用教師的空間與通道注意力作為權(quán)重,指導(dǎo)學(xué)生進(jìn)行知識(shí)蒸餾,計(jì)算重點(diǎn)蒸餾損失。
2.全局信息的丟失如前所述,F(xiàn)ocal Distillation將前景與背景分開進(jìn)行蒸餾,割斷了前背景的聯(lián)系,缺乏了特征的全局信息的蒸餾。為此,我們提出了全局蒸餾Global Distillation:利用GcBlock分別提取學(xué)生與教師的全局信息,并進(jìn)行全局蒸餾損失的計(jì)算。
FGD僅需要獲取學(xué)生與教師的特征圖,便可完成重點(diǎn)蒸餾損失與全局蒸餾損失的計(jì)算,可以很方便的應(yīng)用到各種類型的檢測(cè)器上。
我們對(duì)anchor-based與anchor-free的單階段與二階段檢測(cè)器進(jìn)行了實(shí)驗(yàn),在COCO2017上學(xué)生檢測(cè)器均獲得了大幅的AP和AR提升。
我們采用了具有更強(qiáng)的檢測(cè)器對(duì)學(xué)生進(jìn)行蒸餾,發(fā)現(xiàn)當(dāng)使用更強(qiáng)的模型作為教師進(jìn)行蒸餾時(shí),F(xiàn)GD為模型能帶來更大的性能的提升。例如RetinaNet-R50在ResNet-101和ResNeXt-101的老師蒸餾下,分別可達(dá)到39.7和40.7的mAP。
對(duì)于使用FGD蒸餾完成后的學(xué)生模型,我們?cè)俅芜M(jìn)行了注意力的可視化。可以看到,經(jīng)過FGD訓(xùn)練后的學(xué)生,空間注意力和通道注意力的分布與教師都非常相似,這表明學(xué)生通過蒸餾學(xué)到了教師的知識(shí)并獲得了更好的特征,由此實(shí)現(xiàn)了性能的提升。
我們已將代碼開源:https://github.com/yzd-v/FGD
代碼基于MMDetection實(shí)現(xiàn),易于復(fù)現(xiàn),且已添加更多的教師與學(xué)生蒸餾設(shè)置,相關(guān)結(jié)果也在代碼中給出,歡迎大家使用。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。