CVPR 2022 Oral | 目標(biāo)檢測(cè)新工作!南大開(kāi)源AdaMixer:快速收斂的基于查詢的目標(biāo)檢測(cè)器
作者:王利民 | 已授權(quán)轉(zhuǎn)載(源:知乎)編輯:CVer
https://zhuanlan.zhihu.com/p/493049779
AdaMixer: A Fast-Converging Query-Based Object Detector
代碼:https://github.com/MCG-NJU/AdaMixer
論文(剛剛開(kāi)源):
https://arxiv.org/abs/2203.16507
本文介紹一下我們?cè)谀繕?biāo)檢測(cè)的新工作AdaMixer,通過(guò)增強(qiáng)檢測(cè)器的自適應(yīng)建模能力來(lái)加速query-based檢測(cè)器(類(lèi)DETR檢測(cè)器和Sparse RCNN)的收斂和最終的表現(xiàn)效果,并且使模型架構(gòu)維持在一個(gè)相對(duì)簡(jiǎn)單的結(jié)構(gòu)上。我們提出了一系列技術(shù)來(lái)增強(qiáng)query-based檢測(cè)器的decoder解碼部分,包括3D特征空間采樣和動(dòng)態(tài)MLP-Mixer檢測(cè)頭,這使得我們免于引入設(shè)計(jì)繁重、計(jì)算量大的各種注意力編碼器(attentional encoder),或者特征金字塔式的多尺度交互網(wǎng)絡(luò),在保持效果的同時(shí)(其實(shí)我們超越了很多之前的模型),進(jìn)一步簡(jiǎn)化了基于query的檢測(cè)器的結(jié)構(gòu)。
研究動(dòng)機(jī)首先,我們簡(jiǎn)單介紹一下我們的研究動(dòng)機(jī)?,F(xiàn)在基于query的檢測(cè)器成為學(xué)術(shù)研究的熱點(diǎn),其通過(guò)query集合(有的文章也稱proposal集合)和圖像特征圖的迭代交互抽取特征,不斷完善query本身的語(yǔ)義,使其能夠在matching loss下完成query對(duì)object的一對(duì)一cls和bbox預(yù)測(cè)。基于query的檢測(cè)器不需要后續(xù)的NMS操作,使得整個(gè)檢測(cè)流程更為簡(jiǎn)單和優(yōu)雅。但是我們發(fā)現(xiàn),基于query的檢測(cè)器,尤其是類(lèi)DETR檢測(cè)器,其通常引入了多層的注意力編碼器(attentional encoder),這些注意力編碼器對(duì)每個(gè)像素密集地進(jìn)行全局或者局部的注意力計(jì)算,引入了較大的運(yùn)算量,且不易于拓展到高分辨率的特征圖上,由此帶來(lái)了小物體檢測(cè)困難的問(wèn)題,而且可能會(huì)帶來(lái)訓(xùn)練時(shí)長(zhǎng)的困擾。Sparse R-CNN流派引入了顯式的特征金字塔網(wǎng)絡(luò)FPN來(lái)增強(qiáng)對(duì)小物體的建模,但同樣的,特征金字塔網(wǎng)絡(luò)會(huì)引入額外的計(jì)算量。我們覺(jué)得在backbone和decoder之間加入額外的網(wǎng)絡(luò)其實(shí)有些不優(yōu)雅,而且這和用query做檢測(cè)的目標(biāo)有點(diǎn)相違背了。如果檢測(cè)器需要厚重的密集編碼器的話,那用數(shù)量少的query通過(guò)decoder可以檢測(cè)物體作為模型的亮點(diǎn)就有點(diǎn)南轅北轍了。出現(xiàn)這些問(wèn)題的根本原因還是decoder不夠強(qiáng)勢(shì),需要encoder的建模能力來(lái)彌補(bǔ),所以我們的方法的根本動(dòng)機(jī)就是增強(qiáng)decoder的能力,使檢測(cè)器盡量避免引入各種encoder。
但如何增強(qiáng)decoder的能力呢,尤其是對(duì)不同圖像不同目標(biāo)的多樣化建模能力?這個(gè)問(wèn)題對(duì)只使用稀疏且數(shù)量限制的query的****至關(guān)重要?;仡櫟湫偷膓uery decoder本身,是一個(gè)基于transformer decoder的結(jié)構(gòu),首先將query和query之間做self attention,而后query和圖像特征feat做交互,然后每個(gè)query再過(guò)FFN。而這些初始的query雖然一般都是可學(xué)習(xí)的向量,但在inference時(shí)就固定下來(lái),無(wú)法對(duì)不同的輸入而變化(雖然現(xiàn)在有潮流把初始的query由類(lèi)RPN產(chǎn)生),所以如何保證query decoder本身的解碼機(jī)制對(duì)不同圖片輸入不同物體的自適應(yīng)能力就成了一個(gè)問(wèn)題。為此,我們提出從兩個(gè)方面來(lái)改進(jìn)這種基于query的目標(biāo)檢測(cè)器:采樣位置的自適應(yīng)能力和解碼特征的自適應(yīng)能力,對(duì)應(yīng)著就是我們提出的3D特征空間采樣和動(dòng)態(tài)MLP-Mixer檢測(cè)頭。
方法我們簡(jiǎn)單介紹一下我們的AdaMixer檢測(cè)器兩個(gè)代表性的創(chuàng)新點(diǎn),以利于讀者迅速抓取到我們方法的脈絡(luò)。有些細(xì)節(jié)在此忽略了,具體可以查看原文。
自適應(yīng)的特征采樣位置與現(xiàn)在其他方法一樣,我們把query解耦成兩個(gè)向量,分別是內(nèi)容向量(content vector)和位置向量(positional vector),其中query代表著的框可以由位置向量解碼而來(lái)。在每一個(gè)stage,query decoder都會(huì)更新refine這兩個(gè)向量。值得注意的是,我們對(duì)位置向量采用的參數(shù)化并不是常用框的lrtb坐標(biāo)或是ccwh坐標(biāo),而是xyzr形式,其中z代表著框大小的對(duì)數(shù),r代表著框長(zhǎng)寬比的對(duì)數(shù),這種參數(shù)化形式的xyz可以直接讓我們的query可以與多層級(jí)特征所形成的3D特征空間進(jìn)行聯(lián)系。如上圖所示,3D特征空間中的query坐標(biāo)自然由xyz決定,自適應(yīng)3D特征采樣首先由query根據(jù)自己的內(nèi)容向量生成多組offset,再在3D特征空間上進(jìn)行對(duì)應(yīng)點(diǎn)的插值采樣得到對(duì)應(yīng)的特征,3D特征空間有益于我們的方法統(tǒng)一自適應(yīng)地學(xué)習(xí)目標(biāo)物體的位置和尺度的變化。注意這一步是不需要任何多尺度交互網(wǎng)絡(luò)的。
自適應(yīng)的采樣內(nèi)容解碼對(duì)于一個(gè)query而言上述步驟采集到的特征形狀為 ,其中 為采樣點(diǎn)的個(gè)數(shù), 是通道數(shù)量,我們?cè)贛LP-Mixer的啟發(fā)下提出了逐query的自適應(yīng)通道和空間mixing操作(adaptive channel mixing,ACM和adaptive spatial mixing,ASM)。具體來(lái)說(shuō),我們的decoder用動(dòng)態(tài)依賴于query的權(quán)重去沿兩個(gè)維度(通道 和空間 )mixing采集到的特征,由于采集的特征可能來(lái)自于不同層級(jí)的特征圖,這樣的mixing操作自然賦予了decoder多尺度交互建模的能力。
總結(jié)構(gòu)我們的AdaMixer****總結(jié)構(gòu)如上圖,雖然看起來(lái)有一點(diǎn)繁瑣,但是在內(nèi)容向量上的操作基本構(gòu)造還是和Transformer decoder是一致的,位置向量可以簡(jiǎn)單地視為在一個(gè)stage內(nèi)參與坐標(biāo)變換和計(jì)算,然后在一個(gè)stage的末尾再更新。
總的AdaMixer檢測(cè)器只由兩個(gè)主要部分構(gòu)成:其一是主干網(wǎng)絡(luò),其二是我們所提出來(lái)的AdaMixer****,不需要額外的注意力編碼器以及顯式的多尺度建模網(wǎng)絡(luò)。
結(jié)果實(shí)驗(yàn)結(jié)果在當(dāng)時(shí)投稿時(shí)還是比較精彩的,在12 epoch的訓(xùn)練條件下,我們的表現(xiàn)超過(guò)了其他檢測(cè)器(包括傳統(tǒng)以及基于query的檢測(cè)器),其中N為query的數(shù)量,證明了我們的方法的收斂速度和最終效果。而且我們的12 epoch在8卡V100上實(shí)際訓(xùn)練時(shí)間還是比較快的,只要9小時(shí)。
在與跟其他query-based檢測(cè)器相比下,我們也有更好的表現(xiàn),而且我們是表中唯一不需要額外的注意力編碼器或者金字塔特征網(wǎng)絡(luò)的模型。
消融實(shí)驗(yàn)我們做了比較豐富的消融實(shí)驗(yàn)來(lái)驗(yàn)證我們提出的各個(gè)模塊的有效性。在此,我們選一些有代表性的消融實(shí)驗(yàn)來(lái)進(jìn)行討論。
表(a)是對(duì)我們方法核心所需的自適應(yīng)性的探究,不管是采樣位置(loc.)還是解碼內(nèi)容(cont.)的適應(yīng)性都對(duì)我們最終模型的表現(xiàn)有著大幅的影響。
表(b)是對(duì)我們提出的adaptive mixing的探究,動(dòng)態(tài)通道混合(ACM)和動(dòng)態(tài)空間混合(ASM)的順序組合是最佳選擇。
表(c)是我們的AdaMixer再加上不同的多尺度交互網(wǎng)絡(luò)的效果,我們很驚訝地發(fā)現(xiàn)不加額外的金字塔網(wǎng)絡(luò)居然效果還比較好,我們猜測(cè)可能是因?yàn)槲覀兊腁daMixer****自然具有多尺度交互的能力且額外的金字塔網(wǎng)絡(luò)有著更多的參數(shù)需要更多的訓(xùn)練時(shí)間來(lái)收斂。
表8進(jìn)一步探究了3D特征空間采樣。注意到表8中實(shí)驗(yàn)?zāi)P投紱](méi)有配備FPN網(wǎng)絡(luò),在這種情況下RoIAlign的表現(xiàn)效果較差在我們的情理之中。自適應(yīng)2D采樣(不學(xué)習(xí)z方向上的offset)的模型落后了3D特征空間采樣將近1.5個(gè)AP,說(shuō)明了3D采樣尤其是z方向上學(xué)習(xí)offset的必要性。另外,另一個(gè)很有意思的結(jié)論是只用C4特征要比C5要好,這可能歸功于C4特征的分辨率較大。而且只用C4特征時(shí),可以把ResNet的后續(xù)特征提取階段直接砍掉(因?yàn)闆](méi)有FPN,也用不到C5特征圖了),這可能代表著此類(lèi)檢測(cè)器輕量化可以涉及的方向?我們還未做過(guò)多探究。
總結(jié)我們提出了一個(gè)具有相對(duì)簡(jiǎn)單結(jié)構(gòu)、快速收斂且表現(xiàn)不俗的檢測(cè)器AdaMixer,通過(guò)改善****對(duì)目標(biāo)物體的自適應(yīng)解碼能力,我們的AdaMixer無(wú)需引入厚重的注意力編碼器以及顯式的多尺度交互網(wǎng)絡(luò)。我們希望AdaMixer可以作為后續(xù)基于query的檢測(cè)器簡(jiǎn)單有效的基線模型。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。