性能大幅度提升(速度&遮擋) | 基于區(qū)域分解&集成的目標(biāo)檢測(cè)
最近杭州天氣陰陽不定,為了消除不愉快的心情,可以來和我們一起探討下接下來講述的技術(shù)框架,主要涉及深度學(xué)習(xí)及目標(biāo)檢測(cè)領(lǐng)域!
研究背景
目標(biāo)檢測(cè)其實(shí)就是查找給定圖像的一個(gè)或多個(gè)目標(biāo)類的所有實(shí)例。
近年來,目標(biāo)檢測(cè)已經(jīng)被研究很長(zhǎng)一段時(shí)間,并取得了很大的進(jìn)步且部分都已經(jīng)應(yīng)用到實(shí)際生活當(dāng)中,好比人流量統(tǒng)計(jì)、刷臉支付、危險(xiǎn)人物監(jiān)測(cè)等技術(shù)。其中最著名的框架屬R-CNN[1](2014年),首先使用選擇性搜索生成目標(biāo)區(qū)域候選[2](2013年),提取這些區(qū)域的CNN特征[3],并將其用特殊類的SVMs分類。然后,出現(xiàn)了Fast R-CNN[4],使用特征共享和RoI池化提高R-CNN的速度。最近的研究是將外部區(qū)域候選模塊整合到CNN中,以進(jìn)一步提高訓(xùn)練和檢測(cè)速度。
因此,通過對(duì)區(qū)域候選和分類模塊的聯(lián)合學(xué)習(xí),也可以提高檢測(cè)精度。
[1] Girshick, R. B.; Donahue, J.; Darrell, T.; and Malik, J. 2014. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 580–587.
[2] Uijlings, J. R. R.; van de Sande, K. E. A.; Gevers, T.; and Smeulders, A. W. M. 2013. Selective search for object recognition. IJCV 104(2):154–171.
[3] Krizhevsky, A.; Sutskever, I.; and Hinton, G. E. 2012. Imagenet classification with deep convolutional neural networks. In NIPS, 1106–1114.
[4] Girshick, R. B. 2015. Fast R-CNN. In ICCV, 1440–1448.
現(xiàn)代檢測(cè)器通常在固定的輸入尺度下簡(jiǎn)化特征提取和目標(biāo)檢測(cè)過程。但是,即使在尺度變化下具有魯棒性,區(qū)域候選的精度也經(jīng)常會(huì)因所產(chǎn)生的候選和目標(biāo)區(qū)域的變化而降低。此外,對(duì)于小目標(biāo)檢測(cè)錯(cuò)誤會(huì)增加。為了提高候選的精度,采用特征金字塔的多尺度特征表示來生成更強(qiáng)的綜合特征圖。然而,圖像金字塔的每層都顯著增加了推理時(shí)間。
動(dòng)機(jī)
一般情況下,檢測(cè)錯(cuò)誤經(jīng)常由于目標(biāo)遮擋造成。在這種情況下,由于目標(biāo)的某些部分細(xì)節(jié)在區(qū)域中缺失,因此該目標(biāo)的CNN特征大量減少,意味著對(duì)整個(gè)目標(biāo)區(qū)域進(jìn)行全局外觀特征的挖掘不足以對(duì)目標(biāo)進(jìn)行準(zhǔn)確的分類和定位。具體例子如下:
新框架分析
接下來直接進(jìn)入主題——區(qū)域分解和集成的檢測(cè)器(R-DAD)。在下圖的框架中,首先是將一個(gè)目標(biāo)區(qū)域劃分為多個(gè)小區(qū)域,為了聯(lián)合捕獲目標(biāo)的整體外觀和部分細(xì)節(jié),在整個(gè)目標(biāo)區(qū)域和分解區(qū)域中提取CNN特征;然后將多區(qū)域特征逐步與區(qū)域集成塊相結(jié)合,學(xué)習(xí)目標(biāo)與其部件之間的語義關(guān)系,并利用組合的和高級(jí)語義特征進(jìn)行目標(biāo)分類和定位。
為了更準(zhǔn)確地提出區(qū)域候選,提出了一個(gè)多尺度的候選層,可以生成不同尺度的目標(biāo)候選,將R-DAD集成到多個(gè)特征中,并且在VOC2017、VOC2012和MSCOCO數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)有了顯著的性能提升。
該框架主要由3小部分組成:1)特征提取,2)基于多尺度的區(qū)域候選(MRP,Multi-Scale Region Proposal),3)目標(biāo)區(qū)域分解與集成階段(RDA,Region Decomposition and Assembly)。
特征提取
這部分主要基于Faster R-CNN的流程,我們主要說說第二步驟(MRP)及第三部分內(nèi)容(RDA)。
上圖中的MRP模塊主要作用是用來改善RPN生成的Region Proposals的準(zhǔn)確率??催^的同學(xué)應(yīng)該都知道,該思想特別簡(jiǎn)單,就是利用傳統(tǒng)的RPN生成一些候選框,然后再用不同的縮放因子(該技術(shù)使用了5種縮放因子作為一組:s = [0.5, 0.7, 1, 1.2, 1.5])對(duì)生成出的候選框進(jìn)行不同比例的縮小及放大,從而提高了區(qū)域候選的多樣性。
如上,就生成了不同尺度的區(qū)域,有部分僅僅是局部區(qū)域,有部分是大于目標(biāo)本身的區(qū)域,其實(shí)這也有一個(gè)問題:原來的區(qū)域候選已經(jīng)有很大數(shù)量級(jí),再乘以五個(gè)尺寸,也就是乘以五倍,想要該框架完全利用生成的候選框感覺很吃力??!
所以最后添加了RoI的采樣層,對(duì)得分較低的和跟GT重疊率較低的進(jìn)行了篩選。由MRP網(wǎng)絡(luò)生成的各種Region Proposals可以進(jìn)一步適應(yīng)目標(biāo)之間因?yàn)榭臻g變化所導(dǎo)致的特征變化,提高結(jié)構(gòu)的魯棒性。
RDA
一般來說,特征的強(qiáng)烈響應(yīng)是識(shí)別目標(biāo)最重要的方法之一。因此,對(duì)于來自MRP網(wǎng)絡(luò)的每一個(gè)候選,都會(huì)通過結(jié)合多個(gè)區(qū)域的逐階段特征來進(jìn)行強(qiáng)的再加工,如上圖。為此,需要學(xué)習(xí)能夠表示不同部分特征之間語義關(guān)系的權(quán)重,并利用這些權(quán)重來控制下一層特征的數(shù)量。上圖還顯示了學(xué)習(xí)的R-DAD的幾個(gè)層的語義特性。目標(biāo)內(nèi)部的一些強(qiáng)特征響應(yīng)是由R-DAD提取的。
先用線性插值兩倍上采樣之后再分解,這樣效果會(huì)更好。左右剛好是特征圖的左右一半,上下也同理,都會(huì)輸入到RAB模塊,RAB模塊如下圖所示:
通過上圖可以發(fā)現(xiàn),RAB模塊類似于一個(gè)Maxout的單元,它可以逼近任何連續(xù)函數(shù),所以該框架最終選擇了RAB而不是直接使用常用的ReLU函數(shù),這表明各種各樣的目標(biāo)特征構(gòu)造可以通過分層的RABs表示,此外該網(wǎng)絡(luò)生成的各種區(qū)域候選可以進(jìn)一步提高目標(biāo)間空間配置變化所產(chǎn)生的特征變化的魯棒性。
實(shí)驗(yàn)
提出的多尺度區(qū)域候選和目標(biāo)區(qū)域分解/集成方法的效果
不同區(qū)域集成塊的檢測(cè)比較
在VOC數(shù)據(jù)集上與Faster R-CNN比較
在MSCOCO數(shù)據(jù)集上的結(jié)果比較
實(shí)驗(yàn)效果圖
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。