選擇性細(xì)化網(wǎng)絡(luò)用于高性能人臉檢測
人臉檢測
人臉檢測是自動人臉識別系統(tǒng)中的一個關(guān)鍵環(huán)節(jié)。早期的人臉識別研究主要針對具有較強約束條件的人臉圖象(如無背景的圖象),往往假設(shè)人臉位置一直或者容易獲得,因此人臉檢測問題并未受到重視。 隨著電子商務(wù)等應(yīng)用的發(fā)展,人臉識別成為最有潛力的生物身份驗證手段,這種應(yīng)用背景要求自動人臉識別系統(tǒng)能夠?qū)σ话銏D象具有一定的識別能力,由此所面臨的一系列問題使得人臉檢測開始作為一個獨立的課題受到研究者的重視。今天,人臉檢測的應(yīng)用背景已經(jīng)遠(yuǎn)遠(yuǎn)超出了人臉識別系統(tǒng)的范疇,在基于內(nèi)容的檢索、數(shù)字視頻處理、視頻檢測等方面有著重要的應(yīng)用價值。導(dǎo)讀
高性能人臉檢測仍然是一個非常具有挑戰(zhàn)性的問題,特別是在有很多小尺度人臉的情況下。今天分享的作者就提出了一種新的single-shot人臉檢測方法-選擇性細(xì)化網(wǎng)絡(luò)(SRN),它將新的兩步分類和回歸操作選擇性地引入到基于錨點的人臉檢測器中,以減少假陽性,同時提高定位精度。
特別是SRN由兩個模塊組成:選擇性兩步分類(STC)模塊和選擇性兩步回歸(STR)模塊。STC的目的是從低層檢測層中篩選出大多數(shù)簡單的負(fù)樣本錨,以減少后續(xù)分類器的搜索空間,而STR的目的是粗略地調(diào)整高層次檢測層中錨的位置和大小,以便為后續(xù)的回歸器提供更好的初始化。
此外,還設(shè)計了一個感受野增強(RFE)模塊,以提供更多樣化的感受野,這有助于更好地捕捉一些極端姿勢的面孔。因此,所提出的SRN檢測器在所有廣泛使用的人臉檢測基準(zhǔn)(包括AFW、PASCAL人臉、FDDB和WIDER FACE數(shù)據(jù)集)上都取得了最優(yōu)的性能。
上世紀(jì)90年代,人臉檢測就是一個極具挑戰(zhàn)性的研究領(lǐng)域。Viola和Jones首先使用Haar特征和Adaboost對人臉檢測器進(jìn)行訓(xùn)練,具有很好的準(zhǔn)確性和效率,之后激發(fā)了幾種不同的方法(【1】Liao, S.; Jain, A. K.; and Li, S. Z. 2016. A fast and accurate unconstrained face detector. TPAMI;【2】Brubaker, S. C.; Wu, J.; Sun, J.; Mullin, M. D.; and Rehg, J. M. 2008. On the design of cascades of boosted ensembles
for face detection. IJCV)。除了那些之外,另一個重要的工作是引入可變形的部件模型(DPM)。
最近,基于CNN的方法已經(jīng)在人臉檢測占據(jù)了重要位置。Cascade CNN通過訓(xùn)練一個復(fù)雜的CNN提高了檢測精度。Qin等人建議對級聯(lián)的CNNs進(jìn)行聯(lián)合訓(xùn)練,實現(xiàn)端到端優(yōu)化(Qin, H.; Yan, J.; Li, X.; and Hu, X. 2016. Joint training of cascaded CNN for face detection. In CVPR.)。MTCN提出了多任務(wù)級聯(lián)的檢測和對齊方法。Faceness將人臉檢測作為對人臉部件進(jìn)行評分,以檢測嚴(yán)重遮擋下的人臉。UnitBox引入IoU損失用于邊界框預(yù)測。EMO提出了一個預(yù)期的最大重疊分?jǐn)?shù),以評估錨匹配質(zhì)量。SAFD開發(fā)了一個尺度候選階段,該階段自動標(biāo)準(zhǔn)化檢測前的人臉尺寸。SSAP注意力在圖像金字塔中的特定比例和每個刻度層中的有效位置。最近的工作(Bai, Y.; Zhang, Y.; Ding, M.; and Ghanem, B. 2018. Finding tiny faces in the wild with generative adversarial network. In CVPR)設(shè)計了一種新的網(wǎng)絡(luò),從一個很小的模糊中以直接產(chǎn)生清晰的超分辨率人臉。
此外,人臉檢測還繼承了一般目標(biāo)檢測器的一些成就,如 Faster RCNN、SSD、FPN和RetinaNet 。
Face R-CNN(Ren, S.; He, K.; Girshick, R. B.; and Sun, J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. TPAMI)將Faster R-CNN 與難樣本挖掘結(jié)合起來,并取得了優(yōu)秀的結(jié)果。Face Boxes引入了一種基于SSD的CPU實時檢測器。Face R-FCN在人臉檢測中應(yīng)用R-FCN ,并做出相應(yīng)的進(jìn)行改進(jìn)。人臉檢測模型為了尋找微小人臉為不同的尺度訓(xùn)練單獨的探測器。S3FD在SSD上提出了多種策略,以補償小面孔的匹配問題。SSH在每個預(yù)測模塊上使用大型過濾器對上下文信息進(jìn)行建模。PyramidBox利用具有改進(jìn)的SSD網(wǎng)絡(luò)結(jié)構(gòu)的上下文信息。FAB提出了一個anchor-level的注意力引入RetinaNet,以檢測被遮擋的人臉。
作者受RefineDet中的多步分類和回歸啟發(fā)和RetinaNet的focal loss,開發(fā)了一種最先進(jìn)的人臉檢測器。
主框架框架的主干是ResNet-50,有著6層特征金字塔結(jié)構(gòu)用于SRN。特征圖主要從C2、C3、C4和C5提取獲得,C6和C7僅僅通過兩個簡單的下采樣得到。自下而上和自上而下通道之間的橫向結(jié)構(gòu)是相同的。
Dedicated Modules
STC模塊選擇C2、C3、C4、p2、p3和p4執(zhí)行兩步分類,而STR模塊選擇C5、C6、C7、p5、p6和p7進(jìn)行兩步回歸。RFE模塊負(fù)責(zé)豐富特征的感受野用于預(yù)測目標(biāo)的類別和位置。
Loss Function作者在深層結(jié)構(gòu)的末尾附加了一個混合損失,它利用focal loss和平滑的L1損失的優(yōu)點,促使模型專注于更多的難訓(xùn)練樣本,并學(xué)習(xí)更好的回歸結(jié)果。
Selective Two-Step Classification
STC的損失函數(shù)由兩部分組成,即第一步損失和第二步損失。對于第一步,計算這些樣本的focal loss選擇以執(zhí)行兩步分類;對于第二步,只關(guān)注那些在第一步過濾后仍然存在的樣本。根據(jù)這些定義,將損失函數(shù)定義如下:
Selective Two-Step Regression
在檢測任務(wù)中,如何使邊界框的定位更加準(zhǔn)確一直是一個具有挑戰(zhàn)性的問題。現(xiàn)有的一步回歸方法依賴于基于不同特征層的回歸,這在一些具有挑戰(zhàn)性的場景中是不準(zhǔn)確的,如Ms COCO的評價標(biāo)準(zhǔn)。近年來,采用級聯(lián)結(jié)構(gòu)進(jìn)行多步回歸是提高檢測邊界框準(zhǔn)確性的有效方法。
然而,盲目地在特定任務(wù)( 即人臉檢測)中添加多步回歸往往適得其反,實驗結(jié)果(見下表 )表明三個較低金字塔水平的兩步回歸損害了性能。
這種現(xiàn)象背后的原因有兩個: 1) 三個較低的金字塔層次是相關(guān)的,有大量的小錨來探測小面孔。 這些小面孔的特征是非常粗糙的特征表示,因此這些小錨很難進(jìn)行兩步回歸; 2) 在訓(xùn)練階段,如果讓網(wǎng)絡(luò)太關(guān)注難樣本的回歸,在低金字塔水平上的任務(wù),它會導(dǎo)致更大的回歸損失和阻礙更重要的分類任務(wù)。
在上述分析的基礎(chǔ)上,我們選擇性地對三個較高的金字塔水平進(jìn)行了兩步回歸。這種設(shè)計背后的動機是充分利用三個較高金字塔層次上大面的詳細(xì)特征來回歸更精確的邊界框位置,并使三個較低的金字塔層次更加關(guān)注分類任務(wù)。這種分而治之的策略使整個框架更加有效。STR損失如下:
Receptive Field Enhancement
各種設(shè)計的有效性
在不同數(shù)據(jù)集上的評估
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。