目標檢測 | 豐富特征導向Refinement Network用于目標檢測
研究者提出了一個單階段檢測框架,該框架解決了多尺度目標檢測和類不平衡的問題。沒有設(shè)計更深層的網(wǎng)絡(luò),而是引入了一種簡單而有效的特征豐富化方案來生成多尺度的上下文特征。進一步引入了一種級聯(lián)的優(yōu)化(精煉)方案,該方案首先將多尺度的上下文特征注入到一階段檢測器的預測層中,以增強其進行多尺度檢測的判別能力。其次,級聯(lián)精煉方案通過細化anchors和豐富的特征以改善分類和回歸來解決類不平衡問題。對于MS COCO測試上的320×320輸入,新的檢測器在單尺度推理的情況下以33.2的COCO AP達到了最先進的一階段檢測精度,操作是在一個Titan XP GPU上以21毫秒運行的 。對于MS COCO測試上的512×512輸入,與最佳的單階段結(jié)果相比,就COCO AP而言,新方法獲得了一個明顯的增加(增加了1.6%)。
二、背景
先看下:Single-Shot Refinement Neural Network for Object DetectionRefineDet的框架結(jié)構(gòu)與SSD有點類似, 總工作流程如下:
網(wǎng)絡(luò)通過前饋生成固定數(shù)量的bounding box和分數(shù);分數(shù)代表了這些box中某些類別的可能性;
使用non-maximum suppression產(chǎn)生最終的結(jié)果。
從結(jié)構(gòu)上看,RefineDet主要由兩個內(nèi)部鏈接的模塊組成:anchor強化模塊(anchor refinement module, ARM)和物體檢測模塊(object detection module,ODM)。TCB模塊是用于連接ARM和ODM的一個模塊。
在今天分享的這項工作中,研究者區(qū)分了標準SSD檢測器實現(xiàn)最高精度同時保持其高速度的兩個主要障礙。首先,標準的SSD難以應對大尺度變化。這可能是由于SSD預測層中的上下文信息固定所致。現(xiàn)有方法通過例如在更深的主干網(wǎng)絡(luò)模型上添加上下文信息和特征金字塔表示來解決該問題。大多數(shù)方法采用自頂向下的金字塔表示,其中先對深層的低分辨率特征圖進行上采樣,然后與淺層的高分辨率特征圖結(jié)合以注入高級語義信息。盡管這樣的特征金字塔表示有助于解決大尺度變化的問題,但性能仍然遠遠不能令人滿意。
第二個關(guān)鍵問題是在訓練SSD檢測器期間遇到的前景類-背景類不平衡問題。該問題的現(xiàn)有解決方案包括,例如,在稀疏的難例集上進行訓練,同時對經(jīng)過良好分類的示例對其損失進行打折(down-weights),另外還有整合兩階段anchor優(yōu)化策略,以通過消除負例的anchors來減少分類器的搜索空間。盡管取得了成功,但由于這些特征與優(yōu)化的anchors無法很好地對齊,所以有工作采用了自上而下的特征金字塔表示法,并且僅對anchors進行了優(yōu)化。在這項工作中,研究者尋求一種替代方法來共同解決多尺度目標檢測和類不平衡的問題,從而在不犧牲其高速度的情況下提高SSD的準確性。
三、相關(guān)工作
目標檢測是一個具有挑戰(zhàn)性的計算機視覺問題?;诰矸e神經(jīng)網(wǎng)絡(luò)的目標檢測器在最近幾年展示了杰出的性能。今天說的框架著重于一階段目標檢測器,該檢測器通常比其兩階段目標檢測器更快。在現(xiàn)有的單階段方法中,SSD已顯示出可在實時操作時提供出色的性能。它使用多尺度表示來檢測金字塔層次結(jié)構(gòu)中的對象。在這樣的層次結(jié)構(gòu)中,淺層有助于預測較小的對象,而較深的層則有助于檢測較大的對象。新方法基于標準SSD,因為它具有卓越的準確性和高速度。
一階段檢測器難以準確地檢測出具有明顯尺度變化的物體。此外,SSD檢測器還存在類不平衡的問題。新提出的方法不需要任何特征化的圖像金字塔或自上而下的金字塔結(jié)構(gòu),而是專注于捕獲多尺度上下文信息。而且包括一個專門的模塊來解決類不平衡問題。
首先,從多分支ResNeXT架構(gòu)中引入了一種特征增強的方案,該方案產(chǎn)生了多尺度的上下文特征,以利用上下文信息增強標準的SSD特征。其次引入了級聯(lián)的優(yōu)化方案,在這種方案中,同時使用了邊界框回歸和二元(binary)分類來優(yōu)化特征。二元分類(目標類別預測)用于生成突出顯示可疑目標位置的objecness圖。在特征優(yōu)化期間,僅位置偏移用于特征與優(yōu)化(anchors)的對齊,而比例偏移則被忽略。
為了解決訓練階段類別不平衡的問題,RetinaNet引入了focal loss來降低簡單樣本的貢獻。RefineDet提出了一個兩步anchor優(yōu)化模塊,通過刪除幾個負anchors來減少分類器的搜索空間。另外,anchor優(yōu)化模塊粗略地調(diào)整anchor的位置。與RefineDet不同,新框架的級聯(lián)優(yōu)化方案通過首先將多尺度上下文信息注入到標準SSD預測層中來利用增強的特征。此外,級聯(lián)優(yōu)化去除了幾個負anchors ,不僅細化了anchor的位置,還細化了特征。
四、新框架
新檢測框架由三部分組成:標準SSD層,特征增強(豐富)(FE)方案和級聯(lián)優(yōu)化方案。FE方案包含一個多尺度上下文特征模塊(MSCF)以解決尺度變化。FE方案產(chǎn)生了多尺度的上下文特征,以提高標準SSD預測層的判別能力。級聯(lián)優(yōu)化方案同時利用了多尺度上下文和標準SSD特征,并解決了類不平衡問題。級聯(lián)優(yōu)化方案通過分別在兩個級聯(lián)模塊(即物體性模塊(OM)和特征導向的優(yōu)化模塊(FGRM))中執(zhí)行框回歸和分類來優(yōu)化anchor和特征。物體性模塊(OM)對對象與背景進行二進制分類,并進行初始框回歸。然后,F(xiàn)GRM模塊重新優(yōu)化特征和anchor位置,以預測最終的多類別分類和邊界框位置。
Feature Enrichment Scheme
在標準SSD框架中,特征的提取是從深度卷積網(wǎng)絡(luò)主干中通過卷積和最大池操作的重復過程執(zhí)行的。盡管保留了一定程度的語義信息,但它們?nèi)匀粊G失了可能有助于區(qū)分對象區(qū)域和背景區(qū)域的低級特征信息。此外,在每個預測層的恒定感受野僅捕獲固定的上下文信息。在這項工作中,引入了一種特征增強(FE)方案來捕獲多尺度上下文信息。首先通過簡單的池化操作對輸入圖像進行下采樣,以使其尺寸與第一個SSD預測層的尺寸相匹配。然后,將經(jīng)過下采樣的圖像通過我們的多尺度上下文特征(MSCF)模塊。
Multi-scale Contextual Features Module
提出的MSCF模塊在上圖(b)中以藍色虛線框突出顯示。它是一個簡單的模塊,包含多個卷積運算,并產(chǎn)生多尺度的上下文特征。MSCF模塊的結(jié)構(gòu)受到多分支ResNeXT體系結(jié)構(gòu)的啟發(fā),是拆分,轉(zhuǎn)換和聚合策略的一種操作。MSCF模塊將下采樣后的圖像作為輸入,并輸出上下文增強的多尺度特征。下采樣的圖像首先通過大小為3×3和1×1的兩個連續(xù)卷積層,從而產(chǎn)生初始特征投影。然后,將這些特征投影通過1×1卷積層切成三個低維分支。為了捕獲多尺度上下文信息,我們對不同的分支采用三個膨脹卷積,膨脹率分別設(shè)置為1、2和4。膨脹卷積的運算將初始特征投影轉(zhuǎn)換為上下文增強的特征集。然后,這些變換后的特征通過級聯(lián)運算進行聚合,然后傳遞給1×1卷積進行運算。MSCF的輸出用于我們的級聯(lián)優(yōu)化方案的對象性模塊(OM)中。
Cascaded Refinement Scheme
優(yōu)化方案由兩個級聯(lián)模塊組成:對象性模塊和特征導向的優(yōu)化模塊(FGRM),如上圖(a)所示。對象性模塊通過多尺度上下文信息增強了SSD的特征,并標識了可能的物體位置(客觀性)。使用多尺度上下文信息增強特征可以提高對于小目標的性能,而FGRM使用對象性預測來解決類不平衡問題。
物體性模塊Objectness Module
物體性模塊首先通過逐元素乘法運算在conv4_3的MCSF模塊中注入多尺度上下文信息,從而增強了SSD的特征。然后,引入了一個自下而上的金字塔特征層次結(jié)構(gòu),以將增強的特征傳播到后續(xù)的SSD預測層,如上圖(a)所示。物體性模塊使用步長為2(D)的3×3卷積運算,并投影前一層的特征以與當前層的空間分辨率和通道數(shù)匹配。然后,通過在每個預測層上的投影特征和SSD特征之間執(zhí)行逐元素乘法來獲得增強的特征。最后,增強的特征用于在每個預測層x上執(zhí)行二元分類(C1x)和初始框回歸(B1x)。x = 1,2、3和4對應于四個預測層。
來自PASCAL VOC數(shù)據(jù)集的示例圖像以及來自標準SSD(第二列),多尺度上下文特征(第三列)和增強的特征(第四列)的相應fc7層特征圖。這些示例表明,通過將多尺度上下文特征注入到標準SSD特征中而獲得的增強的特征有助于更好地從背景中區(qū)分目標區(qū)域。
五、實驗及可視化
PASCAL VOC 2007測試集上的測試結(jié)果
新框架采用在ImageNet上進行預訓練的VGG-16作為主干架構(gòu)。對兩個數(shù)據(jù)集使用相同的設(shè)置進行模型初始化和優(yōu)化。采用warming up策略,將前5個epochs的初始學習速率設(shè)置為從10-6到4×10-3。然后,對于150和200 epoch的PASCAL VOC 2007數(shù)據(jù)集以及90、120和140 epoch的MS COCO數(shù)據(jù)集,將學習率逐漸降低10倍。
對于這兩個數(shù)據(jù)集,權(quán)重衰減設(shè)置為0.0005,動量設(shè)置為0.9,批大?。╞atch size)為32。在實驗中,分別為PASCAL VOC 2007和MS COCO數(shù)據(jù)集執(zhí)行了250和160個epoch。除了VGG-16,還對MS COCO數(shù)據(jù)集使用更強大的ResNet-101主干進行了實驗。對于ResNet-101,在截斷的ResNet-101主干的末尾添加了兩個額外的卷積層(即res6 1,res6 2)。利用四個預測層(res3,res4,res5,res6 2)進行檢測。
MS COCO test-dev2015的測試結(jié)果
對于所有80個COCO對象類別,在RefineDet(左側(cè))和新的檢測器(右側(cè))之間進行了誤差分析。為了公平比較,兩種方法都使用相同的主干(VGG)和輸入大?。?20×320)進行分析。在此,每個子圖像中的圖都顯示了一系列精確的召回曲線。這些曲線是使用不同的設(shè)置計算的。此外,圖例中還顯示了AUC曲線。
比較在PASCAL VOC 2007和MS COCO minival set數(shù)據(jù)集上將提出的特征增強和級聯(lián)的優(yōu)化方案集成到基準SSD框架中的比較。對于所有實驗,主干為VGG16,輸入為320×320。最終方法在兩個數(shù)據(jù)集上都比基線SSD的性能有大幅度提高。
注:本文大部分摘自于CSDN博主——「To_1_oT」的原創(chuàng),在此感謝To_1_oT的付出!更多試驗分析請單擊“閱讀原文”。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。