雙尺度殘差檢測器:無先驗檢測框進行目標檢測
論文地址:https://arxiv.org/pdf/1904.06883.pdf
Dubox增強了啟發(fā)式引導(dǎo)的能力,進一步使第一尺度探測器能夠最大限度地檢測小目標,第二尺度探測器能夠檢測第一尺度探測器無法識別的目標。今天給大家分享的文章可能會優(yōu)點舊,但是我覺得整體是一個不錯的ideal!
一、背景
長期以來,目標檢測一直是計算機視覺領(lǐng)域的一個具有挑戰(zhàn)性的問題。隨著深度神經(jīng)網(wǎng)絡(luò)(DNN)的發(fā)展,近年來在目標檢測方面取得了重大進展。它是各種工業(yè)應(yīng)用的先決條件,例如自動駕駛和面部分析。由于深度卷積神經(jīng)網(wǎng)絡(luò)和標注良好的數(shù)據(jù)集的進步,目標檢測器的性能得到了顯著提高。
現(xiàn)實世界中的圖像包含不同比例的對象。尺度變化已成為目標檢測領(lǐng)域的一個具有挑戰(zhàn)性的問題。為了實現(xiàn)尺度不變性,最先進的方法通常結(jié)合多個層次的特征來構(gòu)建特征金字塔或多層特征塔。同時,為了提高檢測性能,多尺度方法在不同尺度上并行使用多個檢測器。例如,RetinaNet有五個尺度檢測器(p3-p7),它們在特征金字塔結(jié)構(gòu)上并行檢測。YOLOv5在主網(wǎng)上運行了三個檢測器。
此外,prior box被認為是處理尺度不變性的有效手段。它是許多檢測器的基礎(chǔ),例如Faster RCNN和YOLOv2中的錨點,SSD中的默認框。先驗框是一堆具有預(yù)定義大小和縱橫比的框,它們以滑動窗口的方式平鋪特征圖,作為檢測候選。先驗框離散化可能的輸出邊界框形狀的空間,DNN基于特定的先驗框利用先驗信息對邊界框進行回歸。多尺度檢測和先驗框的混合是最先進的檢測器中的常見做法,它利用了多尺度特征和預(yù)先計算的邊界框統(tǒng)計數(shù)據(jù)。
二、前言
傳統(tǒng)的目標檢測方法使用多尺度特征,允許多個檢測器獨立并行地執(zhí)行檢測任務(wù)。同時,通過對prior box的處理,增強了算法處理尺度不變性的能力。然而,太多的先驗框和獨立的檢測器會增加檢測算法的計算冗余。
Some comparisons with the precision and speed to clas- sical algorithms on VOC07, ▽ is two-stage method, ? denote the one-stage algorithm, □is Dubox.
今天這項研究中,研究者介紹了Dubox,這是一種新的單階段方法,可以在沒有先驗框的情況下檢測目標。使用多尺度特征,設(shè)計的雙尺度殘差單元使雙尺度檢測器不再獨立運行。第二個尺度檢測器學習第一個的殘差。Dubox增強了啟發(fā)式引導(dǎo)的能力,可以進一步使第一尺度檢測器能夠最大限度地檢測小目標,第二尺度檢測器能夠檢測第一個無法識別的對象。此外,對于每個尺度檢測器,新的classification-regression progressive strap loss(CRPS)使整個的過程不再基于先驗框。整合這些策略,新提出的檢測算法在速度和準確性方面取得了出色的表現(xiàn)。在VOC、COCO目標檢測基準上的大量實驗證實了該算法的有效性。
三、新框架
No-prior Box Detection
Dubox是一個單一的神經(jīng)網(wǎng)絡(luò),統(tǒng)一了目標檢測的所有必要組件。檢測器設(shè)計支持端到端訓練和實時推理,同時保持高平均精度。
新的網(wǎng)絡(luò)將整個圖像作為輸入,并以s倍的下采樣級別預(yù)測結(jié)果特征圖。假設(shè)輸出map大小為(h,w),將輸出中的位置(i,j)定義為hook,其中i∈[0,w)和j∈[0,h)。Dubox在輸出特征的每個hook處預(yù)測每個邊界框及其所有類別的置信度,如下圖所示。
如上圖所示是正樣本和負樣本GT設(shè)置,DuBox使用固定鉤(i,j)將bbox的預(yù)測和分類結(jié)合起來。藍色的點是positive的hook,其他的是negative。不再像DenseBox那樣直接在中心點畫圓框了,而是根據(jù)以下公式進行正樣本的定義:
P是用于調(diào)整范圍的預(yù)定義值。
Residual Dual Scale Detectors
雙尺度殘差單元是基于共享特征提取主干的子結(jié)構(gòu)。殘差雙尺度檢測器通過共享 VGG-16、ResNet等特征提取網(wǎng)絡(luò)來組合不同級別檢測器的特征。殘差單元的結(jié)構(gòu)包含兩個檢測器,其中高級檢測器將學習在低級檢測器中找到的回歸框的殘差。詳細結(jié)構(gòu)如下圖所示。
雙尺度的冗余策略:
Differentiate positive range:設(shè)計檢測器1中的p為10,檢測器2中的p為9。同時,向檢測器1的正范圍添加一個約束 => r=arg min(r, 3)。該方法確保了大目標正樣本掛鉤的數(shù)量受到限制,并且提高了低級別檢測小目標的性能。
Differentiate scale weight:物體的目標邊界框在原始圖像中占據(jù)的區(qū)域大于0.3,則檢測器1的回歸將忽略該目標對象。(讓大目標給檢測器2來檢測,檢測器1只負責檢測小目標)
Bbox Bridge Module
Bbox(邊界框)橋模塊將低級檢測器和高級檢測器的回歸連接起來,從而使高級別回歸基于低級殘差。
Classification-Regression Progressive Strapped Loss
在基于錨的方法中,借助先驗框,檢測器具有框形狀的先驗知識。它通過調(diào)整預(yù)定義的錨形狀來執(zhí)行其預(yù)測,從而提高它們對周圍錨的擬合能力。Dubox沒有任何先前的盒子形狀,研究者必須設(shè)計一個更強的分類和回歸策略,主要是損失函數(shù)。
基于這一觀察,研究者通過IoU重建classification loss progressive strap :
四、實驗
The performance of dual branch on VOC2007 dataset (512 × 512)
Comparison with state-of-the-art detectors on VOC 2007 and 2012
Comparison with state-of-the-art detectors on MS COCO test-dev
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。