多尺度深度特征(下):多尺度特征學習才是目標檢測精髓
深度特征學習方案將重點從具有細節(jié)的具體特征轉(zhuǎn)移到具有語義信息的抽象特征。它通過構建多尺度深度特征學習網(wǎng)絡 (MDFN) 不僅考慮單個對象和局部上下文,還考慮它們之間的關系。
1 前景回顧
如果想詳細知道上集我們具體說了多尺度特征的重要性及其發(fā)展,請點擊下方鏈接,查閱相關內(nèi)容:
多尺度深度特征(上):多尺度特征學習才是目標檢測精髓(干貨滿滿,建議收藏)
SSD框架
ASPP網(wǎng)絡
Cascaded
我們“計算機視覺研究院”還分享了更多與目標檢測相關的干貨及實踐內(nèi)容,有興趣的同學可以查看歷史消息,也可以從下方部分鏈接中進入:
CVPR21小樣本檢測:蒸餾&上下文助力小樣本檢測(代碼已開源)
ICCV 2021:煉丹師的福音,訓練更快收斂的絕佳方案(附源代碼)
ICCV2021目標檢測:用圖特征金字塔提升精度(附論文下載)
Pad-YoloV5:在便攜終端上實時檢測不再是難題
高斯YoloV3目標檢測(文中供源碼鏈接)
Yolo輕量級網(wǎng)絡,超輕算法在各硬件可實現(xiàn)工業(yè)級檢測效果(附源代碼)
不再只有Yolo,現(xiàn)在輕量級檢測網(wǎng)絡層出不窮(框架解析及部署實踐)
2 新框架
那我們現(xiàn)在接著上一期的繼續(xù)說多尺度深度特征學習。
上一期我們得出的結論是:淺層和深層的特征對于目標識別和定位起著必不可少的作用。為了有效地利用檢測到的特征信息,應考慮另一約束條件,以防止特征被改變或覆蓋。
新框架提出了一種創(chuàng)新的目標檢測器,它利用在高級層中學習到的深層特征。與較早層產(chǎn)生的特征相比,深層特征更擅長表達語義和上下文信息。所提出的深度特征學習方案將重點從具有細節(jié)的具體特征轉(zhuǎn)移到具有語義信息的抽象特征。它通過構建多尺度深度特征學習網(wǎng)絡 (MDFN) 不僅考慮單個目標和局部上下文,還考慮它們之間的關系。MDFN通過將信息平方和立方初始模塊引入高層來有效地檢測目標,它采用參數(shù)共享來提高計算效率。
MDFN通過集成多邊界框、多尺度和多層次技術提供多尺度目標檢測器。盡管MDFN采用了一個具有相對較小基礎網(wǎng)絡(VGG-16)的簡單框架,但與具有更深或極寬的宏觀層次結構的具有更強特征提取能力的那些相比,它獲得了更好或具有競爭力的檢測結果。所提出的技術在KITTI、PASCAL VOC和COCO數(shù)據(jù)集上進行了廣泛的評估,在KITTI上取得了最佳結果,在PASCAL VOC和COCO上取得了領先的性能。這項研究表明,深層特征提供了突出的語義信息和各種上下文內(nèi)容,這有助于其在檢測小目標或被遮擋目標方面的卓越性能。此外,MDFN 模型計算效率高,在精度和速度之間取得了很好的平衡。
Deep feature learning inception modules
深度特征學習初始模塊捕獲來自基礎網(wǎng)絡的直接輸出。新框架的基本初始模塊通過激活多尺度感受野來充分利用深度特征圖。在每個模塊中,通過1×1過濾直接利用來自前一層的輸出特征信息。然后進行3×3、5×5和7×7過濾以激活特征圖上的各種感受野,從而在相應的輸入圖像上捕獲不同范圍的場景。
研究者在實踐中僅使用1×1和3×3濾波器實現(xiàn)多尺度濾波,以盡量減少參數(shù)數(shù)量。為高層構建了兩種類型的冪運算初始模塊:一種是信息方初始模塊,另一種是信息立方初始模塊,如上圖所示。通過為不同的過濾器分配權重來構建這兩個模塊:在以下等式中給出:
上表達式實際上可以分別通過以下信息平方和三次運算來近似。
Parameter Sharing:
通過共享參數(shù),可以有效地實現(xiàn)所提出的信息平方和立方初始模塊。例如,通過從5×5單元的第一個3×3過濾器中提取輸出并將其與3×3過濾單元的并行輸出連接起來,在3×3和5×5過濾單元之間共享參數(shù)。然后,3×3過濾操作的輸出通道數(shù)量隱式加倍,而過濾器集僅使用一次,如上圖(b)中的紅色箭頭所示。這種參數(shù)共享可以進一步用于cubic inception模塊,如上圖(c)所示。3×3濾波操作的輸出分別來自3×3、5×5和7×7濾波單元,如上圖(c)中三個紅色箭頭所示。同樣,5×5濾波操作的輸出分別來自5×5和7×7濾波單元,如兩個綠色箭頭所示。
Multi-Scale object detection scheme
在新框架模型中,給每個給定位置k個邊界框,計算c類分數(shù)和每個邊界框四個頂點相對于默認邊界框的四個偏移量。最終,為特征圖內(nèi)的每個位置提供了總共k(c + 4)個過濾器。因此,每個尺寸為m×n的特征圖的輸出數(shù)量應為k(c + 4)mn。已證實,使用各種默認的框形狀將有助于為單發(fā)網(wǎng)絡預測框的任務,從而提高了目標定位和分類的準確性。 研究者采用這種多邊界框技術作為多尺度方案的第一個屬性。
深度特征學習起始模塊被應用在四個連續(xù)的高級層單元中。這四個層單元將其輸出深度特征直接傳輸?shù)阶罱K預測層,這將信息傳輸完全縮短。
從訓練的角度來看,這些縮短的連接使網(wǎng)絡的輸入和輸出彼此更接近,這有益于模型的訓練。高級層和最終預測層之間的直接連接緩解了梯度消失的問題,并增強了特征傳播。另一方面,四個高級層單元的序列通過語義和上下文信息獲取兩種方式最大化了深度特征提取和表示的能力。首先,它使后三個高層從先前的較低層獲取上下文信息。其次,同一級別的層可以提供不同范圍的上下文信息,以及可以在當前層輸出中自然構建的更精確的語義表達。這個過程是多尺度方案的第二個特性。
研究者使用多尺度過濾器來激活各種大小的感受野,以增強語義和上下文信息的提取。要注意的另一個方面是要素圖的大小。在大多數(shù)網(wǎng)絡中,特征圖的大小會隨著深度的增加而逐漸減小。這考慮到系統(tǒng)的內(nèi)存有限以及功能的比例不變。因此,由于其輸入特征圖的分辨率比在較早的層中產(chǎn)生的分辨率小得多,因此在網(wǎng)絡深處接受的多尺度濾波器將具有較少的計算負擔。這抵消了濾波操作增加帶來的計算負擔。這是擬議的多尺度方案的第三個特性。
Layer structure of deep inception module
提出了兩種深度特征學習網(wǎng)絡體系結構,分別成為MDFN-I1和MDFN-I2. 它們都具有四個high-level deep feature Inception單元。
3 實驗及可視化
Average precision(%) on KITTI validation set
from left to right, represent the results from SSD, MDFN-I1 and MDFN-I2
PASCAL VOC2007 test detection results
Detection results on COCO test-dev
從上往下分別是SSD、MDFN-I1和MDFN-I2檢測結果
基于作者提出的框架,在pytorch框架中實現(xiàn)了作者的基本思想,在COCO數(shù)據(jù)集中簡單訓練,最終結果比SSD結果好一點,具體效果如下:
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。