多尺度深度特征(上):多尺度特征學習才是目標檢測精髓
深度特征學習方案將重點從具有細節(jié)的具體特征轉移到具有語義信息的抽象特征。它通過構建多尺度深度特征學習網絡 (MDFN) 不僅考慮單個對象和局部上下文,還考慮它們之間的關系。
1 前言
目前深度學習用于目標檢測已經習以為常。從SSD到Yolo系列,其中:
深層網絡的感受野比較大,語義信息表征能力強,但是特征圖的分辨率低,幾何信息的表征能力弱(空間幾何特征細節(jié)缺乏);
低層網絡的感受野比較小,幾何細節(jié)信息表征能力強,雖然分辨率高,但是語義信息表征能力弱。
高層的語義信息能夠幫助我們準確的檢測出目標。
SSD框架
ASPP網絡
Cascaded
下采樣倍數(shù)?。ㄒ话闶菧\層)的特征感受野小,適合處理小目標,小尺度特征圖(深層)分辨率信息不足不適合小目標。在yolov3中對多尺度檢測的理解是,1/32大小的特征圖(深層)下采樣倍數(shù)高,所以具有大的感受野,適合檢測大目標的物體,1/8的特征圖(較淺層)具有較小的感受野,所以適合檢測小目標。FPN中的處理在下面。對于小目標,小尺度feature map無法提供必要的分辨率信息,所以還需結合大尺度的feature map。還有個原因是在深層圖做下采樣損失過多信息,小目標信息或許已經被忽略。
2 背 景
Feature Extraction
作為許多視覺和多媒體處理任務的基礎步驟,特征提取和表示得到了廣泛的研究,特別是在網絡結構層面,這在深度學習領域引起了很多關注。更深或更廣的網絡放大了體系結構之間的差異,并在許多計算機視覺應用中充分發(fā)揮了提高特征提取能力的作用。skip-connection技術通過在網絡的不同層級之間傳播信息,縮短它們的連接,在一定程度上解決了梯度消失的問題,這激發(fā)了構建更深網絡的熱點研究,并獲得了性能的提升。從5層的LeNet5到16層的VGGNet,再到1000層以上的ResNet,網絡的深度急劇增加。ResNet-101顯示了其在特征提取和表示方面的優(yōu)勢,尤其是在用作對象檢測任務的基礎網絡時。許多研究人員試圖用ResNet-101替換基礎網絡。
SSD在PASCAL VOC2007上使用Residual-101取得了更好的性能。RRC采用ResNet作為其預訓練的基礎網絡,并通過提出的循環(huán)滾動卷積架構產生了具有競爭力的檢測精度。然而,SSD通過將VGG-16替換為Residual-101,對于mAP僅獲得1%的提升,而其檢測速度從19 FPS下降到6.6 FPS,幾乎下降了3倍。VGG網絡在ImageNet Large Scale Visual Recognition Challenge(ILSVRC) 2014中獲得第二名。它淺薄,只有16層,是另一個廣泛使用的基礎網絡。它的優(yōu)勢在于提供了精度和運行速度之間的權衡。SSD通過將VGG-16作為特征提取器與端到端網絡結構中提出的多目標檢測器相結合,實現(xiàn)了最佳的總體性能。
如上圖所示,深度特征圖上的多尺度感受野將激活對象的語義和上下文信息。紅色、黃色、藍色和綠色分量代表四種尺寸的過濾器,分別對應不同的對象表達。例如,紅色的往往只對中間的紅色車輛敏感,而黃色和藍色的也可能覆蓋周圍的小型汽車,這是由于不同目標汽車之間相關性的語義表達。綠色的激活范圍最大,它不僅可以檢測所有車輛,還可以通過利用對象與其背景之間關系的語義描述來檢測道路。這個提取各種語義信息的過程可以在深層實現(xiàn),其中感受野能夠覆蓋更大的場景和深層產生的特征圖,已經擁有語義表達的抽象能力。
我們發(fā)現(xiàn)大多數(shù)可用的經典網絡都是強大的足夠的特征提取,并能夠提供必要的細節(jié)特征。受這些觀察的啟發(fā),研究者采用遷移學習模型,并在靠近網絡頂部的深層設計了一個高效的多尺度特征提取單元。提取的深層特征信息直接饋送到預測層。
研究者提出了四個inception模塊,并在四個連續(xù)的深層中incept它們,用于提取上下文信息。這些模塊顯著擴展了各種特征表達的能力,由此實現(xiàn)了基于深度特征學習的多尺度目標檢測器。
Attention to Deep Features
基于隨機深度的ResNet通過隨機dropping 層來改進深度CNN的訓練,這凸顯了傳播過程中存在大量冗余。 有研究者實驗證明,ResNet-101中的大多數(shù)梯度僅來自10到34層的深度。另一方面,基于小物體檢測依賴于較早層產生的細節(jié)信息的論點,許多方法從不同的淺層中提取多尺度信息。雖然實驗表明語義特征和目標的上下文也有助于小目標檢測以及遮擋檢測。DSSD采用反卷積層和skip connections來注入額外的上下文,從而在學習候選區(qū)域和池化特征之前增加特征圖分辨率。Mask R-CNN添加了從目標的更精細空間布局中提取的掩碼輸出。它由深度卷積產生的小特征圖提供的像素到像素對應關系解決。
3 新框架
假設:
這些特征圖應該能夠提供更加精確的細節(jié)特征,尤其是對于剛開始的淺層較;
轉換特征圖的功能應擴展到足夠深的層,以便可以將目標的高級抽象語義信息構建到特征圖中;
特征圖應包含適當?shù)纳舷挛男畔?,以便可以準確推斷出被遮擋的目標,小目標,模糊或重疊的目標并對其進行穩(wěn)健的定位。
因此,淺層和深層的特征對于目標識別和定位起著必不可少的作用。為了有效地利用檢測到的特征信息,應考慮另一約束條件,以防止特征被改變或覆蓋。
今天內容暫時到這里,下一期我們將帶領大家一起對新框架詳細分析!
下面我通過一小段視頻展示下多尺度深度特征學習的效果,主要基于單分支的YoloV3-Tiny網絡,效果如下:
小型的籃球被檢測到
科比投出的籃球被檢測到
觀眾席的觀眾的領帶被檢測到
簡單訓練后,不同尺寸都是可以檢測到,部分錯檢是因為沒有該類型數(shù)據(jù),被錯檢為相似目標
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。