貝葉斯優(yōu)化與結構化預測 | 大幅度提升目標檢測精度
節(jié)假日在家里整理資料,發(fā)現一篇很早之前閱讀過的一篇paper,主要用貝葉斯優(yōu)化器和結構化預測來提升目標檢測的精度,今天和大家分享下這框架,有興趣的同學可以在這條想法上繼續(xù)衍生,提出更好的新想法新框架!
一、前言&簡要
基于深度卷積神經網絡的目標檢測系統(tǒng)最近在幾個目標檢測基準上取得了突破性的進展。雖然這些high-capacity神經網絡學習到的特征可以區(qū)分類別,但不準確的定位仍然是檢測錯誤的主要來源。在高容量CNN架構的基礎上,研究者通過以下來解決定位問題。1)使用基于貝葉斯優(yōu)化的搜索算法,按順序提出目標邊界框的候選區(qū)域;2)用結構化損失訓練CNN,明確地懲罰CNN的定位不準確性。
在實驗中,研究者證明了在VOC 2007年和2012年的數據集上,所提出的每種方法都比基線方法提高了檢測性能。此外,兩種方法是互補的,結合起來明顯優(yōu)于以前的先進技術。
二、背景
DPM及其變體多年來一直是目標檢測任務的主要方法。這些方法使用圖像描述符,如HOG、SIFT和LBP作為特征,并密集地掃描整個圖像,以找到最大的響應區(qū)域。隨著CNN在大規(guī)模目標識別上取得的顯著成功,提出了幾種基于CNNs的檢測方法。遵循傳統(tǒng)的區(qū)域候選滑動窗口方法,Sermanet等人[Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. OverFeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014 ]提出使用cnn對整個圖像進行詳盡的搜索,但通過在多個尺度上同時對整個圖像進行卷積,使其有效。除了滑動窗法,Szegedy等人[C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS]使用CNNs返回圖像中目標的邊界框,并使用另一個CNN分類器來驗證預測的框是否包含對象。Girshick等人[R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR]根據“recognition using regions”范式提出了R-CNN,這也激發(fā)了之前幾種最先進的方法。在該框架下,通過選擇性搜索算法為圖像提出了幾百或數千個區(qū)域,CNN確定這些候選區(qū)域。研究者的新方法是建立在使用[K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR]中提出的CNN的R-CNN框架上的,但是,1)一種新的方法在定位差的情況下提出額外的邊界框,2)一個具有提高定位靈敏度的分類器。
三、Fine-grained search for bounding box via Bayesian optimization
3.1 General Bayesian optimization framework
在貝葉斯優(yōu)化框架中,假設f=(x,y)是從概率模型中提取的:
貝葉斯優(yōu)化在函數計算的數量方面是有效的,當f的計算成本昂貴時也特別有效。當a(yN | DN)比f計算要簡便得多,而arg max yN+1(yN+1 | DN)的計算只需要一些函數計算時,可以有效地找到一個更接近GT的解決方案。
3.2 Efficient region proposal via GP regression
在這里,研究者使用常數平均函數m(y) = m0和SEard,確定如下:
GP回歸(GPR)問題試圖找到一個新的參數yN1,給定N個觀測DN,最大化獲取函數的值,在者情況下,用期望的改進(EI)定義為:
3.3Local fine-grained search
四、實驗
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。