基于深度學習的特征提取和匹配(2)
UCN【4】
通用對應網(wǎng)絡(Universal Correspondence Network,UCN)用于幾何和語義匹配的視覺對應,包括從剛性運動到類內(nèi)形狀或外觀變化等不同場景。深度測度學習過程,直接學習來保留幾何或語義相似性的特征空間。一種卷積空間變換器(convolutional spatial transformer,CST)模擬傳統(tǒng)特征(如SIFT)的補丁歸一化,可顯著提高類內(nèi)形狀變化語義對應(semantic correspondences)的準確性。
如圖是UCN和傳統(tǒng)方法的比較:各種類型的視覺對應問題需要不同的方法,例如用于稀疏結構的SIFT或SURF,用于密集匹配的DAISY或DSP,用于語義匹配的SIFT flow或FlowWeb。UCN準確有效地學習幾何對應、致密軌跡或語義對應的度量空間。
下圖是UCN系統(tǒng)概述:網(wǎng)絡是全卷積的,由一系列卷積、池化、非線性和卷積空間變換器組成,還有通道L2歸一化和對應對比損失函數(shù)。作為輸入,網(wǎng)絡采用圖像對應點的一對圖像和坐標(藍色:正,紅色:負)。對應于正樣本點(來自兩個圖像)的特征被訓練為彼此更接近,而對應于負樣本點的特征被訓練為相隔一定距離。在最后L2歸一化之前和FCNN之后,設置一個卷積空間變換器來歸一化補丁或考慮更大的上下文信息。
下圖是視覺對應的對比損失函數(shù)示意圖:需要三個輸入,從圖像中提取的兩個密集特征及其坐標,和用于正負對應對的表。損失函數(shù)計算公式如下
其中s=1位正對應對,而s=0為負對應對。
如圖比較卷積空間變換器和其他方法的比較:(a)SIFT標準化旋轉和縮放;(b)空間變換器將整個圖像作為輸入來估計變換;(c)卷積空間變換器對特征進行獨立變換。
DGC-Net【5】
DGC-Net(Dense Geometric Correspondence Network)【5】是一種基于CNN實現(xiàn)從粗到細致密像素對應圖(pixel correspondence map)的框架,它利用光流法的優(yōu)勢,并擴展到大變換,提供密集和亞像素精確的估計。訓練數(shù)據(jù)來自合成的變換,也應用于相機姿態(tài)估計的問題。
如圖所示,一對輸入圖像被饋入由兩個預訓練的CNN分支組成的模塊,這些分支構成一個特征金字塔。相關層從金字塔的粗層(頂)獲取源圖像和目標圖像的特征圖,并估計它們之間的成對相似性。然后,對應圖(correspondence map)****獲取相關層(correlation layer)的輸出并直接預測該金字塔在特定層的像素對應關系。最后,以迭代方式細化估計。
為了在特征空間中創(chuàng)建輸入圖像對的表示,構造了一個有兩個共享權重分支的Siamese神經(jīng)網(wǎng)絡。分支用在ImageNet訓練的VGG-16架構,并在最后的池化層截斷,然后進行L2歸一化。在每個分支的不同部分提取特征fs,ft創(chuàng)建具有5-層特征金字塔(從頂部到底部),其分辨率是[15×15, 30×30, 60×60, 120×120, 240×240],在網(wǎng)絡訓練過程的其余時間固定CNN分支的權重。
為估計兩個圖像之間的相似性,計算源圖像和目標圖像的標準化特征圖之間的相關體積。不同于光流法,直接計算全局相關性并在相關層前后做L2標準化以強烈減少模糊匹配(見圖所示)。
將相關層輸出送到5個卷積塊(Conv-BN-ReLU)組成的對應圖****,估計特征金字塔特定層l 的2D致密對應域ω(l)est。這是參數(shù)化估計,圖中每個預測像素位置屬于寬度和高度歸一化的圖像坐標區(qū)間[-1,1]。也就是說,上采樣在(l-1)層的預測對應域,讓第l層源圖像的特征圖變形到目標特征。最后,在上采樣域,變形源fs(ω(l)est)和目標ft(l)的特征沿著通道維度拼接在一起,并相應地作為輸入提供給第l級的對應圖****。
****中每個卷積層被填充以保持特征圖的空間分辨率不變。此外,為了能夠在金字塔的底層捕獲更多空間上下文信息,從l = 3開始,將不同的空洞(dilation)因子添加到卷積塊以增加感受野。特征金字塔創(chuàng)建者、相關層和對應圖****的分層鏈一起組成CNN架構,稱為DGC-Net。
給定圖像對和地面實況像素相關映射ωgt,定義分層目標損失函數(shù)如下:
其中||.||1是估計的對應圖和GT對應圖之間的L1距離,M(l)gt 是GT二值掩碼(匹配掩碼),表示源圖像的每個像素在目標是否具有對應關系。
除了DGC-Net生成的像素對應圖之外,還直接預測每個對應的置信度。具體來說,通過添加匹配(matchability)分支來修改DGC-Net結構。它包含四個卷積層,輸出了概率圖(參數(shù)化為sigmoid函數(shù)),標記預測對應圖每個像素的置信度,這樣架構稱為DGC + M-Net。把此問題作為像素分類任務,優(yōu)化一個二值交叉熵(BCE),其中邏輯損失(logits loss)定義為:
最終的損失為:
更多的DGC-Net網(wǎng)絡細節(jié)見圖所示。
而DGC+M-Net的一些網(wǎng)絡細節(jié)見圖所示。
參考文獻
1. E. Simo-Serra et al., “Discriminative learning of deep convolutional feature point descriptors”. ICCV 2015
2. K Yi et al.,“Learned Invariant Feature Transform”, arXiv 1603.09114, 2016
3. X Xu et al.,“MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching”, CVPR 2015
4. C Choy et al., “Universal Correspondence Network”,NIPS 2016
5. I Melekhov et al, “DGC-Net: Dense Geometric Correspondence Network”, CVPR 2019
本文僅做學術分享,如有侵權,請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
西門子plc相關文章:西門子plc視頻教程
攝像頭相關文章:攝像頭原理