CVPR2021:推廣到開放世界的在線自適應(yīng)深度視覺里程計
Generalizing to the Open World Deep Visual Odometry with Online Adaptation
CVPR2021:推廣到開放世界的在線自適應(yīng)深度視覺里程計
【摘要】
近些年,基于學(xué)習(xí)的視覺里程計已經(jīng)展現(xiàn)出了較為可觀的結(jié)果,但預(yù)訓(xùn)練網(wǎng)絡(luò)在未知環(huán)境中很容易失效。在這篇論文中,提出一個用于深度VO的在線自適應(yīng)網(wǎng)絡(luò)(借助場景不可知的幾何計算和貝葉斯推理的輔助)。與基于學(xué)習(xí)的位姿估計不同,論文的蘇阿女法從深度和光流中解算出位姿,同時通過在線學(xué)習(xí)新觀測的不確定性不斷提高單證圖像的深度估計。另外,通過差分高斯牛頓層,一種在線學(xué)習(xí)光度不確定性算法也被用于進(jìn)一步的深度和位姿估計。論文提出的算法在KITTI室外數(shù)據(jù)集和TUM室內(nèi)數(shù)據(jù)集上得到了驗證,實驗證明,我們的算法在自監(jiān)督VO算法中實現(xiàn)了最佳的泛化能力(泛化能力:機(jī)器學(xué)習(xí)算法對新樣本的適應(yīng)能力)。
【主要內(nèi)容】
經(jīng)典的SLAM/VO算法由于依賴底層特征因此在弱紋理、動態(tài)環(huán)境下表現(xiàn)性差,而深度神經(jīng)網(wǎng)絡(luò)可以提取高級特征和并通過學(xué)習(xí)進(jìn)行端到端的推斷,許多基于學(xué)習(xí)的VO算法已打破了經(jīng)典VO的限制。在這些算法中,自監(jiān)督VO算法能通過最小化光度誤差同時學(xué)習(xí)相機(jī)位姿、深度和光流。然而基于學(xué)習(xí)的VO當(dāng)遇到與預(yù)訓(xùn)練環(huán)境不同的場景時,表現(xiàn)性能較差,因此預(yù)訓(xùn)練網(wǎng)絡(luò)需要以自監(jiān)督的方式實現(xiàn)在線自適應(yīng)。
為提高未知場景下VO的在線自適應(yīng)能力,論文提出了一種自監(jiān)督的架構(gòu),結(jié)合了深度學(xué)習(xí)和幾何計算的優(yōu)點。
主要貢獻(xiàn):
提出一個泛化的深度VO,其使用場景未知幾何公式和貝葉斯推斷來加速自監(jiān)督在線自適應(yīng)性;
估計的深度不斷被貝葉斯融合網(wǎng)絡(luò)優(yōu)化,后續(xù)用于訓(xùn)練深度和光流
引入在線學(xué)習(xí)的深度和光流不確定度以實現(xiàn)精度更高的深度估計和差分高斯牛頓優(yōu)化。
【整體結(jié)構(gòu)】
系統(tǒng)框架圖
首先,F(xiàn)lowNet網(wǎng)絡(luò)估計關(guān)鍵幀和當(dāng)前幀之間的稠密光流,同時估計光流不確定度映射。另外,使用DepthNet網(wǎng)絡(luò)估計關(guān)鍵幀的深度均值和不確定度(為當(dāng)前場景幾何提供先驗)。通過本質(zhì)矩陣或PNP從被選擇的匹配圖像中求解位姿。在線自適應(yīng)階段,首先通過可微三角化算法重建了的稀疏深度。然后先驗關(guān)鍵幀深度通過貝葉斯更新網(wǎng)絡(luò)的深度估計得到進(jìn)一步的提高。接著,差分高斯牛頓層最小化了和的光度損失。最后,優(yōu)化后的深度和光流作為偽真值來監(jiān)督DepthNet和FlowNet的在線學(xué)習(xí)。
【從光流中進(jìn)行位姿恢復(fù)】
使用RAFT學(xué)習(xí)關(guān)鍵幀和當(dāng)前幀之間的稠密光流,關(guān)鍵幀和上一幀之間的光流作為先驗來初始化當(dāng)前光流估計。選擇魯棒的對應(yīng)關(guān)系(),設(shè)定這個對應(yīng)關(guān)系有較好的前后光流一致性和適度的流動幅度:
通過用RANSAC算法求解本質(zhì)矩陣來計算關(guān)鍵幀和當(dāng)前幀之間的位姿:
通過PNP算法,最小化重投影位姿來計算相機(jī)的位姿:
【深度模型】
論文提出在一個統(tǒng)一的貝葉斯網(wǎng)絡(luò)中建模深度估計和更新。由于逆深度遵循高斯分布且比目標(biāo)距離更具有魯棒性,因此使用逆深度進(jìn)行建模。將好的逆深度測量值建模為圍繞真值的高斯分布,而不好的逆深度視為觀測噪聲,均勻分布于:
在線推導(dǎo)階段,我們在每個時間戳上尋找的最大后驗估計,可用的高斯分布和貝塔分布來近似:
DepthNet中關(guān)鍵幀的深度通過單張圖像估計和逆深度的不確定度來進(jìn)行初始化:
在自適應(yīng)過程中,DeepNet在線學(xué)習(xí)新的場景幾何的先驗知識。此外,學(xué)習(xí)到的不確定性還可以用來衡量概率深度融合的可靠性。
【在線深度優(yōu)化】
關(guān)鍵幀的深度估計可進(jìn)一步通過雙視圖三角化進(jìn)行計算:
其中,dis()表示距離。中點三角化是差分的,是的我們的VO架構(gòu)可以實現(xiàn)端到端的在線學(xué)習(xí)。
在線自適應(yīng)過程中,用于更新先驗深度估計從而獲得MAP估計,如下圖:
【學(xué)習(xí)不確定度的光度誤差】
已知估計的位姿和優(yōu)化后的深度,可通過轉(zhuǎn)換到來合成:
然而視場合成是建立在光度一致性假設(shè)下,實際中可能并不適用。為了緩解這種情況,我們將這種情況視為觀測噪聲并使用深度神經(jīng)網(wǎng)絡(luò)來對每個RGB像素估計一個后驗概率分布。通過將觀測噪聲設(shè)想為拉普拉斯形式,在線學(xué)習(xí)過程可以被建模為最小化負(fù)對數(shù),從而來轉(zhuǎn)換光度損失:
【差分高斯牛頓優(yōu)化】
進(jìn)一步,論文提出使用差分高斯牛頓層來最小化,從而實現(xiàn)優(yōu)化深度和位姿。計算兩個關(guān)鍵幀中每一個像素的權(quán)重光度損失:
計算關(guān)于和的一階偏導(dǎo):
得到當(dāng)前估計的增量:
高斯-牛頓算法是自然可微的,我們實現(xiàn)它作為一個層的神經(jīng)網(wǎng)絡(luò)。在實踐中,我們發(fā)現(xiàn)它只在3次迭代內(nèi)收斂
【損失函數(shù)】
論文提出使用下列的損失函數(shù)來以自監(jiān)督的形式在線學(xué)習(xí)DepthNet和FlowNet。
Smoothness loss
為了加強(qiáng)局部平滑,我們引入了深度和光流的邊緣感知損失:
Depth Loss
Flow Loss
優(yōu)化后的深度和位姿可用于合成光流,在在線自適應(yīng)過程使用來監(jiān)督FlowNet:
Photometric Loss
在之前定義過光度損失,因此總的損失函數(shù)為:
【實驗】
對于DepthNet網(wǎng)絡(luò),使用與Monodepth同樣的架構(gòu),并在輸出時增加一個5*5的卷積層來估計深度不確定度映射;
光流網(wǎng)絡(luò)是基于RAFT的,在輸出時增加了一個5*5的卷積層和Sigmoid層來估計光流不確定度。
FlowNet和DepthNet先以自監(jiān)督的方式進(jìn)行進(jìn)行預(yù)訓(xùn)練,Adam優(yōu)化器使用的參數(shù)。
在在線自適應(yīng)階段,我們在每一個時間戳進(jìn)行兩次迭代重新訓(xùn)練FlowNet和DepthNet。
論文的實驗方面,是在Cityscapes數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的,在KITTI數(shù)據(jù)集上進(jìn)行測試。比較了當(dāng)前較好的自監(jiān)督VO:GeoNet, Vid2Depth, Zhan, SAVO, Li以及經(jīng)典算法ORB-SLAM2和VISO2。另外對比了Zhao和DF-VO,這兩種算法都結(jié)合了預(yù)訓(xùn)練網(wǎng)絡(luò)和經(jīng)典的VO過程。
上圖是在KITTI數(shù)據(jù)集上測試的深度估計結(jié)果,得益于論文提出的三角化過程和多幀深度優(yōu)化,算法在邊緣估計上得到了較好的表現(xiàn)能力。
【結(jié)論】
在本文中,我們提出了一個基于場景不可知幾何計算和貝葉斯推理的深度VO在線自適應(yīng)框架。利用貝葉斯深度濾波器對觀測數(shù)據(jù)進(jìn)行改進(jìn),得到了預(yù)測的單視圖深度。同時,為了處理觀測噪聲,我們對深度和光度的不確定性進(jìn)行了顯式建模。利用可微高斯-牛頓層優(yōu)化的位姿、深度和光流進(jìn)行在線自我監(jiān)監(jiān)督。大量的環(huán)境變化實驗表明,我們的方法比目前最先進(jìn)的基于學(xué)習(xí)的VO方法有更好的泛化能力。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
接地電阻相關(guān)文章:接地電阻測試方法