史上最全綜述:3D目標(biāo)檢測(cè)算法匯總?。?)
主要介紹LiDAR-相機(jī)、雷達(dá)、地圖融合等方法。主要方法及融合策略見下圖及表。
基于LiDAR-相機(jī)融合的多模態(tài)檢測(cè)
相機(jī)可以提供顏色信息,從中提取豐富的語義特征,而LiDAR傳感器擅長3D定位,提供豐富的3D結(jié)構(gòu)信息。很多工作已經(jīng)能夠?qū)⑾鄼C(jī)和激光雷達(dá)信息進(jìn)行融合來提升3D目標(biāo)檢測(cè)精度。
由于基于LiDAR的檢測(cè)方法比基于相機(jī)的檢測(cè)方法性能要好得多,目前SOTA方法主要是基于激光雷達(dá)的檢測(cè)方法,并嘗試將圖像信息融入到不同階段的激光雷達(dá)檢測(cè)流程中。
鑒于基于LiDAR和基于相機(jī)的檢測(cè)系統(tǒng)的復(fù)雜性,將兩種模式結(jié)合在一起不可避免地會(huì)帶來額外的計(jì)算開銷和推斷時(shí)間延遲。因此,如何有效地融合多模態(tài)信息仍然是具有挑戰(zhàn)性的。
1、前融合方法
前融合指的是在點(diǎn)云還沒有進(jìn)入基于LiDAR的檢測(cè)器前,將圖像的知識(shí)整合到點(diǎn)云中。因此,前融合框架一般采用順序構(gòu)建的方式:首先利用2D檢測(cè)或分割網(wǎng)絡(luò)從圖像中提取知識(shí),然后將圖像知識(shí)傳遞給點(diǎn)云,最后將增強(qiáng)后的點(diǎn)云反饋給基于LiDAR的點(diǎn)云3D目標(biāo)檢測(cè)器。
根據(jù)融合類型的不同,前融合方法可分為區(qū)域級(jí)知識(shí)融合和點(diǎn)級(jí)知識(shí)融合兩類,具體見下圖。
前融合主要是通過圖像知識(shí)來增強(qiáng)點(diǎn)云,大多數(shù)方法都兼容大部分的LiDAR 3D目標(biāo)檢測(cè)器,并可以作為一種相當(dāng)有效的預(yù)處理步驟,以提高檢測(cè)性能。然而,前融合方法通常是順序進(jìn)行多模態(tài)融合和3D目標(biāo)檢測(cè)的,這帶來了額外的推理延遲。
考慮到融合步驟通常需要復(fù)雜的2D目標(biāo)檢測(cè)或語義分割網(wǎng)絡(luò),多模態(tài)融合帶來的時(shí)間成本通常很高。因此,如何在前期有效地進(jìn)行多模態(tài)融合成為關(guān)鍵。
中融合方法試圖在基于LiDAR的3D目標(biāo)檢測(cè)器的中間階段,例如在骨干網(wǎng)絡(luò)中,在proposal生成階段,或在RoI細(xì)化階段,融合圖像和激光雷達(dá)特征。具體分類見下圖。
中融合方法建議對(duì)多模態(tài)表示進(jìn)行更深入的融合,并產(chǎn)生更高質(zhì)量的3D框。然而,相機(jī)和激光雷達(dá)的特征本質(zhì)上是異構(gòu)的,來自不同的視角,因此在融合機(jī)制和視角對(duì)齊方面還存在一些問題。
因此,如何有效地融合異構(gòu)數(shù)據(jù),以及如何處理來自多個(gè)視角的特征聚合,仍然是研究領(lǐng)域面臨的挑戰(zhàn)。
后融合就是將圖像得到的2D結(jié)果和LiDAR得到的3D結(jié)果進(jìn)行融合的方法。該方法采用相機(jī)與激光雷達(dá)并行進(jìn)行目標(biāo)檢測(cè),并將輸出的2D和3D框進(jìn)行融合,得到更精確的3D檢測(cè)結(jié)果。
CLOCs[194]引入了一個(gè)包含成對(duì)的2D-3D框的稀疏張量,并從這個(gè)稀疏張量學(xué)習(xí)最終的目標(biāo)置信度。[195]改進(jìn)了[194],引入了一種輕量級(jí)的3D檢測(cè)器提示圖像檢測(cè)器。下圖為后融合示意圖。
后融合方法以實(shí)例級(jí)融合為核心,僅對(duì)不同模態(tài)的輸出進(jìn)行多模態(tài)融合,避免了中間特征或輸入點(diǎn)云上復(fù)雜的交互。
因此,這些方法比其他方法更有效。然而,由于不依賴于相機(jī)和激光雷達(dá)傳感器的深度特征,這些方法無法整合不同模式的豐富語義信息,限制了這類方法的潛力。
基于雷達(dá)信號(hào)的多模態(tài)檢測(cè)
在自動(dòng)駕駛系統(tǒng)中,雷達(dá)不可缺少,相比LiDAR,在實(shí)際應(yīng)用中主要有四點(diǎn)優(yōu)勢(shì):便宜、不太容易受到極端天氣影響、探測(cè)距離較大、提供額外的速度測(cè)量。然而,與產(chǎn)生密集點(diǎn)云的激光雷達(dá)相比,雷達(dá)只提供稀疏和有噪聲的測(cè)量。
主要的融合方式包括雷達(dá)-LiDAR融合、雷達(dá)-相機(jī)融合。
結(jié)合高精地圖的多模態(tài)檢測(cè)
高精地圖(HD maps)包含道路形狀、道路標(biāo)記、交通標(biāo)志、障礙物等詳細(xì)的道路信息。高精地圖提供了豐富的周圍環(huán)境語義信息,可以作為輔助3D目標(biāo)檢測(cè)的有力手段。
如何將地圖信息整合到3D目標(biāo)檢測(cè)器中呢?高精地圖可以很容易地轉(zhuǎn)換為鳥瞰視圖,并與柵格化BEV點(diǎn)云或特征圖融合。
融合可以通過簡(jiǎn)單地將鳥瞰圖上的柵格化點(diǎn)云和高精地圖的通道連接起來進(jìn)行[313],或者將LiDAR點(diǎn)云和高精地圖分成單獨(dú)的主干,融合兩種模式的輸出特征圖[70]。還有其他地圖類型,如可見性地圖[100]等。
基于時(shí)序的3D目標(biāo)檢測(cè)主要分為三種:激光雷達(dá)序列檢測(cè),流輸入檢測(cè),從視頻中檢測(cè)。下圖為主要方法。
激光雷達(dá)序列
大多數(shù)方法專注于從單幀點(diǎn)云中檢測(cè),也有許多方法利用多幀點(diǎn)云來實(shí)現(xiàn)更準(zhǔn)確的3D目標(biāo)檢測(cè)。它們通過各種時(shí)間建模工具融合多幀特征來解決時(shí)序檢測(cè)問題,也有通過將多幀目標(biāo)點(diǎn)合并到單一幀中來獲得更完整的3D形狀。
時(shí)序3D目標(biāo)檢測(cè)在離線3D自動(dòng)打標(biāo)簽流程中取得了巨大的成功,但在實(shí)時(shí)應(yīng)用中,這些方法仍然存在延遲問題,合并多幀不可避免地會(huì)帶來額外的時(shí)間和內(nèi)存成本。具體方法見下圖示意。
利用流數(shù)據(jù)進(jìn)行3D目標(biāo)檢測(cè)
激光雷達(dá)點(diǎn)云本質(zhì)上是一個(gè)流式數(shù)據(jù)源,其中激光雷達(dá)數(shù)據(jù)包在掃描中順序記錄。激光雷達(dá)傳感器完整掃描360度,大約需要50-100毫秒,這意味著當(dāng)點(diǎn)云產(chǎn)生時(shí),已經(jīng)不能精確的反應(yīng)實(shí)時(shí)的場(chǎng)景信息了。而自動(dòng)駕駛通常需要最少的反應(yīng)時(shí)間來保證駕駛安全。
利用流數(shù)據(jù)的方法通常在動(dòng)態(tài)LiDAR數(shù)據(jù)中檢測(cè)3D目標(biāo),而不用等完整掃描完成。與完整激光雷達(dá)掃描檢測(cè)相比,基于流式的3D目標(biāo)檢測(cè)是一種更準(zhǔn)確、低延遲的車輛感知解決方案。具體過程如下圖所示。
自動(dòng)駕駛應(yīng)用中很容易獲取視頻數(shù)據(jù)。相比基于單圖像的3D目標(biāo)檢測(cè),基于視頻的3D檢測(cè)得益于序列圖像間的時(shí)間關(guān)系。大量的研究工作集中在基于單幅圖像的3D目標(biāo)檢測(cè),研究視頻中的3D目標(biāo)檢測(cè)問題的較少,主要也是通過跟蹤和融合相同目標(biāo)來進(jìn)行3D目標(biāo)的檢測(cè)。
前面的一些3D目標(biāo)檢測(cè)方法主要默認(rèn)都是全監(jiān)督學(xué)習(xí),并且是在某個(gè)特定的域內(nèi)進(jìn)行。實(shí)際情況則不可避免的遇到跨域和標(biāo)注數(shù)據(jù)缺少的問題。針對(duì)這些問題,主要從這方面去優(yōu)化:域自適應(yīng)、弱監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)。
在數(shù)據(jù)收集過程中,某些域空白現(xiàn)象是普遍存在的。不同傳感器的設(shè)置和安裝、不同的地理位置和不同的天氣將導(dǎo)致完全不同的數(shù)據(jù)域。在大多數(shù)情況下, 在某一域內(nèi)訓(xùn)練的3D目標(biāo)檢測(cè)器在其他域表現(xiàn)不佳。
研究人員提出了許多技術(shù)來解決3D目標(biāo)檢測(cè)的域適配問題,例如利用源域和目標(biāo)域的一致性,目標(biāo)域的自訓(xùn)練等。然而,大多數(shù)方法只關(guān)注于解決一個(gè)特定的領(lǐng)域轉(zhuǎn)移問題。設(shè)計(jì)一種能夠普遍應(yīng)用于3D目標(biāo)檢測(cè)中任何領(lǐng)域轉(zhuǎn)移任務(wù)的域自適應(yīng)方法將是一個(gè)有前途的研究方向。
域自適應(yīng)包括跨數(shù)據(jù)集的、跨天氣的、跨傳感器的、以及仿真到現(xiàn)實(shí)的域適應(yīng),具體參考下圖及表。
弱監(jiān)督3D目標(biāo)檢測(cè)
現(xiàn)有的3D目標(biāo)檢測(cè)方法依賴大量人工標(biāo)記的3D目標(biāo)框,但這些3D框的標(biāo)注相當(dāng)昂貴。弱監(jiān)督學(xué)習(xí)是解決這一問題的一個(gè)很有前途的方案,其中弱監(jiān)督信號(hào),如更容易標(biāo)的2D標(biāo)注,被用來訓(xùn)練3D目標(biāo)檢測(cè)模型。
弱監(jiān)督的3D目標(biāo)檢測(cè)在數(shù)據(jù)標(biāo)注方面需要的人力較少,但弱監(jiān)督方法與全監(jiān)督方法之間仍存在不可忽視的性能差距。
弱監(jiān)督3D目標(biāo)檢測(cè)方法利用弱監(jiān)督,而不是完全的標(biāo)注3D框數(shù)據(jù)訓(xùn)練3D目標(biāo)檢測(cè)器。弱監(jiān)督包括圖像2D框[291,199]、預(yù)訓(xùn)練圖像檢測(cè)器[218]、BEV目標(biāo)中心和車輛實(shí)例[175, 176]。
這些方法通常會(huì)設(shè)計(jì)新穎的學(xué)習(xí)機(jī)制來跳過3D框的監(jiān)督,學(xué)習(xí)從弱信號(hào)中挖掘有用信息來實(shí)現(xiàn)3D目標(biāo)檢測(cè)。詳見下圖示意。
半監(jiān)督3D目標(biāo)檢測(cè)
在現(xiàn)實(shí)應(yīng)用中,數(shù)據(jù)標(biāo)注比數(shù)據(jù)收集需要更多的人力。通常情況下,一輛數(shù)據(jù)采集車一天可以收集超過200k幀的點(diǎn)云,而熟練的人類每天只能標(biāo)注100-200幀,大量未標(biāo)注數(shù)據(jù)沒有很好的利用。
半監(jiān)督學(xué)習(xí)利用少量標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù),共同訓(xùn)練出更強(qiáng)的模型,這是一個(gè)很有前途的方向。將3D目標(biāo)檢測(cè)與半監(jiān)督學(xué)習(xí)相結(jié)合可以提高檢測(cè)性能。
半監(jiān)督3D目標(biāo)檢測(cè)主要有兩類方法:偽標(biāo)簽和教師-學(xué)生方法。偽標(biāo)簽方法[17,265]首先用有標(biāo)簽的數(shù)據(jù)訓(xùn)練一個(gè)3D目標(biāo)檢測(cè)器,然后用這個(gè)3D檢測(cè)器對(duì)未標(biāo)注域的數(shù)據(jù)打上偽標(biāo)簽。
最后,用未標(biāo)注域上的偽標(biāo)簽重新訓(xùn)練3D目標(biāo)檢測(cè)器。教師-學(xué)生方法[354]將Mean Teacher[255]范式應(yīng)用于3D目標(biāo)檢測(cè)。
首先在標(biāo)注域上訓(xùn)練教師檢測(cè)器,然后教師檢測(cè)器通過約束兩種檢測(cè)模型輸出的一致性來指導(dǎo)學(xué)生檢測(cè)器在未標(biāo)記域上的訓(xùn)練。具體示意見下圖。
自監(jiān)督3D目標(biāo)檢測(cè)
自監(jiān)督預(yù)訓(xùn)練(Self-supervised pre-training)被廣泛應(yīng)用于許多計(jì)算機(jī)視覺任務(wù)中,首先以自監(jiān)督的方式在大規(guī)模的無標(biāo)注數(shù)據(jù)上對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后在有標(biāo)注的數(shù)據(jù)集上進(jìn)行微調(diào),以獲得更好的性能。
在自動(dòng)駕駛場(chǎng)景中,用于3D目標(biāo)檢測(cè)的自監(jiān)督預(yù)訓(xùn)練還沒有得到廣泛的探索。已有的方法試圖將對(duì)比學(xué)習(xí)等自監(jiān)督方法應(yīng)用于3D目標(biāo)檢測(cè)問題,但多模態(tài)數(shù)據(jù)中豐富的語義信息沒有得到很好的利用。
如何有效地處理原始點(diǎn)云和圖像,以預(yù)訓(xùn)練出高性能3D目標(biāo)檢測(cè)器仍是一個(gè)挑戰(zhàn)。
自監(jiān)督方法通常將對(duì)比學(xué)習(xí)技術(shù)[94,41]應(yīng)用到3D目標(biāo)檢測(cè)。具體來說,首先通過數(shù)據(jù)增強(qiáng)將輸入點(diǎn)云轉(zhuǎn)化為兩個(gè)視圖,然后使用對(duì)比學(xué)習(xí)來約束兩個(gè)點(diǎn)云視圖中相同3D位置的特征一致性,最后將這個(gè)預(yù)訓(xùn)練模型在有標(biāo)簽數(shù)據(jù)集上進(jìn)行微調(diào),得到更好性能。下圖為示意圖。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。