史上最全綜述:3D目標(biāo)檢測(cè)算法匯總?。?)
來(lái)源:自動(dòng)駕駛之心
1摘要
近年來(lái),自動(dòng)駕駛因其減輕駕駛員負(fù)擔(dān)、提高行車(chē)安全的潛力而受到越來(lái)越多的關(guān)注。在現(xiàn)代自動(dòng)駕駛系統(tǒng)中,感知系統(tǒng)是不可或缺的組成部分,旨在準(zhǔn)確估計(jì)周?chē)h(huán)境的狀態(tài),并為預(yù)測(cè)和規(guī)劃提供可靠的觀察結(jié)果。
3D目標(biāo)檢測(cè)可以智能地預(yù)測(cè)自動(dòng)駕駛車(chē)輛附近關(guān)鍵3D目標(biāo)的位置、大小和類(lèi)別,是感知系統(tǒng)的重要組成部分。本文回顧了應(yīng)用于自動(dòng)駕駛領(lǐng)域的3D目標(biāo)檢測(cè)的進(jìn)展。首先,我們介紹了3D目標(biāo)檢測(cè)的背景并討論了該任務(wù)中的一些挑戰(zhàn)。
其次,我們從模型和傳感器輸入方面對(duì)3D目標(biāo)檢測(cè)的進(jìn)展進(jìn)行了全面調(diào)查,包括基于LiDAR、基于相機(jī)和多模態(tài)檢測(cè)方法。我們還對(duì)每一類(lèi)方法的潛力和挑戰(zhàn)進(jìn)行了深入分析。此外,我們系統(tǒng)地研究了3D目標(biāo)檢測(cè)在駕駛系統(tǒng)中的應(yīng)用。
最后,我們對(duì)3D目標(biāo)檢測(cè)方法進(jìn)行了性能分析,并進(jìn)一步總結(jié)了多年來(lái)的研究趨勢(shì),展望了該領(lǐng)域的未來(lái)方向。
自動(dòng)駕駛,旨在使車(chē)輛智能地感知周?chē)h(huán)境,并在很少或無(wú)需人力的情況下安全行駛,近年來(lái)取得了快速發(fā)展。
自動(dòng)駕駛技術(shù)已廣泛應(yīng)用于自動(dòng)駕駛卡車(chē)、無(wú)人駕駛出租車(chē)、送貨機(jī)器人等多種場(chǎng)景,能夠減少人為錯(cuò)誤,提高道路安全。作為自動(dòng)駕駛系統(tǒng)的核心組成部分,車(chē)輛感知通過(guò)各種傳感器輸入幫助自動(dòng)駕駛汽車(chē)了解周?chē)h(huán)境。
感知系統(tǒng)的輸入一般是多模態(tài)數(shù)據(jù)(來(lái)自攝像頭的圖像數(shù)據(jù)、來(lái)自LiDAR的點(diǎn)云、高精地圖等),并且會(huì)預(yù)測(cè)道路上關(guān)鍵要素的幾何和語(yǔ)義信息。高質(zhì)量的感知結(jié)果可作為軌跡預(yù)測(cè)和路徑規(guī)劃等后續(xù)步驟的可靠依據(jù)。
為了全面了解駕駛環(huán)境,感知系統(tǒng)涉及到許多視覺(jué)任務(wù),例如目標(biāo)檢測(cè)和跟蹤、車(chē)道線檢測(cè)、語(yǔ)義和實(shí)例分割等。在這些感知任務(wù)中,3D目標(biāo)檢測(cè)是車(chē)輛感知系統(tǒng)中最不可或缺的任務(wù)之一。
3D目標(biāo)檢測(cè)旨在預(yù)測(cè)3D空間中關(guān)鍵目標(biāo)的位置、大小和類(lèi)別,例如機(jī)動(dòng)車(chē)、行人、騎自行車(chē)的人等。與僅在圖像上生成2D邊界框并忽略目標(biāo)與本車(chē)的實(shí)際距離信息的2D目標(biāo)檢測(cè)相比,3D目標(biāo)檢測(cè)側(cè)重于對(duì)真實(shí)世界3D坐標(biāo)系中目標(biāo)的定位和識(shí)別。
3D目標(biāo)檢測(cè)在現(xiàn)實(shí)世界坐標(biāo)中預(yù)測(cè)的幾何信息可以直接用于測(cè)量本車(chē)與關(guān)鍵目標(biāo)之間的距離,并進(jìn)一步幫助規(guī)劃行駛路線和避免碰撞。
3D目標(biāo)檢測(cè)方法隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)和機(jī)器人領(lǐng)域的發(fā)展而迅猛發(fā)展?,F(xiàn)有的3D目標(biāo)檢測(cè)方法都試圖從特定方面解決3D目標(biāo)檢測(cè)問(wèn)題,例如從特定傳感器類(lèi)型,數(shù)據(jù)表示等,與其他類(lèi)別的方法缺乏系統(tǒng)的比較。
因此綜合分析各種類(lèi)型的3D目標(biāo)檢測(cè)方法的優(yōu)缺點(diǎn),可以為相關(guān)研究人員提供一些參考?;诖四康?,本文全面回顧了自動(dòng)駕駛應(yīng)用中的3D目標(biāo)檢測(cè)方法,并對(duì)不同方法進(jìn)行深入分析和系統(tǒng)比較。
與現(xiàn)有的綜述文章[5, 139, 215]相比,本文廣泛涵蓋了該領(lǐng)域的最新進(jìn)展,例如基于深度圖像的3D目標(biāo)檢測(cè)、自/半/弱監(jiān)督3D目標(biāo)檢測(cè)、端到端自動(dòng)駕駛系統(tǒng)中的3D目標(biāo)檢測(cè)等。
與之前僅關(guān)注點(diǎn)云[88、73、338]、單目圖像[297、165]和多模態(tài)輸入[ 284]相比,我們的論文系統(tǒng)地研究了來(lái)自所有傳感器類(lèi)型和大多數(shù)應(yīng)用場(chǎng)景的3D目標(biāo)檢測(cè)方法。
這項(xiàng)工作的主要貢獻(xiàn)可以總結(jié)如下:
- 我們從不同的角度全面回顧了3D目標(biāo)檢測(cè)方法,包括來(lái)自不同傳感器輸入的檢測(cè)(基于LiDAR、基于攝像頭和多模態(tài))、時(shí)間序列檢測(cè)、標(biāo)簽高效檢測(cè)、以及3D目標(biāo)檢測(cè)在駕駛系統(tǒng)中的應(yīng)用。
- 我們從結(jié)構(gòu)和層次上總結(jié)了3D目標(biāo)檢測(cè)方法,對(duì)這些方法進(jìn)行了系統(tǒng)分析,并為不同類(lèi)別方法的潛力和挑戰(zhàn)提供了有價(jià)值的見(jiàn)解。
- 對(duì)3D目標(biāo)檢測(cè)方法的綜合性能和速度進(jìn)行分析,確定多年來(lái)的研究趨勢(shì),并為3D目標(biāo)檢測(cè)的未來(lái)方向提供深刻的見(jiàn)解。
本文的結(jié)構(gòu)安排如下:首先,第2節(jié)中介紹了3D目標(biāo)檢測(cè)問(wèn)題的定義、數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。然后,我們回顧和分析了基于LiDAR傳感器(第3節(jié))、相機(jī)(第4節(jié))和多模態(tài)數(shù)據(jù)輸入(第5節(jié))。
接下來(lái),我們?cè)诘?節(jié)中介紹利用時(shí)空數(shù)據(jù)的檢測(cè)方法,并在第7節(jié)中使用較少有標(biāo)簽數(shù)據(jù)的方法。我們隨后在第8節(jié)中討論3D目標(biāo)檢測(cè)在駕駛系統(tǒng)中的應(yīng)用。
最后,我們進(jìn)行速度和性能分析,對(duì)研究趨勢(shì)進(jìn)行了探討,并在第9節(jié)中展望3D目標(biāo)檢測(cè)的未來(lái)方向。分層結(jié)構(gòu)的分類(lèi)如下圖所示。
3背景
1、定義
3D目標(biāo)檢測(cè)是通過(guò)輸入傳感器數(shù)據(jù),預(yù)測(cè)3D目標(biāo)的屬性信息的任務(wù)。如何表示3D目標(biāo)的屬性信息是關(guān)鍵,因?yàn)楹罄m(xù)的預(yù)測(cè)和規(guī)劃需要這些信息。
大部分情況下,3D目標(biāo)被定義為一個(gè)立方體,(x,y,z)是立方體的中心坐標(biāo),l,w,h是長(zhǎng)寬高信息,delta是航向角,比如立方體在地平面的偏航角,class是3D目標(biāo)的類(lèi)別。
vx、vy描述3D目標(biāo)在地面上沿x軸和y軸方向的速度。在工業(yè)應(yīng)用中,一個(gè)3D目標(biāo)的參數(shù)可以進(jìn)一步簡(jiǎn)化為鳥(niǎo)瞰圖上一個(gè)長(zhǎng)方體的4個(gè)角位置。
2、傳感器輸入
許多類(lèi)型的傳感器都可以為3D目標(biāo)檢測(cè)提供原始數(shù)據(jù),相機(jī)和LiDAR(激光雷達(dá))傳感器是兩種最常采用的傳感器類(lèi)型。相機(jī)價(jià)格便宜且易于使用,并且可以從某個(gè)角度捕捉場(chǎng)景信息。
相機(jī)產(chǎn)生圖像W×H×3用于3D目標(biāo)檢測(cè),其中W和H是一幅圖像的寬高,每個(gè)像素有3個(gè)RGB通道。盡管價(jià)格便宜,但相機(jī)在用于3D目標(biāo)檢測(cè)方面存在內(nèi)在限制。首先,相機(jī)只捕捉外觀信息,不能直接獲取場(chǎng)景的3D結(jié)構(gòu)信息。
另一方面,3D目標(biāo)檢測(cè)通常需要在3D空間中進(jìn)行準(zhǔn)確定位,而從圖像估計(jì)的3D信息(例如深度)通常具有較大的誤差。此外,基于圖像的檢測(cè)很容易受到極端天氣和時(shí)間條件的影響。在夜間或霧天從圖像中檢測(cè)目標(biāo)比在晴天檢測(cè)要困難得多,這樣的自動(dòng)駕駛系統(tǒng)無(wú)法保證魯棒性。
作為替代解決方案,LiDAR傳感器可以通過(guò)****一束激光束,然后測(cè)量其反射信息來(lái)獲得場(chǎng)景的細(xì)粒度3D結(jié)構(gòu)信息。一個(gè)LiDAR傳感器在一個(gè)掃描周期內(nèi)****光束并進(jìn)行多次測(cè)量可以產(chǎn)生一個(gè)深度圖像,每個(gè)深度圖的像素有3個(gè)通道,分別為球坐標(biāo)系中的深度r、方位角α和傾角φ。
深度圖像是激光雷達(dá)傳感器獲取的原始數(shù)據(jù)格式,可以通過(guò)將球坐標(biāo)轉(zhuǎn)換為笛卡爾坐標(biāo)進(jìn)一步轉(zhuǎn)換為點(diǎn)云。一個(gè)點(diǎn)云可以表示為N×3,其中N表示一個(gè)場(chǎng)景中的點(diǎn)數(shù),每個(gè)點(diǎn)有3個(gè)xyz坐標(biāo)通道。
附加功能,例如反射強(qiáng)度,可以附加到每個(gè)點(diǎn)或深度圖像素。深度圖像和點(diǎn)云都包含由LiDAR傳感器直接獲取的準(zhǔn)確3D信息。因此,與相機(jī)相比,LiDAR傳感器更適合檢測(cè)3D空間中的目標(biāo),并且LiDAR傳感器也更不易受時(shí)間和天氣變化的影響。
然而,LiDAR傳感器比攝像頭貴得多,這限制了在駕駛場(chǎng)景中的大規(guī)模應(yīng)用。3D目標(biāo)檢測(cè)圖解,見(jiàn)下圖:
旨在在圖像上生成2D邊界框的2D目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中的一個(gè)基本問(wèn)題。3D目標(biāo)檢測(cè)方法借鑒了2D目標(biāo)檢測(cè)方法的許多設(shè)計(jì)范式:proposal generation and refinement、anchors、NMS 等。
然而,從多方面來(lái)看,3D目標(biāo)檢測(cè)方法并不是2D目標(biāo)檢測(cè)方法對(duì)3D空間的簡(jiǎn)單適配。
- 3D目標(biāo)檢測(cè)方法必須處理多樣化的數(shù)據(jù)。點(diǎn)云檢測(cè)需要新的算子和網(wǎng)絡(luò)來(lái)處理不規(guī)則的點(diǎn)數(shù)據(jù),而點(diǎn)云和圖像的檢測(cè)需要特殊的融合機(jī)制。
- 3D目標(biāo)檢測(cè)方法通常利用不同的投影視圖來(lái)生成目標(biāo)預(yù)測(cè)結(jié)果。與從****圖檢測(cè)目標(biāo)的2D目標(biāo)檢測(cè)方法相反,3D方法必須考慮不同的視圖來(lái)檢測(cè)3D目標(biāo),例如鳥(niǎo)瞰圖、點(diǎn)視圖、柱面視圖等。
- 3D目標(biāo)檢測(cè)對(duì)目標(biāo)在3D空間的準(zhǔn)確定位有很高的要求。分米級(jí)的定位誤差可能導(dǎo)致對(duì)行人和騎自行車(chē)的人等小目標(biāo)的檢測(cè)失敗,而在2D目標(biāo)檢測(cè)中,幾個(gè)像素的定位誤差可能仍然保持較高的IoU指標(biāo)(預(yù)測(cè)值和真值的IoU)。因此,不論是利用點(diǎn)云還是圖像進(jìn)行3D目標(biāo)檢測(cè),準(zhǔn)確的3D幾何信息都是必不可少的。
4、與室內(nèi)3D目標(biāo)檢測(cè)對(duì)比
室內(nèi)3D目標(biāo)檢測(cè)也是3D目標(biāo)檢測(cè)的一個(gè)分支,室內(nèi)數(shù)據(jù)集比如SUN RGB-D [247],利用RGB-D和3D標(biāo)注信息重建房間結(jié)構(gòu),包括門(mén)、窗、床、椅子等。室內(nèi)場(chǎng)景中的3D目標(biāo)檢測(cè)也是基于點(diǎn)云或圖像。然而,與室內(nèi)3D目標(biāo)檢測(cè)相比,駕駛場(chǎng)景中存在獨(dú)特的挑戰(zhàn)。
- 自動(dòng)駕駛場(chǎng)景的檢測(cè)范圍遠(yuǎn)大于室內(nèi)場(chǎng)景。駕駛場(chǎng)景中的3D目標(biāo)檢測(cè)通常需要預(yù)測(cè)很大范圍內(nèi)的3D目標(biāo),例如Waymo[250]中為150m×150m×6m,而室內(nèi)3D目標(biāo)檢測(cè)通常以房間為單位,而其中[54]大多數(shù)單人房間小于10m×10m×3m。那些在室內(nèi)場(chǎng)景中工作的時(shí)間復(fù)雜度高的方法在駕駛場(chǎng)景中可能無(wú)法表現(xiàn)出好的適應(yīng)能力。
- LiDAR和RGB-D傳感器的點(diǎn)云分布不同。在室內(nèi)場(chǎng)景中,點(diǎn)在掃描表面上分布相對(duì)均勻,大多數(shù)3D目標(biāo)在其表面上可以接收到足夠數(shù)量的點(diǎn)。而在駕駛場(chǎng)景中,大多數(shù)點(diǎn)落在LiDAR傳感器附近,而那些遠(yuǎn)離傳感器的3D目標(biāo)僅接收到少量點(diǎn)。因此,駕駛場(chǎng)景中的方法特別需要處理3D目標(biāo)的各種點(diǎn)云密度,并準(zhǔn)確檢測(cè)那些遙遠(yuǎn)和稀疏的目標(biāo)。
- 駕駛場(chǎng)景中的檢測(cè)對(duì)推理延遲有特殊要求。駕駛場(chǎng)景中的感知必須是實(shí)時(shí)的,以避免事故。因此,這些方法需要及時(shí)高效,否則它們將無(wú)法落地。
數(shù)據(jù)集
自動(dòng)駕駛3D目標(biāo)檢測(cè)相關(guān)數(shù)據(jù)集較多,具體見(jiàn)下表。主要的數(shù)據(jù)集建立需要繼續(xù)干以下四件事:
- 增大數(shù)據(jù)規(guī)模。
- 增加數(shù)據(jù)多樣性,不只有白天夜晚,還要包括陰天、雨天、雪天、霧天等。
- 增加標(biāo)注類(lèi)別,除了常用的機(jī)動(dòng)車(chē)、行人、非機(jī)動(dòng)車(chē)等,還應(yīng)包括動(dòng)物,路上的障礙物等。
- 增加多模態(tài)數(shù)據(jù),不只有點(diǎn)云和圖像數(shù)據(jù),還有高精地圖、雷達(dá)數(shù)據(jù)、遠(yuǎn)程激光雷達(dá)、熱成像數(shù)據(jù)等。
未來(lái)的數(shù)據(jù)集應(yīng)該包括感知、預(yù)測(cè)、規(guī)劃、建圖等一整套數(shù)據(jù),這樣可以為端到端的自動(dòng)駕駛系統(tǒng)服務(wù),而不僅僅是考慮一個(gè)3D目標(biāo)檢測(cè)任務(wù)。
評(píng)價(jià)標(biāo)準(zhǔn)
針對(duì)3D目標(biāo)檢測(cè)的評(píng)價(jià),一種是將2D任務(wù)的AP指標(biāo)擴(kuò)展到3D,比如KITTI就包括 AP-3D、AP-BEV指標(biāo),分別用到預(yù)測(cè)值與真值的3D-IoU、BEV-IoU來(lái)衡量。其它比如基于中心距離的匹配,或者匈牙利匹配等。
另一種則通過(guò)下游任務(wù)來(lái)衡量,只有對(duì)下游任務(wù)(運(yùn)動(dòng)規(guī)劃)有幫助的檢測(cè)方法,才能在實(shí)際應(yīng)用中確保駕駛安全。包括PKL[230]和SDE[56]等工作。
不同評(píng)價(jià)指標(biāo)的利弊?;贏P的評(píng)價(jià)指標(biāo)[80,15,250]自然繼承了2D檢測(cè)的優(yōu)勢(shì)。然而,這些指標(biāo)忽略了檢測(cè)對(duì)駕駛安全的影響,而這在現(xiàn)實(shí)應(yīng)用中至關(guān)重要。
例如,在AP計(jì)算中,本車(chē)附近的目標(biāo)漏檢和本車(chē)遠(yuǎn)一點(diǎn)的目標(biāo)漏檢可能都只是一個(gè)漏檢,但在實(shí)際應(yīng)用中,近處的目標(biāo)漏檢實(shí)質(zhì)上比遠(yuǎn)處的目標(biāo)漏檢更危險(xiǎn)。
因此,從安全駕駛的角度來(lái)看,基于AP的指標(biāo)可能不是最優(yōu)選擇。PKL[203]和SDE[56]通過(guò)考慮下游任務(wù)中檢測(cè)的影響,部分解決了這個(gè)問(wèn)題,但在對(duì)這些影響建模時(shí)將引入額外的挑戰(zhàn)。
PKL[203]需要一個(gè)預(yù)先訓(xùn)練的運(yùn)動(dòng)規(guī)劃器來(lái)評(píng)估檢測(cè)性能,但預(yù)先訓(xùn)練的規(guī)劃器也有固有誤差,可能會(huì)使評(píng)估過(guò)程不準(zhǔn)確。SDE[56]需要重構(gòu)目標(biāo)邊界,這通常是復(fù)雜和具有挑戰(zhàn)性的。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
物聯(lián)網(wǎng)相關(guān)文章:物聯(lián)網(wǎng)是什么