在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 2022最新綜述!一文詳解自動駕駛中的多模態(tài)融合感知算法(數(shù)據(jù)級/特征級/目標級)

            2022最新綜述!一文詳解自動駕駛中的多模態(tài)融合感知算法(數(shù)據(jù)級/特征級/目標級)

            發(fā)布人:數(shù)據(jù)派THU 時間:2022-08-20 來源:工程師 發(fā)布文章

            以下文章來源于自動駕駛之心 ,作者汽車人

            1 簡介


            多模態(tài)傳感器融合意味著信息互補、穩(wěn)定和安全,長期以來都是自動駕駛感知的重要一環(huán)。然而信息利用的不充分、原始數(shù)據(jù)的噪聲及各個傳感器間的錯位(如時間戳不同步),這些因素都導致融合性能一直受限。本文全面調(diào)研了現(xiàn)有多模態(tài)自動駕駛感知算法,傳感器包括LiDAR和相機,聚焦于目標檢測和語義分割,分析超過50篇文獻。同傳統(tǒng)融合算法分類方法不同,本文從融合階段的不同將該領域分類兩大類、四小類。此外,本文分析了當前領域存在的問題,對未來的研究方向提供參考。

            2 為什么需要多模態(tài)?


            這是因為單模態(tài)的感知算法存在固有的缺陷[4, 26]。舉個例子,一般激光雷達的架設位置是高于相機的[102],在復雜的現(xiàn)實駕駛場景中,物體在前視攝像頭中可能被遮擋,此時利用激光雷達就有可能捕獲缺失的目標。但是由于機械結(jié)構(gòu)的限制,LiDAR在不同的距離有不同的分辨率,而且容易受到極端惡劣天氣的影響,如暴雨等。雖然兩種傳感器單獨使用都可以做的很出色,但從未來的角度出發(fā),LiDAR和相機的信息互補將會使得自動駕駛在感知層面上更安全。
            近期,自動駕駛多模態(tài)感知算法獲得了長足的進步[15,77,81],從跨模態(tài)的特征表示、更可靠的模態(tài)傳感器,到更復雜、更穩(wěn)定的多模態(tài)融合算法和技術。然而,只有少數(shù)的綜述[15, 81]聚焦于多模態(tài)融合的方法論本身,并且大多數(shù)文獻都遵循傳統(tǒng)分類規(guī)則,即分為前融合、深度(特征)融合和后融合三大類,重點關注算法中特征融合的階段,無論是數(shù)據(jù)級、特征級還是提議級。這種分類規(guī)則存在兩個問題:首先,沒有明確定義每個級別的特征表示;其次,它從對稱的角度處理激光雷達和相機這兩個分支,進而模糊了LiDAR分支中提級級特征融合和相機分支中數(shù)據(jù)級特征融合的情況[106]??偨Y(jié)來說,傳統(tǒng)分類法雖然直觀,但已經(jīng)不適用于現(xiàn)階段多模態(tài)融合算法的發(fā)展,一定程度上阻礙了研究人員從系統(tǒng)的角度進行研究和分析。

            3 任務和公開比賽


            常見的感知任務包括目標檢測、語義分割、深度補全和預測等。本文重點關注檢測和分割,如障礙物、交通信號燈、交通標志的檢測和車道線、freespace的分割等。自動駕駛感知任務如下圖所示:
            圖片
            常用的公開數(shù)據(jù)集主要包含KITTI、Waymo和nuScenes,下圖匯總了自動駕駛感知相關的數(shù)據(jù)集及其特點。
            圖片


            4 融合方法


            多模態(tài)融合離不開數(shù)據(jù)表達形式,圖像分支的數(shù)據(jù)表示較簡單,一般均指RGB格式或灰度圖,但激光雷達分支對數(shù)據(jù)格式的依賴度較高,不同的數(shù)據(jù)格式衍生出完全不同的下游模型設計,總結(jié)來說包含三個大方向:基于點、基于體素和基于二維映射的點云表示。
            傳統(tǒng)分類方法將多模態(tài)融合分為以下三種:

            1. 前融合(數(shù)據(jù)級融合)指通過空間對齊直接融合不同模態(tài)的原始傳感器數(shù)據(jù)。
            2. 深度融合(特征級融合)指通過級聯(lián)或者元素相乘在特征空間中融合跨模態(tài)數(shù)據(jù)。
            3. 后融合(目標級融合)指將各模態(tài)模型的預測結(jié)果進行融合,做出最終決策。


            本文則采用下圖的分類方式,整體分為強融合和若融合,強融合進一步細分為:前融合、深度融合、不對稱融合和后融合。
            圖片
            本文使用KITTI的3D檢測任務和BEV檢測任務橫向?qū)Ρ雀鱾€多模態(tài)融合算法的性能,下圖是BEV檢測測試集的結(jié)果:
            圖片
            下圖是3D檢測測試集的結(jié)果:
            圖片


            5 強融合


            圖片
            根據(jù)激光雷達和相機數(shù)據(jù)表示的不同組合階段,本文將強融合細分為:前融合、深度融合、不對稱融合和后融合。如上圖所示可以看出,強融合的每個子模塊都高度依賴于激光雷達點云,而不是相機數(shù)據(jù)。

            前融合


            與傳統(tǒng)的數(shù)據(jù)級融合定義不同,后者是一種在原始數(shù)據(jù)級別通過空間對齊和投影直接融合每種模態(tài)數(shù)據(jù)的方法,早期融合在數(shù)據(jù)級別融合LiDAR 數(shù)據(jù)和數(shù)據(jù)級別的相機數(shù)據(jù)或特征級。早期融合的一個例子可以是圖4中的模型。
            與傳統(tǒng)分類方法定義的前融合不同,本文定義的前融合是指在原始數(shù)據(jù)級別通過空間對齊和投影直接融合各個模態(tài)數(shù)據(jù)的方法,前融合在數(shù)據(jù)級指的是融合激光雷達數(shù)據(jù),在數(shù)據(jù)級或特征級融合圖像數(shù)據(jù),示意圖如下:
            圖片
            在LiDAR分支,點云具有多種表達形式,如反射圖、體素化張量、前視圖/距離視圖/BEV視圖以及偽點云等等。雖然這些數(shù)據(jù)結(jié)合不同主干網(wǎng)絡都有不同的內(nèi)在特征,但是除了偽點云之外[79],大多數(shù)數(shù)據(jù)都是通過一定的規(guī)則處理生成。此外,相比于特征空間嵌入,LiDAR的這些數(shù)據(jù)都有很強的可解釋性,均可以直接可視化。
            在圖像分支,嚴格意義上的數(shù)據(jù)級定義應該是RGB或灰度圖,但是這種定義缺乏通用性和合理性。因此本文擴展了前融合階段的圖像數(shù)據(jù)的數(shù)據(jù)級定義,包含數(shù)據(jù)級和特征級數(shù)據(jù)。值得一提的是,本文將語義分割預測結(jié)果也作為前融合的一種(圖像特征級),一是因為有利于3D目標檢測,二是因為語義分割的“目標級”特征與整個任務的最終目標級提議不同。

            深度融合


            深度融合,也稱特征級融合,是指在激光雷達分支的特征級融合多模態(tài)數(shù)據(jù),但在圖像分支的數(shù)據(jù)集和特征級進行融合。例如一些方法使用特征提舉起分別獲取LiDAR點云和圖像的嵌入表示,并通過一系列下游模塊融合兩種模態(tài)的特征[32, 102]。然而,與其他強融合不同的是,深度融合有時會以級聯(lián)方式融合特征[4, 32, 46],這兩者都利用了原始和高級語義信息。示意圖如下:
            圖片


            后融合


            后融合,也可叫作目標級融合,指的是對多個模態(tài)的預測結(jié)果(或proposal)進行融合。例如,一些后融合方法利用LiDAR點云和圖像的輸出進行融合[55]。兩個分支的proposal的數(shù)據(jù)格式應與最終結(jié)果一致,但是質(zhì)量、數(shù)量和精度存在一定差異。后融合可以看作是一種多模態(tài)信息優(yōu)化最終proposal的集成方法,示意圖如下所示:
            圖片


            不對稱融合


            強融合的最后一種是不對稱融合,指的是融合一個分支的目標級信息和其他分支的數(shù)據(jù)級或特征級信息。上述三種融合方法將多模態(tài)的各個分支平等對待,不對稱融合則強調(diào)至少有一個分支占據(jù)主導地位,其他分支則提供輔助信息預測最終結(jié)果。下圖是不對稱融合的示意圖,在proposal階段,不對稱融合只有一個分支的proposal,而后融合則是所有分支的proposal。
            圖片


            6 弱融合


            與強融合的區(qū)別在于,弱融合方法不直接從多模態(tài)分支中融合數(shù)據(jù)、特征或者目標,而是以其他形式處理數(shù)據(jù)。下圖展示了弱融合算法的基本框架?;谌跞诤系姆椒ㄍǔJ褂没谝欢ㄒ?guī)則的方法來利用一種模態(tài)的數(shù)據(jù)作為監(jiān)督信號,以指導另一種模態(tài)的交互。例如,圖像分支中來自CNN的2D proposal可能會導致原始LiDAR點云中出現(xiàn)截斷,弱融合直接將原始LiDAR 點云輸入到 LiDAR 主干中以輸出最終的proposal[60]。
            圖片


            7 其他方式融合


            還有一些工作不屬于上述任何一種范式,因為它們在模型設計的框架中使用了多種融合方式,例如[39]結(jié)合了深度融合和后融合,[77]則結(jié)合了前融合。這些方法不是融合算法設計的主流方式,本文統(tǒng)一歸為其他融合方式。

            8 多模態(tài)融合的機遇


            近年來,用于自動駕駛感知任務的多模態(tài)融合方法取得了快速進展,從更高級的特征表示到更復雜的深度學習模型 [15, 81]。然而,還有一些懸而未決的問題有待解決,本文總結(jié)了如下幾個未來可能的改進方向 。

            更先進的融合方法


            當前的融合模型存在錯位和信息丟失的問題[13,67,98]。此外,平融合(flat fusion)操作 [20, 76] 也阻礙了感知任務性能的進一步提高??偨Y(jié)如下:

            1. 錯位和信息丟失:相機和LiDAR的內(nèi)外在差異很大,兩種模態(tài)的數(shù)據(jù)需要進行坐標對齊。傳統(tǒng)的前融合和深度融合方法利用標定信息將所有LiDAR點直接投影到相機坐標系,反之亦然[54,69,76]。然而由于架設位置、傳感器噪聲,這種逐像素的對齊是不夠準確的。因此,一些工作[90]利用周圍信息進行補充以獲取更好的性能。此外,在輸入和特征空間的轉(zhuǎn)換過程中,還存在一些其他信息的丟失。通常,降維操作的投影不可避免地會導致大量信息丟失,如將3D LiDAR點云映射為2D BEV圖像中則損失了高度信息。因此,可以考慮將多模態(tài)數(shù)據(jù)映射到另一種專為融合設計的高維空間,進而有效的利用原始數(shù)據(jù),減少信息損失。
            2. 更合理的融合操作:當前許多方法使用級聯(lián)或者元素相乘的方式進行融合[69, 77]。這些簡單的操作可能無法融合分布差異較大的數(shù)據(jù),因此難以擬合兩個模態(tài)間的語義紅狗。一些工作試圖使用更復雜的級聯(lián)結(jié)構(gòu)來融合數(shù)據(jù)并提高性能[12,46]。在未來的研究中,雙線性映射[3,25,38]等機制可以融合具有不同特點的特征,也是可以考慮的方向。

            多源信息利用


            前視單幀圖像是自動駕駛感知任務的典型場景[26]。然而,大多數(shù)框架只能利用有限的信息,并未詳細設計輔助任務來促進駕駛場景的理解。總結(jié)如下:

            1. 采用更多的潛在信息:現(xiàn)有方法[81]缺乏對個維度和來源的信息的有效利用。大多數(shù)都將精力放在前視圖中的單幀多模態(tài)數(shù)據(jù)上。這就導致其他有意義的數(shù)據(jù)并未被充分利用,例如語義、空間和場景上下文信息。一些工作[20, 76, 90]嘗試使用語義分割結(jié)果輔助任務,而其他模型則有可能利用CNN主干的中間層特征。在自動駕駛場景中,許多具有顯式語義信息的下游任務可能會極大的提高目標檢測性能,例如車道線、交通燈和交通標志的檢測。未來的研究可以結(jié)合下游任務,共同構(gòu)建一個完整的城市場景的語義理解框架,來提升感知性能。此外,[63]結(jié)合了幀間信息提升性能。時間序列信息包含序列化的監(jiān)控信號,與單幀方法相比,它可以提供更穩(wěn)定的結(jié)果。因此,未來的工作可以考慮更深入地利用時間、上下文和空間信息來實現(xiàn)性能突破。
            2. 自監(jiān)督表征學習:互相監(jiān)督的信號自然存在于從同一個真實世界場景但不同角度采樣的跨模態(tài)數(shù)據(jù)中。然而,由于缺乏對數(shù)據(jù)的深入理解,目前的方法還無法挖掘各個模態(tài)間的相互關系。未來的研究可以集中在如何利用多模態(tài)數(shù)據(jù)進行自監(jiān)督學習,包括預訓練、微調(diào)或者對比學習。通過這些最先進的機制,融合算法將加深模型對數(shù)據(jù)更深層次的理解,同時取得更好的性能。

            傳感器固有問題


            域偏差和分辨率與現(xiàn)實世界的場景和傳感器高度相關[26]。這些缺陷阻礙了自動駕駛深度學習模型的大規(guī)模訓練和實時。

            1. 域偏差:在自動駕駛感知場景中,不同傳感器提取的原始數(shù)據(jù)伴隨著嚴重的領域相關特征。不同的攝像頭有不同的光學特性,而LiDAR可能會從機械結(jié)構(gòu)到固態(tài)結(jié)構(gòu)而有所不同。更重要的是,數(shù)據(jù)本身會存在域偏差,例如天氣、季節(jié)或地理位置[6,71],即使它是由相同的傳感器捕獲的。這就導致檢測模型的泛化性受到影響,無法有效適應新場景。這類缺陷阻礙了大規(guī)模數(shù)據(jù)集的收集和原始訓練數(shù)據(jù)的復用性。因此,未來可以聚焦于尋找一種消除域偏差并自適應集成不同數(shù)據(jù)源的方法。
            2. 分辨率沖突:不同的傳感器通常有不同的分辨率[42, 100]。例如,LiDAR的空間密度明顯低于圖像的空間密度。無論采用哪種投影方式,都會因為找不到對應關系而導致信息損失。這可能會導致模型被一種特定模態(tài)的數(shù)據(jù)所主導,無論是特征向量的分辨率不同還是原始信息的不平衡。因此,未來的工作可以探索一種與不同空間分辨率傳感器兼容的新數(shù)據(jù)表示系統(tǒng)。

            9 參考


            [1] https://zhuanlan.zhihu.com/p/470588787[2] Multi-modal Sensor Fusion for Auto Driving Perception: A Survey



            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

            linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


            關鍵詞: 汽車電子

            相關推薦

            技術專區(qū)

            關閉