清華最新開源MARS！第一個(gè)基于NeRF的自動(dòng)駕駛開源模擬器

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2023-08-03 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

0. 筆者個(gè)人體會(huì)

這幾年，NeRF可以說已經(jīng)逐漸滲透進(jìn)了各個(gè)領(lǐng)域，新視點(diǎn)合成、三維重建、SLAM等等很多應(yīng)用都在想方設(shè)法得使用NeRF。那么自動(dòng)駕駛領(lǐng)域呢？雖然在實(shí)車上直接邊緣部署NeRF還有難度，但是NeRF可以應(yīng)用到自動(dòng)駕駛的場景合成上，再用合成的場景做其他事情！普通場景下的自動(dòng)駕駛算法其實(shí)已經(jīng)做的很好了，但是特殊場景還是很容易出錯(cuò)。主要還是因?yàn)?strong style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; visibility: visible;">特殊場景下的數(shù)據(jù)集太難找了！自己錄制數(shù)據(jù)也非常麻煩。顯然，NeRF強(qiáng)大的合成能力可以模擬極端場景下的路況，尤其是高動(dòng)態(tài)場景，也就進(jìn)一步模擬了真實(shí)的自動(dòng)駕駛場景。

最近，清華、港科大、麥吉爾大學(xué)、北理工、新加坡國立、香港大學(xué)、帝國理工、浙江大學(xué)等11個(gè)單位聯(lián)合開源了MARS，也是第一個(gè)基于NeRF的自動(dòng)駕駛開源模擬器。直接模擬真實(shí)的自動(dòng)駕駛RGB、深度圖和語義分割Mask，這項(xiàng)工作具有實(shí)例感知、模塊化和真實(shí)性等特點(diǎn)，支持多模態(tài)輸入，可用于深度和語義感知組合渲染，已經(jīng)獲得CICAI 2023最佳論文Runner-up獎(jiǎng)。

1. 效果展示

先來看一下具體效果！

下面這張圖就是MARS的具體應(yīng)用，第一行表示合成的圖像（已經(jīng)足夠真實(shí)，用來做SLAM或者檢測完全夠用），第二行代表生成的語義分割Mask（可以直接用來做分割任務(wù)的訓(xùn)練），第三行代表生成的深度圖（視覺效果很好，但是很多深度估計(jì)的定量效果都不是很準(zhǔn)確，可以做一下三維重建驗(yàn)證），第三行代表生成的動(dòng)態(tài)前景目標(biāo)（可以直接在靜態(tài)圖像上生成動(dòng)態(tài)目標(biāo)來測試動(dòng)態(tài)SLAM）。

還可以直接拖動(dòng)進(jìn)度條來控制動(dòng)態(tài)目標(biāo)的運(yùn)行軌跡、尺寸、外觀！（可以通過論文原文中的官方主頁來嘗鮮demo）

可以再看一下重建場景和原始RGB圖的對比，可以說幾乎找不到區(qū)別，這里不得不感嘆一下NeRF的強(qiáng)大！

總之，效果非常好。代碼即將開源，感興趣的小伙伴可以關(guān)注一下。下面我們來看看具體的文章信息。

2. 摘要

如今，自動(dòng)駕駛汽車可以在普通情況下平穩(wěn)駕駛，人們普遍認(rèn)為，真實(shí)的傳感器模擬將在通過模擬解決剩余的極端情況方面發(fā)揮關(guān)鍵作用。為此，我們提出了一種基于神經(jīng)輻射場(NeRFs)的自動(dòng)駕駛模擬器。與現(xiàn)有工作相比，我們的工作有三個(gè)顯著特點(diǎn)：(1)實(shí)例感知。我們的模擬器通過獨(dú)立的網(wǎng)絡(luò)分別對前景實(shí)例和背景環(huán)境進(jìn)行建模，從而可以分別控制實(shí)例的靜態(tài)(例如尺寸和外觀)和動(dòng)態(tài)(例如軌跡)屬性。(2)模塊化。我們的模擬器允許在不同的現(xiàn)代NeRF相關(guān)的主干、采樣策略、輸入模式等之間進(jìn)行靈活的切換。我們期待這種模塊化的設(shè)計(jì)能夠推動(dòng)基于NeRF的自動(dòng)駕駛仿真的學(xué)術(shù)進(jìn)步和產(chǎn)業(yè)部署。(3)真實(shí)性。我們的模擬器設(shè)置了新的最先進(jìn)的照片現(xiàn)實(shí)主義結(jié)果，給出了最佳的模塊選擇。我們的模擬器將是開源的，而我們的大多數(shù)同行都不是。這里也推薦「3D視覺工坊」新課程《深度剖析面向自動(dòng)駕駛領(lǐng)域的車載傳感器空間同步（標(biāo)定）》

3. 算法解析

MARS的輸入是RGB圖像、傳感器姿態(tài)（由IMU/GPS解算）、物體軌跡（3D邊界框、類別、實(shí)例ID），深度圖和語義分割圖可以在訓(xùn)練時(shí)輔助監(jiān)督。神經(jīng)場構(gòu)建完成以后，就可以在給定傳感器位姿時(shí)模擬RGB圖、深度圖和語義分割Mask，還支持對物體軌跡和外觀的實(shí)例編輯。

下面來看看具體的Pipeline。

MARS建模背景節(jié)點(diǎn)和每個(gè)前景實(shí)例節(jié)點(diǎn)。具體來說，給定射線r，首先計(jì)算每個(gè)可視物體的3D邊界框的交集來獲取進(jìn)入和離開距離。然后，背景節(jié)點(diǎn)和前景對象節(jié)點(diǎn)都進(jìn)行query，而每個(gè)節(jié)點(diǎn)都會(huì)采樣一組3D點(diǎn)集，并使用其具體的神經(jīng)表征網(wǎng)絡(luò)來獲取點(diǎn)屬性（RGB、密度、語義信息）。對于物體節(jié)點(diǎn)，根據(jù)對象軌跡將射線原點(diǎn)和方向從世界空間轉(zhuǎn)換到實(shí)例幀。對于背景節(jié)點(diǎn)，直接像傳統(tǒng)NeRF那樣推理屬性，最后，對來自背景和前景節(jié)點(diǎn)的所有射線樣本進(jìn)行合成和渲染，以產(chǎn)生像素級(jí)的NeRF結(jié)果。

那這里的模塊化是什么意思呢？

其實(shí)就是說針對靜態(tài)背景和動(dòng)態(tài)前景對象采用不同的NeRF框架，MARS將場景分解為一個(gè)大規(guī)模****的NeRF和多個(gè)以物體為中心的NeRF。當(dāng)然筆者覺得模塊化還有另一個(gè)意思，就是MARS可以支持各種NeRF主干，包括基于MLP的和基于網(wǎng)格的，還支持各種各樣的采樣策略。

注意，靜態(tài)背景和動(dòng)態(tài)前景對象的特性是不同的，而現(xiàn)在很多的NeRF都是針對兩者使用統(tǒng)一的框架，這顯然是不太對的。而MARS就很巧妙得為背景和前景對象設(shè)計(jì)了模塊化的不同設(shè)計(jì)，并且可以很容易結(jié)合最新的重建方法。MARS的模塊化設(shè)計(jì)還使用了很多的trick，比如使用unbounded scene warping來表征圖像中的遠(yuǎn)距離區(qū)域。

MARS的采樣方法很有意思。因?yàn)楸尘昂颓熬皩ο蟮莫?dú)立采樣的，因此很可能會(huì)出現(xiàn)背景樣本落在前景邊界框的情況。渲染之后就會(huì)把前景樣本誤分類為背景，這樣的話，去除前景實(shí)例以后背景就會(huì)出現(xiàn)鬼影。理論上輸入足夠多的視角圖像，網(wǎng)絡(luò)可以在訓(xùn)練過程中自動(dòng)學(xué)習(xí)分區(qū)前景和背景。但是對于一個(gè)數(shù)據(jù)驅(qū)動(dòng)的模擬器來說，車輛在道路上快速移動(dòng)，獲取豐富且高質(zhì)量的多視角圖像非常困難。

那么怎么解決呢？

這里是使用了正則化策略來最小化背景截?cái)鄻颖镜拿芏群?/strong>，其中P代表背景截?cái)鄻颖荆?/p>

這樣就很好得解決了鬼影問題。

4. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)主要是在KITTI和V-KITTI數(shù)據(jù)集進(jìn)行的，作者目前也沒有公布訓(xùn)練使用了多少GPU。對于具體的網(wǎng)絡(luò)架構(gòu)，作者的默認(rèn)配置是：針對背景節(jié)點(diǎn)使用基于網(wǎng)格的NeRF和proposal sampler，針對前景對象節(jié)點(diǎn)使用改進(jìn)的類別級(jí)表征和由粗到精的采樣。這里簡單提一句proposal sampler，來源于2022 CVPR論文"Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields"，主要思想是從無輻射NeRF模型中蒸餾密度場來生成射線樣本。
模型訓(xùn)練了20萬次迭代，每個(gè)batch有4096條射線，使用RAdam優(yōu)化器，靜態(tài)背景的學(xué)習(xí)率從1e-3降低到1e-5，動(dòng)態(tài)前景對象的學(xué)習(xí)率從5e-3降低到1e-5，主要對比的baseline也就是原始的NeRF和各種NeRF變體。
根據(jù)圖像重建的定量對比結(jié)果，可以發(fā)現(xiàn)MARS相較于其他SOTA方法有了很大的提升。
下面是新視點(diǎn)合成的定量對比結(jié)果，使用75 %的訓(xùn)練數(shù)據(jù)，MARS在V-KITTI上可以達(dá)到29.79的PSNR，而之前的最優(yōu)結(jié)果為23.87，提升非常明顯。
定性實(shí)驗(yàn)結(jié)果也很漂亮，可以發(fā)現(xiàn)針對動(dòng)態(tài)場景，其他的NeRF都會(huì)不同程度得出現(xiàn)鬼影，但是MARS可以穩(wěn)定合成靜態(tài)背景和動(dòng)態(tài)前景對象。這里也推薦「3D視覺工坊」新課程《深度剖析面向自動(dòng)駕駛領(lǐng)域的車載傳感器空間同步（標(biāo)定）》
感覺實(shí)例編輯是MARS中很有意義的一個(gè)工作，由于MARS是分別建模靜態(tài)背景和動(dòng)態(tài)前景對象，因此可以以實(shí)例感知的方式編輯場景（好神奇）。具體來說，可以定性得刪除實(shí)例、添加新實(shí)例、還可以編輯車輛軌跡！
消融實(shí)驗(yàn)驗(yàn)證了不同的設(shè)計(jì)模式對背景節(jié)點(diǎn)表示、前景節(jié)點(diǎn)表示等方面的影響。這里也有一個(gè)比較重要的點(diǎn)，以前的工作都是在90張圖像的短序列上評估，但是MARS使用了完整的序列來評估。筆者覺得很好的一點(diǎn)是，MARS分別驗(yàn)證了基于MLP和網(wǎng)格的模型，這個(gè)工作量還是挺大的。
5. 總結(jié)
MARS這篇文章提出了一個(gè)基于NeRF的有真實(shí)感的模塊化自動(dòng)駕駛仿真框架，可以直接生成自動(dòng)駕駛場景下的RGB圖像、深度圖和語義分割Mask，還可以單獨(dú)生成前景動(dòng)態(tài)對象以及實(shí)例編輯。MARS由一個(gè)背景節(jié)點(diǎn)和多個(gè)前景節(jié)點(diǎn)組成，實(shí)現(xiàn)了復(fù)雜動(dòng)態(tài)場景的建模，整個(gè)Pipeline在數(shù)據(jù)集上展現(xiàn)了SOTA的渲染性能。
至于局限性，作者也提到了MARS不能達(dá)到實(shí)時(shí)渲染，這個(gè)也是NeRF的固有問題。而且，MARS沒有考慮玻璃或其他反射材料上的動(dòng)態(tài)鏡面效應(yīng)，這有可能會(huì)產(chǎn)生鬼影。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

清華最新開源MARS！第一個(gè)基于NeRF的自動(dòng)駕駛開源模擬器

相關(guān)推薦

技術(shù)專區(qū)

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

清華最新開源MARS！第一個(gè)基于NeRF的自動(dòng)駕駛開源模擬器

相關(guān)推薦

技術(shù)專區(qū)

清華最新開源MARS！第一個(gè)基于NeRF的自動(dòng)駕駛開源模擬器