如何理解自動(dòng)駕駛，SLAM，BEV，訓(xùn)練數(shù)據(jù)源常見(jiàn)術(shù)語(yǔ)?(2)

發(fā)布人：計(jì)算機(jī)視覺(jué)工坊時(shí)間：2023-08-15 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

在統(tǒng)一的坐標(biāo)系下，多角度的照片才能正確得“環(huán)繞”出周邊的景象。另外還有一些單目（Monocular）攝像頭的BEV方案，它們有的不考慮Ego坐標(biāo)系，因?yàn)橹挥幸粋€(gè)朝向正前方（Yaw,Pitch,Roll全部為0）的攝像頭，而且原點(diǎn)就是這個(gè)攝像頭本身，所以直接從相機(jī)坐標(biāo)系跳到世界坐標(biāo)系。

Frustum，這個(gè)東西在3維渲染領(lǐng)域通常叫做“視錐體”，用來(lái)表示相機(jī)的可視范圍：

圖9紅面和綠面以及線框包圍起來(lái)的空間就是視錐體，綠面通常叫做近平面（Near Plane），紅面叫做遠(yuǎn)平面（Far Plane），線框構(gòu)成的角度叫做FOV，如果CCD/CMOS成像的高寬相同，那么近平面和遠(yuǎn)平面就都是正方形，一個(gè)FOV就足以表示，反之，就要區(qū)分為FOVx和FOVy了，超出這個(gè)視錐體范圍的物體都不考慮進(jìn)計(jì)算。圖7中由6個(gè)三角面構(gòu)成了組合的可視范圍，實(shí)際上應(yīng)該是6個(gè)俯視的視錐體構(gòu)成，能看出視錐體之間是有交疊區(qū)域的，這些區(qū)域有利于DNN在訓(xùn)練/推理中對(duì)6組數(shù)據(jù)做相互矯正，提高模型準(zhǔn)確性，在不增加相機(jī)數(shù)量的前提下，如果想擴(kuò)大這個(gè)交疊區(qū)域，就必須選擇FOV更大的相機(jī)，但FOV越大的相機(jī)一般鏡頭畸變就會(huì)越嚴(yán)重（反畸變?cè)僭趺醋鲆仓荒芤欢ǔ潭壬系某C正圖片），物體在圖片上的成像面積也越小，干擾DNN對(duì)圖片上特征的識(shí)別和提取。

BEV是個(gè)龐大的算法族，傾向于不同方向的算法選擇，粗略得看，有Tesla主導(dǎo)的以視覺(jué)感知流派，核心算法建立在多路攝像頭上，另外一大類是激光雷達(dá)+毫米波雷達(dá)+多路攝像頭的融合（Fusion）派，國(guó)內(nèi)很多AD公司都是融合派的，Google的Waymo也是。嚴(yán)格得講，Tesla正在從BEV（Hydranet）過(guò)渡到一種新的技術(shù)：Occupancy Network，從2維提升到3維：

圖10無(wú)論是2維的還是3維的，都在試圖描述周遭空間的Occupany（占用）情況，只是一個(gè)用2維棋盤(pán)格來(lái)表述這種占用情況，一個(gè)是用3維的積木方式表述占用。DNN在度量這種占用時(shí)采用的是概率，比如我們直觀看到某個(gè)格子上是一輛車(chē)，而DNN給出的原始結(jié)果是：這個(gè)格子上，是車(chē)的可能性有80%，是路面的可能性為5%，是行人的可能性為3%。。。。。所以，在BEV代碼里，一般將各種可能出現(xiàn)的物體分了類，通常是兩大類：1）不常變化的：車(chē)輛可通信區(qū)域（Driveable），路面（Road），車(chē)道（Lane），建筑（Building），植被（Foliage/Vegetation），停車(chē)區(qū)域（Parking），信號(hào)燈（Traffic Light）以及一些未分類靜態(tài)物體（Static），它們之間的關(guān)系是可以相互包容的，比如Driveable可以包含Road/Lane等等。2）可變的，也就是會(huì)發(fā)生移動(dòng)的物體：行人（Pedestrian），小汽車(chē)（Car），卡車(chē)（Truck），錐形交通標(biāo)/安全桶（Traffic Cone）等等這樣分類的目的是便于AD做后續(xù)的駕駛規(guī)劃（Planning，有的翻譯成決策）和控制（Control）。而B(niǎo)EV在感知（Perception）階段就是按照這些物體在格子上出現(xiàn)的概率打分，最后通過(guò)Softmax函數(shù)將概率歸一取出最大的那個(gè)可能性作為占用這個(gè)格子的物體類型。但這有個(gè)小問(wèn)題：BEV的DNN模型（Model）在訓(xùn)練階段，是要指明照片中各個(gè)物體是啥？也就是要在標(biāo)注數(shù)據(jù)（Labeled Data）上給各種物體打上類型標(biāo)簽的：

圖11右邊的我們權(quán)當(dāng)做是標(biāo)注數(shù)據(jù)吧，左邊是對(duì)應(yīng)的相片，按照這個(gè)物體分類訓(xùn)練出來(lái)的DNN模型，真得跑上路面，如果遭遇了訓(xùn)練集里未出現(xiàn)的物體類型怎么辦？如果模型效果不好，比如某個(gè)姿勢(shì)奇葩的人體未被識(shí)別成行人和其它已知類型，又當(dāng)如何？Occupancy Network為此改變的感知策略，不再?gòu)?qiáng)調(diào)分類了（不是不分類，只是重點(diǎn)變了），核心關(guān)注路面上是否有障礙物（Obstacle），先保證別撞上去就行了，別管它是什么類型。3維的積木方式表述這種障礙物更為貼切，有的地方借用了3維渲染（Rendering/Shading）領(lǐng)域的常見(jiàn)概念把這種3維表述叫做體素（Voxel），想象一下我的世界（MineCraft）就很簡(jiǎn)單了。

圖12以上是視覺(jué)流派的簡(jiǎn)述，混合派在干嘛？它們除了相機(jī)外，還側(cè)重于激光雷達(dá)的數(shù)據(jù)，毫米波雷達(dá)由于數(shù)據(jù)品相太差逐漸退出，留守的去充當(dāng)停車(chē)?yán)走_(dá)了，也不能說(shuō)它一無(wú)是處，Tesla雖然強(qiáng)調(diào)視覺(jué)處理，但也保留了一路朝向正前方的毫米波雷達(dá)，而且AD這個(gè)領(lǐng)域技術(shù)變化非?？欤洳欢∧奶煊行滤惴俺鲇帜馨押撩撞ɡ走_(dá)的價(jià)值發(fā)揚(yáng)光大一把。激光雷達(dá)的好處是什么：可以直接測(cè)出物體的遠(yuǎn)近，精度比視覺(jué)推測(cè)出的場(chǎng)景深度要高很多，一般會(huì)轉(zhuǎn)化為深度（Depth）數(shù)據(jù)或者點(diǎn)云（Point Cloud），這兩者配套的算法有很長(zhǎng)的歷史了，所以AD可以直接借用，減少開(kāi)發(fā)量。另外，激光雷達(dá)可以在夜間或糟糕的天氣環(huán)境下工作，相機(jī)就抓瞎了。但這幾天出現(xiàn)了一種新的感知技術(shù)HADAR（Heat-Assisted Detection and Ranging），可以和相機(jī)/激光雷達(dá)/毫米波雷達(dá)并列的傳感器級(jí)別感知技術(shù)。它的特點(diǎn)是利用特殊的算法把常規(guī)熱成像在夜間拍攝的圖片轉(zhuǎn)化為周?chē)h(huán)境/物體的紋理和深度，這個(gè)東西和相機(jī)配合能解決夜間視覺(jué)感知的問(wèn)題。以前的BEV為什么不提熱成像/紅外相機(jī)，因?yàn)閭鹘y(tǒng)算法有些明顯的缺陷：只能提供場(chǎng)景的熱量分布，形成一張灰度（Gray）圖，缺乏紋理（Texture），原始數(shù)據(jù)缺乏深度信息，推算出的深度精度差，如果僅僅通過(guò)從灰度圖上提取的輪廓（Contour）和亮度過(guò)渡（Gradient），很難精確還原場(chǎng)景/物體的體積信息，并且目前的2維物體識(shí)別是很依賴紋理和色彩的。這個(gè)HADAR的出現(xiàn)，恰好可以解決這個(gè)問(wèn)題：在較暗的環(huán)境下提取場(chǎng)景的深度以及紋理：

圖13左列，自上而下：1）基礎(chǔ)的熱成像，簡(jiǎn)稱T2）用常規(guī)熱成像算法從T提取的深度3）用HADAR算法從T提取的紋理圖4）用HADAR算法從T提取的深度5）真實(shí)場(chǎng)景的深度右列，自上而下：1）這個(gè)場(chǎng)景在白天用可見(jiàn)光相機(jī)拍攝的照片2）通過(guò)照片推理的深度3）真實(shí)場(chǎng)景的深度HADAR的這個(gè)深度信息老牛逼了，對(duì)比一下激光雷達(dá)的效果就知道了：

圖14激光雷達(dá)的掃描范圍是有限的，一般半徑100米，從上圖可以看出，沒(méi)有紋理信息，遠(yuǎn)處的場(chǎng)景也沒(méi)有深度了，掃描線導(dǎo)致其數(shù)據(jù)是個(gè)稀疏（Sparse）結(jié)構(gòu)，想要覆蓋半徑更大更稠密（Dense）就必須買(mǎi)更昂貴的型號(hào)，最好是停下來(lái)多掃一段時(shí)間。激光雷達(dá)模塊廠家在展示產(chǎn)品時(shí)，當(dāng)然得給出更好看的圖了，只有AD研發(fā)人員才知道這里面有多苦。以上都是基礎(chǔ)的概念，作為BEV算法的入門(mén)，必須先提到LSS（Lift,Splat,Shoot):https://github.com/nv-tlabs/lift-splat-shoot老黃家的，很多文章都把它列為BEV的開(kāi)山（Groundbreaking）之。它構(gòu)建了一個(gè)簡(jiǎn)單有效的處理過(guò)程：把相機(jī)的照片從2維數(shù)據(jù)投影成3維數(shù)據(jù)，然后像打蒼蠅一樣把它拍扁，再?gòu)纳系垡暯莵?lái)看這個(gè)被拍扁的場(chǎng)景，特別符合人看地圖的直覺(jué)模式。一般看到這里會(huì)有疑惑的：都已經(jīng)建立了3維的場(chǎng)景數(shù)據(jù)，3維不香么？干嘛還要拍扁？不是不想要3維，是沒(méi)辦法，它不是一個(gè)完善的3維數(shù)據(jù)：

圖15看過(guò)這玩意吧，它就是LSS的本質(zhì)，從正面看，能形成一張2維照片，這個(gè)照片被LSS拉伸到3維空間后就是上圖，你從BEV的視角也就是正上方向下看會(huì)是啥？什么都看不出來(lái)，所以后續(xù)要拍扁（Splat），具體過(guò)程是這樣：

圖16

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

如何理解自動(dòng)駕駛，SLAM，BEV，訓(xùn)練數(shù)據(jù)源常見(jiàn)術(shù)語(yǔ)?(2)

相關(guān)推薦

技術(shù)專區(qū)

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

如何理解自動(dòng)駕駛，SLAM，BEV，訓(xùn)練數(shù)據(jù)源常見(jiàn)術(shù)語(yǔ)?(2)

相關(guān)推薦

技術(shù)專區(qū)

如何理解自動(dòng)駕駛，SLAM，BEV，訓(xùn)練數(shù)據(jù)源常見(jiàn)術(shù)語(yǔ)?(2)