在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁(yè) > 博客 > 如何理解自動(dòng)駕駛,SLAM,BEV,訓(xùn)練數(shù)據(jù)源常見(jiàn)術(shù)語(yǔ)?(2)

            如何理解自動(dòng)駕駛,SLAM,BEV,訓(xùn)練數(shù)據(jù)源常見(jiàn)術(shù)語(yǔ)?(2)

            發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2023-08-15 來(lái)源:工程師 發(fā)布文章
            在統(tǒng)一的坐標(biāo)系下,多角度的照片才能正確得“環(huán)繞”出周邊的景象。另外還有一些單目(Monocular)攝像頭的BEV方案,它們有的不考慮Ego坐標(biāo)系,因?yàn)橹挥幸粋€(gè)朝向正前方(Yaw,Pitch,Roll全部為0)的攝像頭,而且原點(diǎn)就是這個(gè)攝像頭本身,所以直接從相機(jī)坐標(biāo)系跳到世界坐標(biāo)系。

            Frustum,這個(gè)東西在3維渲染領(lǐng)域通常叫做“視錐體”,用來(lái)表示相機(jī)的可視范圍:

            圖片

            圖9紅面和綠面以及線框包圍起來(lái)的空間就是視錐體,綠面通常叫做近平面(Near Plane),紅面叫做遠(yuǎn)平面(Far Plane),線框構(gòu)成的角度叫做FOV,如果CCD/CMOS成像的高寬相同,那么近平面和遠(yuǎn)平面就都是正方形,一個(gè)FOV就足以表示,反之,就要區(qū)分為FOVx和FOVy了,超出這個(gè)視錐體范圍的物體都不考慮進(jìn)計(jì)算。圖7中由6個(gè)三角面構(gòu)成了組合的可視范圍,實(shí)際上應(yīng)該是6個(gè)俯視的視錐體構(gòu)成,能看出視錐體之間是有交疊區(qū)域的,這些區(qū)域有利于DNN在訓(xùn)練/推理中對(duì)6組數(shù)據(jù)做相互矯正,提高模型準(zhǔn)確性,在不增加相機(jī)數(shù)量的前提下,如果想擴(kuò)大這個(gè)交疊區(qū)域,就必須選擇FOV更大的相機(jī),但FOV越大的相機(jī)一般鏡頭畸變就會(huì)越嚴(yán)重(反畸變?cè)僭趺醋鲆仓荒芤欢ǔ潭壬系某C正圖片),物體在圖片上的成像面積也越小,干擾DNN對(duì)圖片上特征的識(shí)別和提取。


            BEV是個(gè)龐大的算法族,傾向于不同方向的算法選擇,粗略得看,有Tesla主導(dǎo)的以視覺(jué)感知流派,核心算法建立在多路攝像頭上,另外一大類是激光雷達(dá)+毫米波雷達(dá)+多路攝像頭的融合(Fusion)派,國(guó)內(nèi)很多AD公司都是融合派的,Google的Waymo也是。嚴(yán)格得講,Tesla正在從BEV(Hydranet)過(guò)渡到一種新的技術(shù):Occupancy Network,從2維提升到3維:

            圖片

            圖10無(wú)論是2維的還是3維的,都在試圖描述周遭空間的Occupany(占用)情況,只是一個(gè)用2維棋盤(pán)格來(lái)表述這種占用情況,一個(gè)是用3維的積木方式表述占用。DNN在度量這種占用時(shí)采用的是概率,比如我們直觀看到某個(gè)格子上是一輛車(chē),而DNN給出的原始結(jié)果是:這個(gè)格子上,是車(chē)的可能性有80%,是路面的可能性為5%,是行人的可能性為3%。。。。。所以,在BEV代碼里,一般將各種可能出現(xiàn)的物體分了類,通常是兩大類:1)不常變化的:車(chē)輛可通信區(qū)域(Driveable),路面(Road),車(chē)道(Lane),建筑(Building),植被(Foliage/Vegetation),停車(chē)區(qū)域(Parking),信號(hào)燈(Traffic Light)以及一些未分類靜態(tài)物體(Static),它們之間的關(guān)系是可以相互包容的,比如Driveable可以包含Road/Lane等等。2)可變的,也就是會(huì)發(fā)生移動(dòng)的物體:行人(Pedestrian),小汽車(chē)(Car),卡車(chē)(Truck),錐形交通標(biāo)/安全桶(Traffic Cone)等等這樣分類的目的是便于AD做后續(xù)的駕駛規(guī)劃(Planning,有的翻譯成決策)和控制(Control)。而B(niǎo)EV在感知(Perception)階段就是按照這些物體在格子上出現(xiàn)的概率打分,最后通過(guò)Softmax函數(shù)將概率歸一取出最大的那個(gè)可能性作為占用這個(gè)格子的物體類型。但這有個(gè)小問(wèn)題:BEV的DNN模型(Model)在訓(xùn)練階段,是要指明照片中各個(gè)物體是啥?也就是要在標(biāo)注數(shù)據(jù)(Labeled Data)上給各種物體打上類型標(biāo)簽的:

            圖片

            圖11右邊的我們權(quán)當(dāng)做是標(biāo)注數(shù)據(jù)吧,左邊是對(duì)應(yīng)的相片,按照這個(gè)物體分類訓(xùn)練出來(lái)的DNN模型,真得跑上路面,如果遭遇了訓(xùn)練集里未出現(xiàn)的物體類型怎么辦?如果模型效果不好,比如某個(gè)姿勢(shì)奇葩的人體未被識(shí)別成行人和其它已知類型,又當(dāng)如何?Occupancy Network為此改變的感知策略,不再?gòu)?qiáng)調(diào)分類了(不是不分類,只是重點(diǎn)變了),核心關(guān)注路面上是否有障礙物(Obstacle),先保證別撞上去就行了,別管它是什么類型。3維的積木方式表述這種障礙物更為貼切,有的地方借用了3維渲染(Rendering/Shading)領(lǐng)域的常見(jiàn)概念把這種3維表述叫做體素(Voxel),想象一下我的世界(MineCraft)就很簡(jiǎn)單了。

            圖片

            圖12以上是視覺(jué)流派的簡(jiǎn)述,混合派在干嘛?它們除了相機(jī)外,還側(cè)重于激光雷達(dá)的數(shù)據(jù),毫米波雷達(dá)由于數(shù)據(jù)品相太差逐漸退出,留守的去充當(dāng)停車(chē)?yán)走_(dá)了,也不能說(shuō)它一無(wú)是處,Tesla雖然強(qiáng)調(diào)視覺(jué)處理,但也保留了一路朝向正前方的毫米波雷達(dá),而且AD這個(gè)領(lǐng)域技術(shù)變化非??欤洳欢∧奶煊行滤惴俺鲇帜馨押撩撞ɡ走_(dá)的價(jià)值發(fā)揚(yáng)光大一把。激光雷達(dá)的好處是什么:可以直接測(cè)出物體的遠(yuǎn)近,精度比視覺(jué)推測(cè)出的場(chǎng)景深度要高很多,一般會(huì)轉(zhuǎn)化為深度(Depth)數(shù)據(jù)或者點(diǎn)云(Point Cloud),這兩者配套的算法有很長(zhǎng)的歷史了,所以AD可以直接借用,減少開(kāi)發(fā)量。另外,激光雷達(dá)可以在夜間或糟糕的天氣環(huán)境下工作,相機(jī)就抓瞎了。但這幾天出現(xiàn)了一種新的感知技術(shù)HADAR(Heat-Assisted Detection and Ranging),可以和相機(jī)/激光雷達(dá)/毫米波雷達(dá)并列的傳感器級(jí)別感知技術(shù)。它的特點(diǎn)是利用特殊的算法把常規(guī)熱成像在夜間拍攝的圖片轉(zhuǎn)化為周?chē)h(huán)境/物體的紋理和深度,這個(gè)東西和相機(jī)配合能解決夜間視覺(jué)感知的問(wèn)題。以前的BEV為什么不提熱成像/紅外相機(jī),因?yàn)閭鹘y(tǒng)算法有些明顯的缺陷:只能提供場(chǎng)景的熱量分布,形成一張灰度(Gray)圖,缺乏紋理(Texture),原始數(shù)據(jù)缺乏深度信息,推算出的深度精度差,如果僅僅通過(guò)從灰度圖上提取的輪廓(Contour)和亮度過(guò)渡(Gradient),很難精確還原場(chǎng)景/物體的體積信息,并且目前的2維物體識(shí)別是很依賴紋理和色彩的。這個(gè)HADAR的出現(xiàn),恰好可以解決這個(gè)問(wèn)題:在較暗的環(huán)境下提取場(chǎng)景的深度以及紋理:

            圖片

            圖13左列,自上而下:1)基礎(chǔ)的熱成像,簡(jiǎn)稱T2)用常規(guī)熱成像算法從T提取的深度3)用HADAR算法從T提取的紋理圖4)用HADAR算法從T提取的深度5)真實(shí)場(chǎng)景的深度右列,自上而下:1)這個(gè)場(chǎng)景在白天用可見(jiàn)光相機(jī)拍攝的照片2)通過(guò)照片推理的深度3)真實(shí)場(chǎng)景的深度HADAR的這個(gè)深度信息老牛逼了,對(duì)比一下激光雷達(dá)的效果就知道了:

            圖片

            圖14激光雷達(dá)的掃描范圍是有限的,一般半徑100米,從上圖可以看出,沒(méi)有紋理信息,遠(yuǎn)處的場(chǎng)景也沒(méi)有深度了,掃描線導(dǎo)致其數(shù)據(jù)是個(gè)稀疏(Sparse)結(jié)構(gòu),想要覆蓋半徑更大更稠密(Dense)就必須買(mǎi)更昂貴的型號(hào),最好是停下來(lái)多掃一段時(shí)間。激光雷達(dá)模塊廠家在展示產(chǎn)品時(shí),當(dāng)然得給出更好看的圖了,只有AD研發(fā)人員才知道這里面有多苦。以上都是基礎(chǔ)的概念,作為BEV算法的入門(mén),必須先提到LSS(Lift,Splat,Shoot):https://github.com/nv-tlabs/lift-splat-shoot老黃家的,很多文章都把它列為BEV的開(kāi)山(Groundbreaking)之。它構(gòu)建了一個(gè)簡(jiǎn)單有效的處理過(guò)程:把相機(jī)的照片從2維數(shù)據(jù)投影成3維數(shù)據(jù),然后像打蒼蠅一樣把它拍扁,再?gòu)纳系垡暯莵?lái)看這個(gè)被拍扁的場(chǎng)景,特別符合人看地圖的直覺(jué)模式。一般看到這里會(huì)有疑惑的:都已經(jīng)建立了3維的場(chǎng)景數(shù)據(jù),3維不香么?干嘛還要拍扁?不是不想要3維,是沒(méi)辦法,它不是一個(gè)完善的3維數(shù)據(jù):

            圖片

            圖15看過(guò)這玩意吧,它就是LSS的本質(zhì),從正面看,能形成一張2維照片,這個(gè)照片被LSS拉伸到3維空間后就是上圖,你從BEV的視角也就是正上方向下看會(huì)是啥?什么都看不出來(lái),所以后續(xù)要拍扁(Splat),具體過(guò)程是這樣:

            圖片

            圖16


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: 汽車(chē)電子

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉