在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 浙大團(tuán)隊(duì)研發(fā)新型三維重建框架NeuralRecon,是首個(gè)基于深度學(xué)習(xí)的實(shí)時(shí)單目三維場(chǎng)景重建系統(tǒng) | 專訪

            浙大團(tuán)隊(duì)研發(fā)新型三維重建框架NeuralRecon,是首個(gè)基于深度學(xué)習(xí)的實(shí)時(shí)單目三維場(chǎng)景重建系統(tǒng) | 專訪

            發(fā)布人:深科技 時(shí)間:2021-05-08 來源:工程師 發(fā)布文章

            最近,iPad 和 iPhone 上的 LiDAR 有了新玩法,Apple Clips 應(yīng)用程序中更新了基于三維重建的 AR 空間特效。通過 Clips 3.1 的 AR 空間功能,用戶只需用帶有 LiDAR 傳感器的 iPad Pro 或 iPhone Pro 在房間中進(jìn)行掃描和重建,就能為拍攝的視頻中添加絢麗的 AR 效果。

             

            比如跟著 AR 投射出來的燈光跳舞;

             

            再比如用 Star Walk 2 的 AR 功能,足不出戶在房間屋頂上觀看星座。


             

            不過要實(shí)現(xiàn)上述視頻中的效果,需要 iPad 和 iPhone 高端型號(hào)上配備的 LiDAR 深度傳感器,而使用浙江大學(xué)-商湯三維視覺聯(lián)合實(shí)驗(yàn)室所提出的方法,希望能讓普通手機(jī)的單目攝像頭也可實(shí)現(xiàn)上述效果。

             

            實(shí)驗(yàn)室成員周曉巍接受了我們的采訪。他是國內(nèi)計(jì)算機(jī)視覺領(lǐng)域青年學(xué)者、也是浙江大學(xué)計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)國家重點(diǎn)實(shí)驗(yàn)室的“百人計(jì)劃” 研究員和博士生導(dǎo)師。幾年前,在結(jié)束美國賓夕法尼亞大學(xué) GRASP 機(jī)器人實(shí)驗(yàn)室的博士后研究后,回到母校任教。他告訴 DeepTech:“目前我們跟商湯、華為都有非常緊密的合作,通過這種產(chǎn)學(xué)研的結(jié)合,我們的研究成果既有對(duì)學(xué)術(shù)前沿的探索,又能根據(jù)實(shí)際需求去攻克一些技術(shù)瓶頸。與此同時(shí),國內(nèi)的 3D 視覺領(lǐng)域還處于新興發(fā)展階段,也需要我們回來一起把這個(gè)方向給發(fā)展壯大起來,不斷縮短與國際領(lǐng)先水平之間的差距?!?/strong>


             


            周曉巍所在的團(tuán)隊(duì)提出了一種基于單目視頻的三維場(chǎng)景重建框架 NeuralRecon。在實(shí)時(shí) (25 FPS) 的速度下,使用該方法可高質(zhì)量地重建三維場(chǎng)景。對(duì)比結(jié)果顯示,在 ScanNet、7-Scenes 等數(shù)據(jù)集上,NeuralRecon 的速度和精度均大幅領(lǐng)先以往方法。該工作將發(fā)表于今年的計(jì)算機(jī)視覺頂級(jí)會(huì)議 CVPR,并錄用為口頭報(bào)告。

             

            據(jù)其表示,NeuralRecon 提出了用神經(jīng)網(wǎng)絡(luò)、直接回歸基于 TSDF 表示的局部三維表面,并能使用基于 GRU 的 TSDF 融合模塊,來融合歷史局部表面的特征。這樣設(shè)計(jì)的好處是,網(wǎng)絡(luò)不僅能直接學(xué)習(xí)到三維表面的局部光滑性先驗(yàn)并借此實(shí)現(xiàn)準(zhǔn)確且一致的重建,還可以減少以往方法中重復(fù)冗余的計(jì)算量,在保持質(zhì)量的前提下實(shí)現(xiàn)實(shí)時(shí)的重建。據(jù)該團(tuán)隊(duì)所知,這是首個(gè)基于深度學(xué)習(xí)方法、并能實(shí)時(shí)重建稠密且一致三維表面的系統(tǒng)。

             

            問題和挑戰(zhàn):基于圖像的實(shí)時(shí)場(chǎng)景的三維重建依然任重道遠(yuǎn)


            一直以來,稠密場(chǎng)景重建都是三維視覺的核心問題,在增強(qiáng)現(xiàn)實(shí)(AR)等應(yīng)用中,扮演著重要角色。在 AR 應(yīng)用中,要想實(shí)現(xiàn)真實(shí)、沉浸式的虛實(shí)融合體驗(yàn),就需要正確處理真實(shí)場(chǎng)景和虛擬的AR物體之間的遮擋關(guān)系,并對(duì)陰影等效果做出正確的渲染,如此才能實(shí)現(xiàn)合理的虛擬內(nèi)容放置、以及它和與真實(shí)場(chǎng)景的交互。概括來說,要想實(shí)現(xiàn)這些效果,都得對(duì)場(chǎng)景進(jìn)行實(shí)時(shí)且精確的三維重建。

             

            三維重建需要依賴精確的六自由度相機(jī)位姿估計(jì)。最近幾年,視覺慣性 SLAM 逐漸成熟,且已得到大范圍的落地應(yīng)用。ARKit 和 ARCore 等 AR 框架的出現(xiàn),讓多數(shù)智能手機(jī)都能準(zhǔn)確跟蹤其自身六自由度的姿態(tài)。

             

            然而,基于圖像的實(shí)時(shí)場(chǎng)景的三維重建依然任重道遠(yuǎn)。目前常用的三維重建方案如 KinectFusion、BundleFusion 等,非常依賴深度傳感器提供的深度測(cè)量。但是,由于深度傳感器價(jià)格昂貴、功耗也比較高,因此其普及程度依然較低,通常只有少數(shù)高端型號(hào)的移動(dòng)設(shè)備才舍得配備。因此,使用單目多視角圖像去實(shí)現(xiàn)實(shí)時(shí)三維重建,具有非常大的應(yīng)用前景。在不增加傳感器的前提下,它可直接用在現(xiàn)有智能設(shè)備中。

             

            而在基于多視角圖像的三維重建方法中,基于深度圖融合的方法非常流行??墒?,這種方法存在兩個(gè)問題:

             

            第一,其中有大量重復(fù)計(jì)算,從相鄰幀之間,可以看到相鄰區(qū)域中有大面積的重合,同一區(qū)域的深度則會(huì)被計(jì)算多次,這會(huì)帶來計(jì)算量上的冗余;第二,即便相鄰兩幀能看到的區(qū)域有較大重合,每一幀深度圖的計(jì)算卻都得重新開始,而非基于之前相鄰幀的深度預(yù)測(cè)結(jié)果。

             

            如下圖所示,這會(huì)導(dǎo)致計(jì)算出來的相鄰兩幀的深度圖不一致,重建的結(jié)果也因此常會(huì)非常分散,甚至?xí)a(chǎn)生分層。

             

            NeuralRecon:新型三維場(chǎng)景重建框架

             

            為解決上述痛點(diǎn),該團(tuán)隊(duì)提出這一新型三維場(chǎng)景重建框架 NeuralRecon,下圖展示了它的算法流程。這是一個(gè)輕量級(jí)的實(shí)時(shí)端到端系統(tǒng),可直接從已知相機(jī)位姿的多視角圖像中,重建基于稀疏 TSDF 表示的三維場(chǎng)景幾何信息。

             

            NeuralRecon 主要有如下兩個(gè)步驟,第一步是關(guān)鍵幀的選擇。

             

            關(guān)鍵幀選擇的目的,是為了在提供足夠運(yùn)動(dòng)視差的同時(shí),還能保持多視角的共視關(guān)系,因此所選關(guān)鍵幀之間的距離,不能太近也不能太遠(yuǎn)。具體來說, 假如一個(gè)新傳入的幀和上一個(gè)關(guān)鍵幀的相對(duì)平移大于 t [max],并且相對(duì)旋轉(zhuǎn)角度大于 R [max],那么就可選擇該幀作為關(guān)鍵幀。而具備 N 個(gè)關(guān)鍵幀的窗口,可被定義為一個(gè)片段。

             

            第二步是聯(lián)合片段重建和融合,其中涉及三個(gè)分步驟。

             

            第一個(gè)分步驟是圖片特征提取和反投影,這里指的是某個(gè)視頻片段中的 N 張圖片,最初會(huì)通過一個(gè) CNN 網(wǎng)絡(luò)來提取多個(gè)分辨率下的圖像深度特征。而圖片特征會(huì)反投影到三維空間中,得到三維特征體。

             

            第二個(gè)分步驟是從粗到細(xì)的三維場(chǎng)景重建。采取從粗到細(xì)的方式,分階段地預(yù)測(cè)并細(xì)化場(chǎng)景的幾何信息。在每個(gè)階段中,稀疏三維卷積神經(jīng)網(wǎng)絡(luò)會(huì)被用來處理三維特征體,最終通過一個(gè)多層感知機(jī) (MLP),獲悉占有分?jǐn)?shù) (Occupancy score) 和 TSDF 值。

             

            其中,占有分?jǐn)?shù)代表著三維特征體中體素在 TSDF 截?cái)嗑嚯x之內(nèi)的概率。在每個(gè)階段的最后,占有分?jǐn)?shù)小于閾值的體素,都會(huì)被定為空、并會(huì)被除掉。而在稀疏化之后,稀疏三維特征體會(huì)被上采樣。下圖是稀疏 TSDF 表示的可視化。

             

            第三個(gè)分步驟是基于 GRU 的融合,這一步的目的,在于讓片段的重建之間得以保持一致,希望當(dāng)前片段的重建可建立在歷史片段重建結(jié)果的基礎(chǔ)上。

             

            具體來說,該方法提出了一個(gè)基于 GRU 的聯(lián)合重建與融合模塊。如下圖,在每個(gè)階段,三維特征體都會(huì)首先通過一個(gè)三維稀疏卷積,并進(jìn)行三維幾何特征提取。然后,三維幾何特征會(huì)被輸入進(jìn) GRU 聯(lián)合重建與融合模塊。該模塊會(huì)將三維幾何特征與在歷史片段重建中獲得的隱變量進(jìn)行融合,并通過一個(gè)全局感知機(jī)回歸 TSDF 和占有分?jǐn)?shù)。

             

            直觀地說,這里的 GRU 作為一種基于學(xué)習(xí)的選擇性注意機(jī)制,可取代傳統(tǒng) TSDF 融合中的線性操作。在后續(xù)的步驟中,因?yàn)镚RU 進(jìn)行了聯(lián)合重建與融合的操作,所以會(huì)直接將回歸的 TSDF 替換對(duì)應(yīng)區(qū)域的全局 TSDF,最終的重建結(jié)果可以從更新后的全局 TSDF 中通過 Marching Cubes 算法獲得。

             

            兩大優(yōu)勢(shì):重建結(jié)果具有一致性、重建過程用時(shí)更短


            根據(jù)實(shí)驗(yàn)結(jié)果,作者們做出了可視效果的對(duì)比圖。

             

            對(duì)比可知,相比較傳統(tǒng)的基于深度圖的方法,NeuralRecon 主要有兩方面優(yōu)勢(shì):

            其一,重建結(jié)果具有一致性;其二,重建過程用時(shí)更短。

             

            作者們?cè)?ScanNet 數(shù)據(jù)集上,將本次方法和當(dāng)前最好的方法做定量對(duì)比。對(duì)比發(fā)現(xiàn),本次方法在 F-score 上和速度上,都能超過此前方法,并能做到實(shí)時(shí)且精確的估計(jì)。


            與此前最快的方法 MVDepthNet 比較,本次方法不僅速度略有領(lǐng)先,F(xiàn)-score 也從 0.329 提到了 0.562。相比此前精度最高的方法 COLMAP,本次方法在精度稍勝一籌的情況下,處理每個(gè)關(guān)鍵幀所需時(shí)間也從 2076ms 降至 30ms。

             

            結(jié)語:NeuralRecon 為基于深度學(xué)習(xí)的三維感知系統(tǒng)打開新的可能性


            概括來說,NeuralRecon 的核心思想,在于對(duì)每個(gè)視頻片段的可視區(qū)域進(jìn)行增量式的聯(lián)合重建和聯(lián)合融合。這個(gè)設(shè)計(jì)讓 NeuralRecon 能實(shí)時(shí)輸出精確、且具有一致性的三維表面。

             

            展望未來,使用 NeuralRecon 重建的稀疏 TSDF 表示能直接用于三維語義分割、三維目標(biāo)檢測(cè)和可微渲染等下游任務(wù)。借助與下游任務(wù)的端到端聯(lián)合訓(xùn)練,NeuralRecon 可為基于深度學(xué)習(xí)的三維感知系統(tǒng)提供出新的可能性。

             

            -End-


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: NeuralRecon

            技術(shù)專區(qū)

            關(guān)閉