在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁(yè) > 博客 > ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?(2)

            ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?(2)

            發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2023-07-04 來(lái)源:工程師 發(fā)布文章
            一、引言

            近年來(lái),數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)在人工智能系統(tǒng)中得到廣泛應(yīng)用。計(jì)算硬件的進(jìn)步極大地推動(dòng)了機(jī)器智能的發(fā)展,并促進(jìn)了一種新興的范式,即基于廣泛數(shù)據(jù)訓(xùn)練的模型的知識(shí)轉(zhuǎn)移。

            • 自然語(yǔ)言處理 (NLP) 取得了巨大的成功,其中的模型旨在通過(guò)對(duì)極大規(guī)模數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)來(lái)獲取通用表示。
            • 自從Transformer在視覺領(lǐng)域取得成功后,人們已經(jīng)做出了許多努力,將這種趨勢(shì)從NLP領(lǐng)域擴(kuò)展到基于2D視覺理解的基礎(chǔ)模型中。

            與2D視覺和NLP相比,基于基礎(chǔ)的視覺計(jì)算在3D社區(qū)中發(fā)展滯后。提出以下問題:是什么使得3D表示學(xué)習(xí)比2D視覺或NLP更具挑戰(zhàn)性?

            從以下三個(gè)角度提供一些分析性答案:

            i. 架構(gòu)不統(tǒng)一。先驅(qū)性架構(gòu)如PointNet只能對(duì)3D坐標(biāo)進(jìn)行編碼,而無(wú)法應(yīng)用于在NLP和2D視覺中取得成功的掩碼去噪自編碼(DAE)。然而,Transformer架構(gòu)現(xiàn)在已經(jīng)彌補(bǔ)了這種架構(gòu)上的差距,實(shí)現(xiàn)了跨所有模態(tài)格式的統(tǒng)一表示,并為擴(kuò)展3D中的DAE帶來(lái)了巨大潛力。

            ii. 數(shù)據(jù)稀缺。與圖像和自由形式語(yǔ)言相比,收集和標(biāo)注3D或4D數(shù)據(jù)更加困難,通常需要更昂貴且密集的工作。此外,考慮到數(shù)據(jù)規(guī)模,3D數(shù)據(jù)嚴(yán)重匱乏。這促使了跨模態(tài)知識(shí)轉(zhuǎn)移的使用。最近的研究要么與其他模態(tài)一起進(jìn)行聯(lián)合訓(xùn)練以實(shí)現(xiàn)更有效的對(duì)比,要么直接對(duì)在圖像數(shù)據(jù)上預(yù)訓(xùn)練的2D Transformers進(jìn)行微調(diào)。

            iii. 模式差異。表1顯示了語(yǔ)言、2D圖像和3D點(diǎn)云的數(shù)據(jù)模式比較??梢杂^察到:

            • (i)3D點(diǎn)云通常是非結(jié)構(gòu)化的,包含稀疏語(yǔ)義,不同于語(yǔ)言。這導(dǎo)致在點(diǎn)云上進(jìn)行掩碼去噪自編碼更加困難;
            • (ii)2D圖像在網(wǎng)格上均勻分布,而3D點(diǎn)云則是從對(duì)象表面不規(guī)則采樣。這種結(jié)構(gòu)上的差異導(dǎo)致了單模態(tài)增強(qiáng)和跨模態(tài)對(duì)應(yīng)的對(duì)比目標(biāo)構(gòu)建的困難;
            • (iii)如何設(shè)計(jì)具有豐富語(yǔ)義的更好表示成為自監(jiān)督3D理解的主要目標(biāo)。

            在上述分析的推動(dòng)下,作者提出了將Autoencoders作為跨模態(tài)教師進(jìn)行訓(xùn)練。

            • ACT利用基于2D圖像或自然語(yǔ)言預(yù)訓(xùn)練的基礎(chǔ)Transformers作為跨模態(tài)教師,具有豐富的知識(shí)和強(qiáng)大的表示能力。通過(guò)這種方式,3D中的數(shù)據(jù)稀缺問題得到緩解。
            • Transformer被用作通用的3D學(xué)習(xí)器,彌補(bǔ)了掩碼建模表示學(xué)習(xí)方面的架構(gòu)差距。通過(guò)以自監(jiān)督的方式在3D數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練的Transformers作為自編碼器,Transformers可以將3D點(diǎn)云轉(zhuǎn)化為具有豐富語(yǔ)義的表示形式。為了保留和繼承預(yù)訓(xùn)練的基礎(chǔ)知識(shí),使用了提示微調(diào)。

            因此,ACT使預(yù)訓(xùn)練的Transformers成為自發(fā)的跨模態(tài)教師,為3D點(diǎn)云提供了語(yǔ)義豐富的掩碼建模目標(biāo)。

            • 由于預(yù)訓(xùn)練的Transformers被微調(diào)為3D自編碼器,在這種跨模態(tài)Transformer轉(zhuǎn)移過(guò)程中不需要任何圖像、語(yǔ)言數(shù)據(jù)或3D下游標(biāo)注。
            • 此外,由于調(diào)整后的Transformers僅用作3D Transformer學(xué)生的教師,該方法在下游特征轉(zhuǎn)移過(guò)程中不會(huì)引入額外的計(jì)算或存儲(chǔ)成本。

            此外,進(jìn)行了各種任務(wù)的大量實(shí)驗(yàn)證明了ACT預(yù)訓(xùn)練3D Transformers具有出色的泛化性能。

            • 例如,在ScanObjectNN數(shù)據(jù)集上實(shí)現(xiàn)了平均準(zhǔn)確率提高%。

            據(jù)知,本文首次證明了預(yù)訓(xùn)練的基礎(chǔ)Transformer可以幫助3D表示學(xué)習(xí),而無(wú)需訪問任何2D、語(yǔ)言數(shù)據(jù)或3D下游標(biāo)注。ACT是一個(gè)自監(jiān)督的框架,可以推廣到其他模態(tài)和任務(wù),期望這能夠推動(dòng)更多類似ACT風(fēng)格的表示學(xué)習(xí)的探索。



            表1: 數(shù)據(jù)模式比較

            圖片

            二、相關(guān)背景自監(jiān)督的3D幾何處理表示學(xué)習(xí)

            自監(jiān)督的3D幾何處理表示學(xué)習(xí)目前在學(xué)術(shù)界引起了極大的興趣。

            • 傳統(tǒng)方法是基于重建的幾何理解預(yù)任務(wù)構(gòu)建的,例如點(diǎn)云部分重排序,方向估計(jì),局部和全局重建,流一致性,變形和遮擋。

            • 與此同時(shí),Xie等人在PointContrast中提出了學(xué)習(xí)增強(qiáng)點(diǎn)云之間的區(qū)分性視角一致性的方法。在這個(gè)方向上,還提出了許多相關(guān)工作。

            最近,許多工作提出了應(yīng)用點(diǎn)云Transformer的自編碼器(DAE)預(yù)訓(xùn)練的方法,并取得了顯著的成功。

            • Yu等人通過(guò)擴(kuò)展BERT-style預(yù)訓(xùn)練的思想,結(jié)合全局對(duì)比目標(biāo),開創(chuàng)了這個(gè)方向。
            • Liu等人提出了添加一些噪聲點(diǎn),并對(duì)每個(gè)掩碼位置的掩碼標(biāo)記進(jìn)行真假分類的方法,這與Selfie的模式相似,后者對(duì)掩碼圖像塊進(jìn)行真假分類。
            • Pang等人提出了通過(guò)對(duì)3D點(diǎn)云坐標(biāo)進(jìn)行掩碼建模,在點(diǎn)云上探索MAE的方法。

            作者遵循這種DAE-style表示學(xué)習(xí)范式,但與之前的方法不同,工作旨在使用由預(yù)訓(xùn)練基礎(chǔ)Transformer編碼的潛在特征作為掩碼建模目標(biāo)。

            跨模態(tài)的3D表示學(xué)習(xí)

            跨模態(tài)的3D表示學(xué)習(xí)旨在利用除了3D點(diǎn)云之外的更多模態(tài)內(nèi)在的學(xué)習(xí)信號(hào),例如,2D圖像被認(rèn)為具有豐富的上下文和紋理知識(shí),而自由形式的語(yǔ)言則具有密集的語(yǔ)義信息。主流方法基于全局特征匹配的對(duì)比學(xué)習(xí)進(jìn)行開發(fā)。

            • 例如,Jing等人提出了一種判別性中心損失函數(shù),用于點(diǎn)云、網(wǎng)格和圖像的特征對(duì)齊。
            • Afham等人提出了一種在增強(qiáng)的點(diǎn)云和相應(yīng)渲染的2D圖像之間進(jìn)行的模態(tài)內(nèi)和模態(tài)間對(duì)比學(xué)習(xí)框架。

            通過(guò)利用幾何先驗(yàn)信息進(jìn)行密集關(guān)聯(lián),另一項(xiàng)工作探索了細(xì)粒度的局部特征匹配

            • Liu等人提出了一種對(duì)比知識(shí)蒸餾方法,用于對(duì)齊細(xì)粒度的2D和3D特征。
            • Li等人提出了一個(gè)簡(jiǎn)單的對(duì)比學(xué)習(xí)框架,用于模態(tài)內(nèi)和模態(tài)間的密集特征對(duì)比,并使用匈牙利算法進(jìn)行更好的對(duì)應(yīng)。

            最近,通過(guò)直接使用經(jīng)過(guò)監(jiān)督微調(diào)的預(yù)訓(xùn)練2D圖像編碼器取得了很大的進(jìn)展。

            • Image2Point 提出了通過(guò)卷積層膨脹來(lái)傳遞預(yù)訓(xùn)練權(quán)重的方法。
            • P2P 提出了將3D點(diǎn)云投影到2D圖像,并通過(guò)可學(xué)習(xí)的上色模塊將其作為圖像主干網(wǎng)絡(luò)的輸入。

            一些工作也探索了預(yù)訓(xùn)練基礎(chǔ)模型是否可以幫助3D學(xué)習(xí)。然而,本文作者的方法:

            (1)不使用預(yù)訓(xùn)練的2D或語(yǔ)言模型作為推斷的主干模型;

            (2)在無(wú)下游3D標(biāo)注的自監(jiān)督預(yù)訓(xùn)練過(guò)程中探索使用來(lái)自其他模態(tài)的預(yù)訓(xùn)練基礎(chǔ)模型;

            (3)不需要成對(duì)的點(diǎn)-圖像或點(diǎn)-語(yǔ)言數(shù)據(jù)。

            除了2D圖像之外,還有一些工作提出利用自然語(yǔ)言進(jìn)行對(duì)比的3D表示學(xué)習(xí),零樣本學(xué)習(xí),以及場(chǎng)景理解。


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉