ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎？（2）

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2023-07-04 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

一、引言

近年來(lái)，數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)在人工智能系統(tǒng)中得到廣泛應(yīng)用。計(jì)算硬件的進(jìn)步極大地推動(dòng)了機(jī)器智能的發(fā)展，并促進(jìn)了一種新興的范式，即基于廣泛數(shù)據(jù)訓(xùn)練的模型的知識(shí)轉(zhuǎn)移。

自然語(yǔ)言處理 (NLP) 取得了巨大的成功，其中的模型旨在通過(guò)對(duì)極大規(guī)模數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)來(lái)獲取通用表示。
自從Transformer在視覺領(lǐng)域取得成功后，人們已經(jīng)做出了許多努力，將這種趨勢(shì)從NLP領(lǐng)域擴(kuò)展到基于2D視覺理解的基礎(chǔ)模型中。

與2D視覺和NLP相比，基于基礎(chǔ)的視覺計(jì)算在3D社區(qū)中發(fā)展滯后。提出以下問題：是什么使得3D表示學(xué)習(xí)比2D視覺或NLP更具挑戰(zhàn)性？

從以下三個(gè)角度提供一些分析性答案：

i. 架構(gòu)不統(tǒng)一。先驅(qū)性架構(gòu)如PointNet只能對(duì)3D坐標(biāo)進(jìn)行編碼，而無(wú)法應(yīng)用于在NLP和2D視覺中取得成功的掩碼去噪自編碼（DAE）。然而，Transformer架構(gòu)現(xiàn)在已經(jīng)彌補(bǔ)了這種架構(gòu)上的差距，實(shí)現(xiàn)了跨所有模態(tài)格式的統(tǒng)一表示，并為擴(kuò)展3D中的DAE帶來(lái)了巨大潛力。

ii. 數(shù)據(jù)稀缺。與圖像和自由形式語(yǔ)言相比，收集和標(biāo)注3D或4D數(shù)據(jù)更加困難，通常需要更昂貴且密集的工作。此外，考慮到數(shù)據(jù)規(guī)模，3D數(shù)據(jù)嚴(yán)重匱乏。這促使了跨模態(tài)知識(shí)轉(zhuǎn)移的使用。最近的研究要么與其他模態(tài)一起進(jìn)行聯(lián)合訓(xùn)練以實(shí)現(xiàn)更有效的對(duì)比，要么直接對(duì)在圖像數(shù)據(jù)上預(yù)訓(xùn)練的2D Transformers進(jìn)行微調(diào)。

iii. 模式差異。表1顯示了語(yǔ)言、2D圖像和3D點(diǎn)云的數(shù)據(jù)模式比較?？梢杂^察到：

（i）3D點(diǎn)云通常是非結(jié)構(gòu)化的，包含稀疏語(yǔ)義，不同于語(yǔ)言。這導(dǎo)致在點(diǎn)云上進(jìn)行掩碼去噪自編碼更加困難；
（ii）2D圖像在網(wǎng)格上均勻分布，而3D點(diǎn)云則是從對(duì)象表面不規(guī)則采樣。這種結(jié)構(gòu)上的差異導(dǎo)致了單模態(tài)增強(qiáng)和跨模態(tài)對(duì)應(yīng)的對(duì)比目標(biāo)構(gòu)建的困難；
（iii）如何設(shè)計(jì)具有豐富語(yǔ)義的更好表示成為自監(jiān)督3D理解的主要目標(biāo)。

在上述分析的推動(dòng)下，作者提出了將Autoencoders作為跨模態(tài)教師進(jìn)行訓(xùn)練。

ACT利用基于2D圖像或自然語(yǔ)言預(yù)訓(xùn)練的基礎(chǔ)Transformers作為跨模態(tài)教師，具有豐富的知識(shí)和強(qiáng)大的表示能力。通過(guò)這種方式，3D中的數(shù)據(jù)稀缺問題得到緩解。
Transformer被用作通用的3D學(xué)習(xí)器，彌補(bǔ)了掩碼建模表示學(xué)習(xí)方面的架構(gòu)差距。通過(guò)以自監(jiān)督的方式在3D數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練的Transformers作為自編碼器，Transformers可以將3D點(diǎn)云轉(zhuǎn)化為具有豐富語(yǔ)義的表示形式。為了保留和繼承預(yù)訓(xùn)練的基礎(chǔ)知識(shí)，使用了提示微調(diào)。

因此，ACT使預(yù)訓(xùn)練的Transformers成為自發(fā)的跨模態(tài)教師，為3D點(diǎn)云提供了語(yǔ)義豐富的掩碼建模目標(biāo)。

由于預(yù)訓(xùn)練的Transformers被微調(diào)為3D自編碼器，在這種跨模態(tài)Transformer轉(zhuǎn)移過(guò)程中不需要任何圖像、語(yǔ)言數(shù)據(jù)或3D下游標(biāo)注。
此外，由于調(diào)整后的Transformers僅用作3D Transformer學(xué)生的教師，該方法在下游特征轉(zhuǎn)移過(guò)程中不會(huì)引入額外的計(jì)算或存儲(chǔ)成本。

此外，進(jìn)行了各種任務(wù)的大量實(shí)驗(yàn)證明了ACT預(yù)訓(xùn)練3D Transformers具有出色的泛化性能。

例如，在ScanObjectNN數(shù)據(jù)集上實(shí)現(xiàn)了平均準(zhǔn)確率提高%。

據(jù)知，本文首次證明了預(yù)訓(xùn)練的基礎(chǔ)Transformer可以幫助3D表示學(xué)習(xí)，而無(wú)需訪問任何2D、語(yǔ)言數(shù)據(jù)或3D下游標(biāo)注。ACT是一個(gè)自監(jiān)督的框架，可以推廣到其他模態(tài)和任務(wù)，期望這能夠推動(dòng)更多類似ACT風(fēng)格的表示學(xué)習(xí)的探索。

表1: 數(shù)據(jù)模式比較

二、相關(guān)背景自監(jiān)督的3D幾何處理表示學(xué)習(xí)

自監(jiān)督的3D幾何處理表示學(xué)習(xí)目前在學(xué)術(shù)界引起了極大的興趣。

傳統(tǒng)方法是基于重建的幾何理解預(yù)任務(wù)構(gòu)建的，例如點(diǎn)云部分重排序，方向估計(jì)，局部和全局重建，流一致性，變形和遮擋。
與此同時(shí)，Xie等人在PointContrast中提出了學(xué)習(xí)增強(qiáng)點(diǎn)云之間的區(qū)分性視角一致性的方法。在這個(gè)方向上，還提出了許多相關(guān)工作。

最近，許多工作提出了應(yīng)用點(diǎn)云Transformer的自編碼器（DAE）預(yù)訓(xùn)練的方法，并取得了顯著的成功。

Yu等人通過(guò)擴(kuò)展BERT-style預(yù)訓(xùn)練的思想，結(jié)合全局對(duì)比目標(biāo)，開創(chuàng)了這個(gè)方向。
Liu等人提出了添加一些噪聲點(diǎn)，并對(duì)每個(gè)掩碼位置的掩碼標(biāo)記進(jìn)行真假分類的方法，這與Selfie的模式相似，后者對(duì)掩碼圖像塊進(jìn)行真假分類。
Pang等人提出了通過(guò)對(duì)3D點(diǎn)云坐標(biāo)進(jìn)行掩碼建模，在點(diǎn)云上探索MAE的方法。

作者遵循這種DAE-style表示學(xué)習(xí)范式，但與之前的方法不同，工作旨在使用由預(yù)訓(xùn)練基礎(chǔ)Transformer編碼的潛在特征作為掩碼建模目標(biāo)。

跨模態(tài)的3D表示學(xué)習(xí)

跨模態(tài)的3D表示學(xué)習(xí)旨在利用除了3D點(diǎn)云之外的更多模態(tài)內(nèi)在的學(xué)習(xí)信號(hào)，例如，2D圖像被認(rèn)為具有豐富的上下文和紋理知識(shí)，而自由形式的語(yǔ)言則具有密集的語(yǔ)義信息。主流方法基于全局特征匹配的對(duì)比學(xué)習(xí)進(jìn)行開發(fā)。

例如，Jing等人提出了一種判別性中心損失函數(shù)，用于點(diǎn)云、網(wǎng)格和圖像的特征對(duì)齊。
Afham等人提出了一種在增強(qiáng)的點(diǎn)云和相應(yīng)渲染的2D圖像之間進(jìn)行的模態(tài)內(nèi)和模態(tài)間對(duì)比學(xué)習(xí)框架。

通過(guò)利用幾何先驗(yàn)信息進(jìn)行密集關(guān)聯(lián)，另一項(xiàng)工作探索了細(xì)粒度的局部特征匹配。

Liu等人提出了一種對(duì)比知識(shí)蒸餾方法，用于對(duì)齊細(xì)粒度的2D和3D特征。
Li等人提出了一個(gè)簡(jiǎn)單的對(duì)比學(xué)習(xí)框架，用于模態(tài)內(nèi)和模態(tài)間的密集特征對(duì)比，并使用匈牙利算法進(jìn)行更好的對(duì)應(yīng)。

最近，通過(guò)直接使用經(jīng)過(guò)監(jiān)督微調(diào)的預(yù)訓(xùn)練2D圖像編碼器取得了很大的進(jìn)展。

Image2Point 提出了通過(guò)卷積層膨脹來(lái)傳遞預(yù)訓(xùn)練權(quán)重的方法。
P2P 提出了將3D點(diǎn)云投影到2D圖像，并通過(guò)可學(xué)習(xí)的上色模塊將其作為圖像主干網(wǎng)絡(luò)的輸入。

一些工作也探索了預(yù)訓(xùn)練基礎(chǔ)模型是否可以幫助3D學(xué)習(xí)。然而，本文作者的方法：

（1）不使用預(yù)訓(xùn)練的2D或語(yǔ)言模型作為推斷的主干模型；

（2）在無(wú)下游3D標(biāo)注的自監(jiān)督預(yù)訓(xùn)練過(guò)程中探索使用來(lái)自其他模態(tài)的預(yù)訓(xùn)練基礎(chǔ)模型；

（3）不需要成對(duì)的點(diǎn)-圖像或點(diǎn)-語(yǔ)言數(shù)據(jù)。

除了2D圖像之外，還有一些工作提出利用自然語(yǔ)言進(jìn)行對(duì)比的3D表示學(xué)習(xí)，零樣本學(xué)習(xí)，以及場(chǎng)景理解。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎？（2）

相關(guān)推薦

技術(shù)專區(qū)