精度超越Transformer,MIT、港大提出基于物理模型的Neuro-Symbolic視覺推理框架
來自香港大學(xué),麻省理工大學(xué)和 MIT-IBM 沃森人工智能實驗室的研究者提出了基于可微物理模型的神經(jīng)符號推理框架,在精度上超過了基于 Transformer 的模型。
動態(tài)視覺推理(Dynamic Visual Reasoning),尤其是涉及到物體間物理關(guān)系的推理,是計算機視覺中一個重要且困難的問題。給定一個觀測視頻,它不僅要求模型根據(jù)視頻推理出視頻中物體的交互過程,還要求對視頻的長期未來(Long-term)以及反事實(Counterfactual)情形進(jìn)行預(yù)測,而這兩項預(yù)測恰好是現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的弱點。
現(xiàn)有方法可以大致被分為兩類:使用端到端神經(jīng)網(wǎng)絡(luò)(如 Vision Transformer)來對物體間關(guān)系進(jìn)行建模的方法 [3],和基于神經(jīng)符號(Neuro-Symbolic)的推理模型 [2, 4];前者受益于 Transformer 等的強大表征有著不錯的性能,但是其依賴大量數(shù)據(jù),且推理過程不透明且難以解釋;而后者基于神經(jīng)符號逐步進(jìn)行推理,模型具有良好的解釋性,但是精度受限;此外,現(xiàn)有方案都難以解決長期和反事實預(yù)測的難題。
本文提出的基于可微物理模型的神經(jīng)符號推理框架很好的解決了這個問題,它通過從視頻和問題對中學(xué)習(xí)物理模型,并利用顯式的物理模型對物體動力學(xué)進(jìn)行建模,基于準(zhǔn)確的動力學(xué)預(yù)測來回答長期和反事實預(yù)測問題。本文的框架透明可解釋,并在精度上超過了基于 Transformer 的模型。此外,它顯示了良好的數(shù)據(jù)效率,在只使用 20% 甚至更少的數(shù)據(jù)即可取得不錯的效果。本文作者來自香港大學(xué) (HKU),麻省理工大學(xué) (MIT) 和 MIT-IBM 沃森人工智能實驗室,論文已被 NeurIPS 2021 接收。
圖 1. [NeurIPS 2021] VRDP 作者介紹
項目主頁:http://vrdp.csail.mit.edu/
論文鏈接:http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf
代碼鏈接:https://github.com/dingmyu/NCP
背景和數(shù)據(jù)介紹
本文使用最多的數(shù)據(jù)集是 CLEVRER 數(shù)據(jù)集 [2]。如下圖所示,它使用簡化的物體(圓球,圓柱,正方體等)來學(xué)習(xí)動力學(xué)相關(guān)的推理問題:1. 發(fā)生了什么 ?(Descriptive question); 2. 為什么發(fā)生?(Explanatory question); 3. 將會發(fā)生什么?(Predictive question); 4. 如果… 會發(fā)生什么 (Counterfactual question)。人類可以比較輕松地利用物理直覺和常識來推斷這些問題,然而這對于機器來說就有些困難了,尤其是 Counterfactual 的問題,例如,假設(shè)沒有黃色的金屬圓柱,會是怎樣的情形?這很考驗物理建模和空間想象的能力。即使基于 Transformer 的模型可以很好的解決 Descriptive 和 Explanatory 問題,它們也總是會在 Counterfactual 的情形中失敗。
圖 2. CLEVRER 推理數(shù)據(jù)集示例
方法介紹
本文作者發(fā)現(xiàn),現(xiàn)有方案的弊端是沒有顯式的使用物理模型,而是過于依賴神經(jīng)網(wǎng)絡(luò)或 GNN 的隱式推理,這導(dǎo)致他們在長期預(yù)測和反事實推理中無法很好的捕捉視頻中的邏輯。基于此,作者引入了一個可微的物理引擎,并通過從視頻中捕捉到的物體軌跡和屬性來還原視頻中物體和場景的物理參數(shù)(速度,加速度,質(zhì)量,彈性系數(shù),摩擦力等)。一旦所有的相對物理參數(shù)被推理出來,即得到了顯式的物理模型后,作者使用物理模型進(jìn)行基于預(yù)測的和反事實的物理模擬,并根據(jù)模擬后的軌跡和特征來回答相關(guān)問題。具體流程如下圖所示。
圖 3. 基于物理模型的推理示例。(1)使用一個感知模塊從視頻中獲取每個物體及其對應(yīng)的軌跡和屬性;(2)利用上述視頻觀測通過可微物理模擬來學(xué)習(xí)相關(guān)物理參數(shù);(3)通過物理模擬進(jìn)行預(yù)測并回答相關(guān)問題。
然而上述框架仍然存在一個難點,現(xiàn)實世界中往往沒有對物體的屬性標(biāo)注,在這種情況下,難以通過一個感知模塊得到物體的相關(guān)屬性(如顏色,形狀),而沒有這些先驗信息就無法進(jìn)行可微物理模擬,更無法學(xué)到一個準(zhǔn)確的物理模型。因此,作者提出 VRDP 框架,將視覺感知模塊、概念學(xué)習(xí)器和物理模型結(jié)合,使用三個無縫銜接的模塊來解決上述問題。其中,視覺感知模塊用于對每幀圖片進(jìn)行分割,得到每個物體和對應(yīng)的軌跡;概念學(xué)習(xí)器負(fù)責(zé)從物體的軌跡信息和問題對中學(xué)習(xí)物體的屬性;在物體的軌跡和屬性都得到后,通過可微物理模擬學(xué)到較為準(zhǔn)確的物理模型;基于物理模型完成長時和反直覺的推理。整體框架如下:
圖 4. VRDP 框架。由三部分組成:視覺感知模塊、概念學(xué)習(xí)器和可微物理模型
具體來說,框架中的物理引擎為一個基于動量和動能守恒的碰撞模型,它從單個視頻軌跡中估計物體的實時速度和加速度,并以此估計場景的摩擦力等參數(shù)。此外,它通過碰撞事件來估計碰撞物體的相對質(zhì)量和彈性系數(shù),一旦這些參數(shù)學(xué)習(xí)完成,它便可以自由地進(jìn)行各種模擬和推理。本文的概念學(xué)習(xí)器為問題中的每個概念詞分配一個編碼(embedding),并從視頻軌跡中學(xué)習(xí)物體感知的特征,通過講視覺特征和語義編碼投影到同一空間下并檢索來得到每個物體對應(yīng)的屬性,參考 NS-CL [1]。如下圖所示。
圖 5. 概念學(xué)習(xí)器
本文的神經(jīng)符號執(zhí)行器利用了 NS-DR [2] 和 DCL [4] 中的方案,通過預(yù)測出的物體軌跡和碰撞事件進(jìn)行顯式的符號推理,如 filter(Green) 代表得到所有的綠色物體,filter(Collision, filter(Green), filter(Cube)) 則代表找出綠色物體和方塊的碰撞事件。通過顯式的物理模型以及神經(jīng)符號執(zhí)行器,本文框架的每一步都是可解釋且完全透明的,整個推理過程和人類的逐步推理類似。
Demo 展示
圖 6. 物理模擬示例,左側(cè)為原視頻,右側(cè)為模擬結(jié)果
圖 7. 預(yù)測問題推理示例
圖 8. 反事實問題推理示例
實驗部分
本文提出的 VRDP 框架具有優(yōu)越的性能,在全部 CLEVRER 數(shù)據(jù)集上測試,它在更加困難的 Predictive 和 Counterfactual 兩類問題上都取得了最高的性能,在 Descriptive 和 Explanatory 問題上也得到了有競爭力的結(jié)果,如下表所示。
圖 9. 實驗結(jié)果(全部數(shù)據(jù))
此外,它具有極高的數(shù)據(jù)利用效率,僅使用 20% 的數(shù)據(jù)就可以得到相當(dāng)不錯的結(jié)果,遠(yuǎn)超現(xiàn)有的其他方案,如下圖所示。
圖 10. 數(shù)據(jù)效率評估(部分?jǐn)?shù)據(jù))
作者還證明了,通過使用可微物理模型,VRDP 可以輕易擴展到數(shù)據(jù)集中不存在的新的概念中,如概念 “更重”,VRDP 成功進(jìn)行物理模擬并準(zhǔn)確預(yù)測了當(dāng)藍(lán)色圓柱更重時的情況,這是更加復(fù)雜的反事實情形。
圖 11. 擴展到新的反事實概念 “更重”
參考文獻(xiàn)
[1] The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision. Jiayuan Mao, Chuang Gan, Pushmeet Kohli, Joshua B. Tenenbaum, and Jiajun Wu. ICLR 2019.
[2] CLEVRER: CoLlision Events for Video REpresentation and Reasoning. Kexin Yi, Chuang Gan, Yunzhu Li, Pushmeet Kohli, Jiajun Wu, Antonio Torralba, and Joshua B. Tenenbaum. ICLR 2020.
[3] Object-based attention for spatio-temporal reasoning: Outperforming neuro-symbolic models with flexible distributed architectures. David Ding, Hill Felix, Santoro Adam, and Botvinick Matt. arXiv 2020.
[4] Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning. Zhenfang Chen, Jiayuan Mao, Jiajun Wu, Kwan-Yee K. Wong, Joshua B. Tenenbaum, and Chuang Gan. ICLR 2021.
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
超聲波清洗機相關(guān)文章:超聲波清洗機原理