讓AI用視覺(jué)認(rèn)識(shí)世界,豆包發(fā)布并開(kāi)源VideoWorld視頻生成模型
2月10日,豆包大模型團(tuán)隊(duì)聯(lián)合北京交通大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué),發(fā)布了視頻生成模型——VideoWorld,并且已開(kāi)源代碼與模型。
本文引用地址:http://www.biyoush.com/article/202502/466831.htm與Sora、DALL-E等主流多模態(tài)模型不同,VideoWorld開(kāi)辟了新的路徑,打破對(duì)語(yǔ)言模型的依賴,實(shí)現(xiàn)僅靠“視覺(jué)信息”認(rèn)知世界。就像幼兒能在不依賴語(yǔ)言的情況下理解真實(shí)世界一樣,VideoWorld通過(guò)瀏覽視頻數(shù)據(jù),讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。在僅有300M參數(shù)量時(shí),它就已展現(xiàn)出可觀的性能,達(dá)到專業(yè)5段9x9圍棋水平,還能在多種環(huán)境中執(zhí)行機(jī)器人任務(wù)。
在模型構(gòu)建方面,團(tuán)隊(duì)構(gòu)建了視頻圍棋對(duì)戰(zhàn)和視頻機(jī)器人模擬操控兩個(gè)實(shí)驗(yàn)環(huán)境。訓(xùn)練時(shí),模型通過(guò)“觀看”包含大量視頻演示數(shù)據(jù)的離線數(shù)據(jù)集進(jìn)行學(xué)習(xí)。其架構(gòu)采用樸素自回歸模型,包含VQ-VAE編碼器-解碼器和自回歸Transformer架構(gòu)。
不過(guò),研究初期發(fā)現(xiàn)視頻序列知識(shí)挖掘效率低于文本形式,為此團(tuán)隊(duì)引入潛在動(dòng)態(tài)模型(LDM)。LDM夠?qū)g視覺(jué)變化壓縮為緊湊的潛在編碼,提升知識(shí)挖掘效率,還能保留豐富視覺(jué)信息,讓VideoWorld可以捕捉視覺(jué)序列中的長(zhǎng)期依賴關(guān)系,從而更好地進(jìn)行長(zhǎng)期推理和規(guī)劃。
通過(guò)細(xì)致分析,團(tuán)隊(duì)發(fā)現(xiàn)LDM不僅能建模訓(xùn)練集的數(shù)據(jù)模式,還能幫助模型在測(cè)試時(shí)進(jìn)行前向規(guī)劃,并且生成因果相關(guān)的編碼。盡管VideoWorld在圍棋和模擬機(jī)器人操控場(chǎng)景中表現(xiàn)卓越,但團(tuán)隊(duì)也清醒地認(rèn)識(shí)到,在真實(shí)世界的應(yīng)用中,它還面臨高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。不過(guò),團(tuán)隊(duì)已明確未來(lái)將聚焦這些難題,致力于讓視頻生成模型成為真實(shí)世界的通用知識(shí)學(xué)習(xí)器。
當(dāng)下,DeepSeek掀起的行業(yè)變革浪潮持續(xù)發(fā)酵,不僅在人工智能產(chǎn)業(yè)鏈內(nèi)引發(fā)連鎖反應(yīng),還向其他行業(yè)滲透。它的火爆并非源于性能優(yōu)勢(shì),而是憑借創(chuàng)新性技術(shù)路線,以超低算力成本實(shí)現(xiàn)超預(yù)期效果輸出,為行業(yè)發(fā)展帶來(lái)全新思路。無(wú)獨(dú)有偶,此次豆包發(fā)布的VideoWorld視覺(jué)模型同樣開(kāi)辟了全新技術(shù)路徑,打破對(duì)語(yǔ)言模型的依賴,僅靠視覺(jué)信息就讓機(jī)器實(shí)現(xiàn)對(duì)世界的認(rèn)知并掌握復(fù)雜能力,有望進(jìn)一步夯實(shí)了國(guó)產(chǎn)大模型在多模態(tài)領(lǐng)域的技術(shù)實(shí)力。
評(píng)論