圖靈獎(jiǎng)得主楊立昆:GPT模式五年就不會(huì)有人用了,世界模型才是AGI未來(2)
機(jī)器學(xué)習(xí)的未來挑戰(zhàn)
那么,我們要如何做到這一點(diǎn)呢?事實(shí)上,我已經(jīng)有點(diǎn)確定了未來幾年人工智能的三大挑戰(zhàn):
學(xué)習(xí)世界表征及預(yù)測(cè)的模型。最好是使用自我監(jiān)督學(xué)習(xí)。
學(xué)習(xí)推理:這與心理學(xué)的想法相對(duì)應(yīng),例如丹尼爾-卡漢曼的想法,即系統(tǒng)2與系統(tǒng)1。因此,系統(tǒng)1是對(duì)應(yīng)于潛意識(shí)計(jì)算的人類行動(dòng)或行為,是你不假思索做的事情。然后系統(tǒng)2是你有意識(shí)地做的事情,你使用你的全部思維能力。而自回歸模型基本上只做系統(tǒng)1,根本就不太聰明。
最后一件事是通過將復(fù)雜的任務(wù)分解成簡(jiǎn)單的任務(wù),分層地推進(jìn)和規(guī)劃復(fù)雜的行動(dòng)序列。
然后,大約一年前,我寫了一篇愿景論文,我把它放在公開評(píng)論中,請(qǐng)你們看看。這基本上是我對(duì)我認(rèn)為人工智能研究在未來10年應(yīng)該走向的建議。它是圍繞著這樣一個(gè)想法,我們可以把各種模塊組織到所謂的認(rèn)知架構(gòu)中,在這個(gè)系統(tǒng)中的核心是世界模型。
世界模型:通往AGI之路
世界模型是系統(tǒng)可以用來基本上想象一個(gè)場(chǎng)景的東西,想象將會(huì)發(fā)生什么,也許是其行為的后果。因此,整個(gè)系統(tǒng)的目的是根據(jù)它自己的預(yù)測(cè),使用它的文字模型,找出一連串的行動(dòng),以最小化一系列的成本。成本你可以認(rèn)為是衡量這個(gè)代理人的不適程度的標(biāo)準(zhǔn)。順便說一下,這些模塊中的許多在大腦中都有相應(yīng)的子系統(tǒng)。成本模塊是我們(大腦里)的世界模型——前額葉皮層,短期記憶對(duì)應(yīng)著海馬體;行為者可能是前運(yùn)動(dòng)區(qū);感知系統(tǒng)是大腦的后部,所有傳感器的感知分析都在這里進(jìn)行。
這個(gè)系統(tǒng)的運(yùn)作方式是通過它可能被儲(chǔ)存在記憶中的以前對(duì)世界的想法,去處理當(dāng)前世界的狀態(tài)。然后你用世界模型來預(yù)測(cè)如果世界接著運(yùn)轉(zhuǎn)繼會(huì)發(fā)生什么,或者它作為代理將采取的行動(dòng)的后果是什么。這是在這個(gè)黃色的行動(dòng)模塊里面。行動(dòng)模塊提出一連串的行動(dòng)。世界模型模擬世界并計(jì)算出這些行動(dòng)的后果會(huì)發(fā)生什么。然后計(jì)算出一個(gè)成本。然后將要發(fā)生的是,系統(tǒng)將優(yōu)化行動(dòng)序列,以便使世界模型最小化。
所以我應(yīng)該說的是,每當(dāng)你看到一個(gè)箭頭朝向一個(gè)方向時(shí),你也有梯度在向后移動(dòng)。所以我假設(shè)所有這些模塊都是可分的,我們可以通過反向傳播梯度來推斷行動(dòng)序列,從而使成本最小化。這不是關(guān)于參數(shù)的最小化——這將是關(guān)于行動(dòng)的最小化。這是對(duì)潛在變量的最小化。而這是在推理時(shí)進(jìn)行的。
因此,有兩種真正的方式來使用該系統(tǒng)。它類似于系統(tǒng)1,我在這里稱之為模式1,基本上它是反應(yīng)性的。系統(tǒng)觀察世界的狀態(tài),通過感知編碼器來運(yùn)行它,生成一個(gè)世界狀態(tài)的概念,然后直接通過策略網(wǎng)絡(luò)來運(yùn)行它,而行為者只是直接產(chǎn)生一個(gè)行動(dòng)。
模式2是你觀察世界并提取世界狀態(tài)的表征為0。然后,系統(tǒng)想象出從a[0]到一個(gè)很長T(時(shí)間)的一系列行動(dòng)。這些預(yù)測(cè)的狀態(tài)被送入一個(gè)成本函數(shù),而系統(tǒng)的整個(gè)目的基本上是找出行動(dòng)的序列,根據(jù)預(yù)測(cè)使成本最小。因此,這里的世界模型在每個(gè)時(shí)間步驟中重復(fù)應(yīng)用,本質(zhì)上是從時(shí)間T的世界表征中預(yù)測(cè)出時(shí)間T+1的世界狀態(tài),并想象出一個(gè)擬議的行動(dòng)。這個(gè)想法非常類似于優(yōu)化控制領(lǐng)域的人們所說的模型預(yù)測(cè)優(yōu)化。在深度學(xué)習(xí)的背景下,有許多使用這個(gè)想法來規(guī)劃軌跡工作的模型被提出來過。
這里的問題是我們到底如何學(xué)習(xí)這個(gè)世界模型?如果你跳過這個(gè)問題,我們期望做的是一些更復(fù)雜的版本,我們有一個(gè)分層系統(tǒng),通過一連串的編碼器,提取世界狀態(tài)的更多和更抽象的表示,并使用不同層次預(yù)測(cè)器的世界模型,在不同的擾動(dòng)水平預(yù)測(cè)世界的狀態(tài),并在不同的時(shí)間尺度上進(jìn)行預(yù)測(cè)。在這里的較高層次是指舉例來說,如果我想從紐約去北京,我需要做的第一件事就是去機(jī)場(chǎng),然后搭飛機(jī)去北京。因此,這將是計(jì)劃的一種高層次的表示。最終的成本函數(shù)可以代表我與北京的距離,比如說。然后,第一個(gè)行動(dòng)將是:去機(jī)場(chǎng),我的狀態(tài)將是,我在機(jī)場(chǎng)嗎?然后第二個(gè)行動(dòng)將是,搭飛機(jī)去北京。我怎么去機(jī)場(chǎng)呢?從,比方說,我在紐約的辦公室。我需要做的第一件事是,到街上去攔一輛出租車,并告訴他去機(jī)場(chǎng)。我如何走到街上去?我需要從椅子上站起來,我去出口處,打開門,走到街上,等等。然后你可以這樣想象,把這個(gè)任務(wù)一直分解到毫秒級(jí),按毫秒級(jí)控制,你需要做的就是完成這個(gè)規(guī)模。
因此,所有復(fù)雜的任務(wù)都是以這種方式分層完成的,這是一個(gè)大問題,我們今天不知道如何用機(jī)器學(xué)習(xí)來解決。所以,我在這里展示的這個(gè)架構(gòu),還沒有人建立它。沒有人證明你可以使它發(fā)揮作用。所以我認(rèn)為這是一個(gè)很大的挑戰(zhàn),分層規(guī)劃。
成本函數(shù)可以由兩組成本模塊組成,并將由系統(tǒng)調(diào)制以決定在任何時(shí)候完成什么任務(wù)。所以在成本中有兩個(gè)子模塊。有些是那種內(nèi)在的成本,是硬性規(guī)定的、不可改變的。你可以想象,那些成本函數(shù)將實(shí)施安全護(hù)欄,以確保系統(tǒng)行為正常,不危險(xiǎn),無毒等等。這是這些架構(gòu)的一個(gè)巨大優(yōu)勢(shì),即你可以在推理的時(shí)候把成本進(jìn)行優(yōu)化。
你可以保證那些標(biāo)準(zhǔn),那些目標(biāo)將被強(qiáng)制執(zhí)行,并將被系統(tǒng)的輸出所滿足。這與自回歸LLM非常不同,后者基本上沒有辦法確保其輸出是好的、無毒的和安全的。
楊立昆 X 朱軍 QA 環(huán)節(jié)
朱軍:
你好,LeCun教授。很高興再次見到你。那么我將主持問答環(huán)節(jié)。首先再次感謝你這么早起來做了這個(gè)富含思想的研討會(huì)報(bào)告,并提供了這么多見解??紤]到時(shí)間的限制,我選擇了幾個(gè)問題來問你。
正如你在演講中討論到生成型模型有很多問題,大多數(shù)我都同意你的看法,但是關(guān)于這些生成式模型的基本原則方面,我還是有一個(gè)問題要問你。生成模型就其定義來說,就是會(huì)輸出多種的選擇。另外,當(dāng)我們應(yīng)用生成模型的多樣性時(shí),創(chuàng)造性是一個(gè)理想的屬性。所以我們經(jīng)常樂見用模型來輸出多樣化的結(jié)果。這是否意味著實(shí)際上像事實(shí)錯(cuò)誤或不合邏輯的錯(cuò)誤,不一致的地方,對(duì)于這樣的模型來說是不可避免的?因?yàn)樵诤芏嗲闆r下,即使你有數(shù)據(jù),數(shù)據(jù)也可能包含了矛盾的事實(shí)。你也提到了預(yù)測(cè)的不確定性。所以這是我的第一個(gè)問題。那么你對(duì)此有什么想法?
楊立昆:
沒錯(cuò)。所以我不認(rèn)為自回歸預(yù)測(cè)模型、生成模型的問題是可以通過保留自回歸生成來解決的。我認(rèn)為這些系統(tǒng)本質(zhì)上是不可控的。因此,我認(rèn)為它們必須被我提出的那種架構(gòu)所取代,即在推理中包含時(shí)間,有一個(gè)系統(tǒng)去最優(yōu)化成本和某些標(biāo)準(zhǔn)。這是使它們可控、可引導(dǎo)、可計(jì)劃的唯一方法,即系統(tǒng)將能夠計(jì)劃出它們的答案。你知道當(dāng)你在做一個(gè)像我剛才那樣的演講時(shí),你會(huì)計(jì)劃演講的過程,對(duì)嗎?你從一個(gè)點(diǎn)講到另一個(gè)點(diǎn),你解釋每個(gè)點(diǎn)。當(dāng)你設(shè)計(jì)演講時(shí),你在腦子里會(huì)計(jì)劃這些,而并不是(像大語言模型一樣)一個(gè)字接一個(gè)字地即興演講。也許在較低的(行為)水平上,你是即興創(chuàng)作,但在較高的(行為)水平上,你是在計(jì)劃。所以,計(jì)劃的必要性真的很明顯。而人類和許多動(dòng)物有能力進(jìn)行規(guī)劃的事實(shí),我認(rèn)為這是智力的一個(gè)內(nèi)在屬性。所以我的預(yù)測(cè)是,在相對(duì)較短的幾年內(nèi)--當(dāng)然是在5年內(nèi)--沒有腦子正常的人會(huì)接著用自回歸LLM。這些系統(tǒng)將很快被拋棄。因?yàn)樗鼈兪菬o法被修復(fù)的。
朱軍:
好的。我想另一個(gè)關(guān)于控制的問題:在你的設(shè)計(jì)和框架中,一個(gè)關(guān)鍵部分是內(nèi)在成本模塊,對(duì)嗎?所以它的設(shè)計(jì)基本上是為了決定代理人行為的性質(zhì)??戳四愕墓ぷ魑募械拈_放性觀點(diǎn)后,我和網(wǎng)上的一個(gè)評(píng)論有共同的擔(dān)憂。這個(gè)評(píng)論說,主要是這個(gè)模塊沒有按照規(guī)定工作。也許代理最后[屏幕凍結(jié)]了。
楊立昆:
保證系統(tǒng)安全的成本模塊不會(huì)是一個(gè)微不足道的任務(wù),但我認(rèn)為這將是一個(gè)相當(dāng)明確的任務(wù)。它需要大量仔細(xì)的工程和微調(diào),其中一些成本可能要通過訓(xùn)練獲得,而非僅僅通過設(shè)計(jì)。這與強(qiáng)化學(xué)習(xí)中的策略評(píng)估(Actor-Crtic結(jié)構(gòu)中的Ctric,對(duì)作為語言模型的行為者產(chǎn)出的結(jié)果進(jìn)行評(píng)估)或LLM背景下的所謂獎(jiǎng)勵(lì)模型是非常相同的,是一個(gè)會(huì)整體考量系統(tǒng)的內(nèi)部狀態(tài)到成本全程的事情。你可以訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)成本,你可以通過讓它接觸大量的——讓它產(chǎn)生大量的輸出,然后讓某人或某物對(duì)這些輸出進(jìn)行評(píng)價(jià)來訓(xùn)練它。這給了你一個(gè)成本函數(shù)的目標(biāo)。你可以對(duì)它進(jìn)行訓(xùn)練,讓它計(jì)算出一個(gè)小的成本,然后在得到成本之后通過它進(jìn)行反向傳播,以保證這個(gè)成本函數(shù)得到滿足。所以,我認(rèn)為設(shè)計(jì)成本這事兒,我認(rèn)為我們將不得不從設(shè)計(jì)架構(gòu)和設(shè)計(jì)LLM的成本轉(zhuǎn)向設(shè)計(jì)成本函數(shù)。因?yàn)檫@些成本函數(shù)將推動(dòng)系統(tǒng)的性質(zhì)和行為。與我的一些對(duì)未來比較悲觀同事相反,我認(rèn)為設(shè)計(jì)與人類的價(jià)值觀相一致的成本(函數(shù))是非??尚械?。這不是說如果你做錯(cuò)一次,就會(huì)出現(xiàn)人工智能系統(tǒng)逃脫控制和接管世界的情況。而且我們?cè)诓渴疬@些東西之前,會(huì)有很多方法把它們?cè)O(shè)計(jì)得很好。
朱軍:
我同意這一點(diǎn)。那么另一個(gè)與此相關(guān)的技術(shù)問題是,我注意到你通過分層的JEPA設(shè)計(jì)來模型,這其中幾乎所有的模塊都是可微的,對(duì)嗎?也許你可以用反向傳播的方法來訓(xùn)練。但是你知道還有另外一個(gè)領(lǐng)域,比如說符號(hào)邏輯,它代表著不可微的部分,也許在內(nèi)在成本模塊中能以某種形式制定我們喜歡的約束條件,那么,你是否有一些特別的考慮來連接這兩個(gè)領(lǐng)域,或者干脆就忽略符號(hào)邏輯的領(lǐng)域?
楊立昆:
對(duì)。所以我認(rèn)為是的,現(xiàn)實(shí)中是有一個(gè)神經(jīng)+符號(hào)架構(gòu)的子領(lǐng)域,試圖將可訓(xùn)練的神經(jīng)網(wǎng)絡(luò)與符號(hào)操作或類似的東西結(jié)合在一起。我對(duì)這些方法非常懷疑,因?yàn)槭聦?shí)上符號(hào)操作是不可微的。所以它基本上與深度學(xué)習(xí)和基于梯度的學(xué)習(xí)不兼容,當(dāng)然也與我所描述的那種基于梯度的推理不兼容。所以我認(rèn)為我們應(yīng)該盡一切努力在任何地方使用可微分的模塊,包括成本函數(shù)?,F(xiàn)在可能有一定數(shù)量的情況下,我們可以實(shí)現(xiàn)的成本(函數(shù))是不可微的。對(duì)于這一點(diǎn),執(zhí)行推理的優(yōu)化程序可能必須使用組合型的優(yōu)化,而不是基于梯度的優(yōu)化。但我認(rèn)為這應(yīng)該是最后的手段,因?yàn)榱汶A無梯度優(yōu)化比基于梯度的優(yōu)化要少很多。因此,如果你能對(duì)你的成本函數(shù)進(jìn)行可微調(diào)的近似,你應(yīng)該盡可能地使用它。在某種程度上,我們已經(jīng)這樣做了。當(dāng)我們訓(xùn)練一個(gè)分類器時(shí),我們想要最小化的成本函數(shù)并不完全準(zhǔn)確。但這是不可微分的,所以我們使用的是一個(gè)可微分的成本代理。是系統(tǒng)輸出的成本熵與所需的輸出分布,或像e平方或鉸鏈損失的東西。這些基本上都是不可微分的二進(jìn)制法則的上界,我們對(duì)它不能輕易優(yōu)化。因此還是用老辦法,我們必須使用成本函數(shù),它是我們實(shí)際想要最小化的成本的可微調(diào)近似值。
朱軍:
我的下一個(gè)問題是,我的靈感來自于我們的下一位演講者Tegmark教授,他將在你之后做一個(gè)現(xiàn)場(chǎng)演講。實(shí)際上我們聽說你將參加一場(chǎng)關(guān)于AGI的現(xiàn)狀和未來的辯論。由于我們大多數(shù)人可能無法參加,你能否分享一些關(guān)鍵點(diǎn)給我們一些啟發(fā)?我們想聽到一些關(guān)于這方面的見解。
楊立昆:
好的,這將是一場(chǎng)有四位參與者的辯論。辯論將圍繞一個(gè)問題展開,即人工智能系統(tǒng)是否會(huì)對(duì)人類造成生存風(fēng)險(xiǎn)。因此,馬克斯和約書亞本吉奧將站在 "是的,強(qiáng)大的人工智能系統(tǒng)有可能對(duì)人類構(gòu)成生存風(fēng)險(xiǎn) "的一方。然后站在 "不"的一方的將是我和來自圣菲研究所的梅蘭妮-米切爾。而我們的論點(diǎn)不會(huì)是AI沒有風(fēng)險(xiǎn)。我們的論點(diǎn)是,這些風(fēng)險(xiǎn)雖然存在,但通過仔細(xì)的工程設(shè)計(jì),很容易減輕或抑制。我對(duì)此的論點(diǎn)是,你知道在今天問人們,我們是否能保證超級(jí)智能系統(tǒng)對(duì)人類而言是安全,這是個(gè)無法回答的問題。因?yàn)槲覀儧]有對(duì)超級(jí)智能系統(tǒng)的設(shè)計(jì)。因此,在你有基本的設(shè)計(jì)之前,你不能使一件東西安全。這就像你在1930年問航空工程師,你能使渦輪噴氣機(jī)安全和可靠嗎?而工程師會(huì)說,"什么是渦輪噴氣機(jī)?" 因?yàn)闇u輪噴氣機(jī)在1930年還沒有被發(fā)明出來。所以我們有點(diǎn)處于同樣的情況。聲稱我們不能使這些系統(tǒng)安全,因?yàn)槲覀冞€沒有發(fā)明它們,這有點(diǎn)為時(shí)過早。一旦我們發(fā)明了它們--也許它們會(huì)與我提出的藍(lán)圖相似,那么就值得討論。"我們?nèi)绾问顾鼈儼踩?quot;,在我看來,這將是通過設(shè)計(jì)那些使推理時(shí)間最小化的目標(biāo)。這就是使系統(tǒng)安全的方法。顯然,如果你想象未來的超級(jí)智能人工智能系統(tǒng)將是自回歸的LLM,那么我們當(dāng)然應(yīng)該害怕,因?yàn)檫@些系統(tǒng)是不可控制的。他們可能會(huì)逃脫我們的控制,胡言亂語。但我所描述的那種類型的系統(tǒng),我認(rèn)為是可以做到安全的。而且我非??隙ㄋ鼈儠?huì)。這將需要仔細(xì)的工程設(shè)計(jì)。這并不容易,就像在過去七十年里,使渦輪噴氣機(jī)變得可靠并不容易一樣。渦輪噴氣機(jī)現(xiàn)在令人難以置信的可靠。你可以用雙引擎飛機(jī)跨越大洋,而且基本上具有這難以置信的安全性。因此,這需要謹(jǐn)慎的工程。而且這真的很困難。我們大多數(shù)人都不知道渦輪噴氣機(jī)是如何設(shè)計(jì)成安全的。因此,想象一下這事情這并不瘋狂。弄清楚如何使一個(gè)超級(jí)智能的人工智能系統(tǒng)安全,也是很難想象的。
朱軍:
好的。謝謝你的洞察和回答。同樣作為工程師,我也再次感謝你。非常感謝。
楊立昆:
非常感謝你。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。