獨家 | 達摩院后的下一站:陳俊波推出具身智能大模型,要給所有機器人做一顆腦袋
但今年 3 月份,它背后的靈魂技術(shù)人物、原阿里達摩院自動駕駛負責人陳俊波卻被爆出離職創(chuàng)業(yè)的消息。消息稱,他與前阿里機器人 CEO 谷祖林等人共同創(chuàng)辦了一家名為「有鹿機器人」的新公司,至于這家公司具體做什么,外界沒有得到確切答復。 近期,抱著這個疑問,機器之心與陳俊波展開了深入對談。 在對談中,陳俊波透露,他要做的并不是某一款機器人,而是一個放到任何傳統(tǒng)自動化設備(比如清掃車、挖掘機、鏟車等)上都能正常運轉(zhuǎn)的通用機器人「腦袋」。這個「腦袋」可以跨模態(tài)、跨場景、跨行業(yè),具有極強的環(huán)境適應性,就像《變形金剛》里的「火種」一樣。從上述傳統(tǒng)設備當前的智能化率來看,這個「腦袋」一旦做出來,有望服務于上億臺設備。 「火種」是《變形金剛》里的能量塊,是變形金剛最基本也是最神秘的組成部分,火種賜予變形金剛具體的身形、意識及生命。
當然,這也意味著更大的技術(shù)考驗。因此,在過去的大半年的時間里,陳俊波帶領「有鹿」一頭扎進了比自動駕駛更復雜的「具身智能」領域,希望借助大模型的力量賦予機器人在物理世界完成更多任務的能力,把類似 ChatGPT 的能力擴展到物理世界。 具身智能:AI 領域的下一個「北極星問題」
生物的進化總能給智能的研究帶來很多啟發(fā)。過去 5.4 億年來,地球上所有的生物都是通過身體逐步產(chǎn)生智能的。有了身體,智能體就可以在快速變化的環(huán)境中移動、導航、生存、操縱和做出改變。相比之下,沒有身體的智能體只能「旁觀」,很難適應現(xiàn)實世界。因此,人工智能研究也自然而然地走向了「具身」的道路。人們希望機器人也能像生物體一樣,通過與環(huán)境交互以及自身的學習,產(chǎn)生對于客觀世界的理解和改造能力。具身智能也被斯坦福大學教授李飛飛定義為 AI 領域的下一個「北極星問題」之一。 圖源:《為什么說具身智能是通往 AGI 值得探索的方向?上海交大教授盧策吾深度解讀》 不過,由于涉及學科眾多,具身智能在過去的幾十年里并沒有取得很大進展。直到最近幾年,情況才有所改變,尤其是在「大模型 + 機器人」的組合流行起來之后。谷歌的 PaLM-E、斯坦福的 VoxPoser 都是基于大模型構(gòu)造的具身智能體。它們能夠直接「聽懂」自然語言指令,并將其拆解成若干個動作來完成,準確率已經(jīng)達到了相當高的水平。 斯坦福大學李飛飛團隊的 VoxPoser 機器人。
作為阿里內(nèi)部「最早領潮自動駕駛的人」,陳俊波也一直在關注具身智能領域,畢竟自動駕駛車也是具身智能的重要載體。其多年來不斷積累的多模態(tài)學習、強化學習等能力在具身智能領域至關重要。 在陳俊波看來,「大模型 + 機器人」組合的成功其實意味著具身智能領域正在經(jīng)歷一場范式轉(zhuǎn)變,基于 Transformer 架構(gòu)的極具表達能力的模型、互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)都是推動這一轉(zhuǎn)變的關鍵力量。但是,要想在物理世界充分利用這些力量,現(xiàn)有的工作做得還遠遠不夠。 從實驗室到現(xiàn)實世界,具身智能還有哪些工作要做?
陳俊波以谷歌的 PaLM-E 為例,向我們展示了現(xiàn)有的具身智能大模型存在哪些改進空間。這個模型集成了參數(shù)量 540B 的 PaLM 和參數(shù)量 22B 的視覺 Transformer(ViT),使用文本和來自機器人傳感器的多模態(tài)數(shù)據(jù)(比如圖像、機器人狀態(tài)、場景環(huán)境信息等)作為輸入,輸出以文本形式表示的機器人運動指令,進行端到端的訓練。
它的結(jié)構(gòu)如下圖中間部分所示:綠色的部分用來編碼機器人本身的狀態(tài),包括底盤、機械臂的位置等狀態(tài)量;傳感器捕捉到的圖像由一個 ViT 模型來編碼(圖中藍色部分)。給定這些條件,人類就可以發(fā)出一個自然語言指令,比如「如何抓起藍色的木塊」,然后這個指令就會被編碼為嵌入,并經(jīng)過一個 CoT(chain of thought)的過程被轉(zhuǎn)換為一系列動作。這些動作會由一個動作****(圖中的紫色部分)來執(zhí)行,它會把每個步驟的指令轉(zhuǎn)化為機器人的扭矩等參數(shù)。
經(jīng)過測試,整個模型完成任務的成功率接近 80%。作為一個端到端的框架,「這是一個讓人覺得非常不可思議的工作,」陳俊波評價說。但在實際的工作場景中,80% 的成功率離落地還有很大距離,「想象一下,如果說我下發(fā) 100 個任務,它有 20 個都失敗了…… 而且,這還是在實驗室的場景下,」陳俊波說到。 究竟是哪里出了問題?陳俊波指出了兩個關鍵點。 第一個問題是,在傳感器圖像和文本 prompt 輸入的處理上,PaLM-E 只是將 VLM 與 LLM 簡單拼合,做隱式建模。前者輸出的是抽象等級很低的像素級的特征,后者輸出的是抽象等級很高的自然語言級別的特征,二者直接拼合會帶來不匹配的問題,導致模型的泛化能力非常有限?!赣芯湓捊幸粓D勝千言,就是說圖像里面包含太多的細節(jié),不可能用一個一個的文本就很簡單地把它們對應起來,」陳俊波解釋說。 具體來說,PaLM-E 使用 ViT 來處理圖像,ViT 會把整個圖像切分成小的圖塊(patch),然后從每個圖塊中提取出關于圖像的基礎細節(jié)特征,比如顏色、邊緣、紋理,這些特征是「low level」的。與之對應,圖像中還有很多「high level」特征,比如不同物體之間的幾何關系、現(xiàn)實世界里的物理學規(guī)律、交通參與者的意圖…… 這是無法做顯式建模的 ViT 所提取不到的,這是它編碼物理世界的一個缺陷。 在 Prompt 的處理上,雖然 PaLM-E 會把人的高級指令拆解為更詳細的指令,但這一步的輸出仍然是自然語言。自然語言的問題在于,它是一種高度抽象、模糊的系統(tǒng),「比如說『人類』雖然只有四個字節(jié),卻囊括了地球上幾十億的人類,」陳俊波解釋說。這不僅和 ViT 輸出的「low level」的特征不匹配,對于底層控制器來說也不夠友好,后者需要更具體、更精確的指令來執(zhí)行任務。 第二個問題是,PaLM-E 的動作****存在天然缺陷,無法從海量無標簽的機器人數(shù)據(jù)中學習,也無法擴展到交互場景。 這是因為,PaLM-E 的動作****采用了一個名為「RT-1」(Robotics Transformer-1)的模型,這個模型接收自然語言和圖像作為輸入,輸出機器人運動指令(底盤位置和機械臂末端位置)。局限在于,這個模型是采用模仿學習的方式訓練出來的,而模仿學習本質(zhì)上屬于監(jiān)督學習,因此無法在海量無標注數(shù)據(jù)上學習。 最近公布的 RT-2 模型使用了更多的訓練數(shù)據(jù)(在原來示教數(shù)據(jù)的基礎上增加了互聯(lián)網(wǎng)級別的 VQA 數(shù)據(jù)),將模型在沒見過(Unseen)的任務上的成功率從 32%(RT-1)提高到了 62%。如果將 PaLM-E 中的動作****組件換成 RT-2,PaLM-E 的泛化能力想必也會大幅提升。但陳俊波指出,這并不會從根本上解決問題,因為在學習機器人數(shù)據(jù)時,它本質(zhì)上用到的還是模仿學習。
此外,模仿學習學到的函數(shù)針對一個固定的輸入只能輸出一個或一組固定的動作,而交互場景要求針對相同的輸入,根據(jù)交互對象的選擇動態(tài)調(diào)整輸出,所以模仿學習學到的模型本質(zhì)上無法在交互博弈場景中工作,而這項能力又是具身智能機器人走出實驗室所必需的。 已經(jīng)在園區(qū)跑起來的 LPLM
陳俊波在具身智能方向的工作主要圍繞以上待解決的問題展開。具體來說,他提出了一個名為「LPLM」(large physical language model)的大模型。整個模型的架構(gòu)如下所示:
首先,這個模型會把物理世界抽象到一個很高的程度,確保這些信息能跟 LLM 里特征的抽象等級對齊,做顯式建模,從而實現(xiàn)很好的融合。回憶一下語言學中的能指(用以表示抽象概念的語言符號,比如「人」這樣一個單詞)和所指(語言符號所表示的具體事物,比如圖像空間中的每一個人)的概念,LPLM 將物理世界中每一個所指的實體顯式建模為 token,編碼幾何、語義、運動學與意圖信息,相當于在物理世界建模了一套全新的語言體系。 具體來說,這種對齊是通過多種方式來實現(xiàn)的,包括利用點云等多模態(tài)數(shù)據(jù)捕捉幾何信息;在多幀甚至無限幀數(shù)據(jù)之間做時序融合以跟蹤實體在不同時間點的變化,捕捉其運動學和動力學約束關系;在空間中建模各個實體之間的關系,從而捕捉它們在交互博弈環(huán)境中的意圖信息等。 令人興奮的是,LPLM也很好地降維完成了自動駕駛行業(yè)對端到端的技術(shù)追求。比如在一個交通場景中,LPLM 展現(xiàn)了建模物理世界實體意圖方面的能力。在這個場景中,智能車要在有加塞車輛的情況下安全左轉(zhuǎn),此時模型就需要判斷加塞車輛是否會做出讓行等動作(意圖),才能決定自己下一步的動作。這種交互博弈場景沒有固定答案,需要模型隨機應變。
其次,在自然語言指令的編碼上,LPLM 也做出了一些改進,加入了 3D grouding(grouding 可以理解為機器人怎么把用戶的語言對應到真實環(huán)境)。以有人問「桌子在哪兒」為例,之前的 visual grounding 方法會把桌子所在區(qū)域的像素高亮出來,但加入了 3D grouding 的 LPLM 會先把三維空間里的幾何關系恢復出來,然后再把桌子所在的三維空間作 grounding。這相當于在物理世界中,明確告訴機器人作業(yè)目標在哪兒,在一定程度上彌補了自然語言不夠精確的缺陷。 最后,在****的設計上,為了讓模型具備從海量無標簽數(shù)據(jù)中學習的能力,LPLM 的****是通過不斷預測未來的方式去學習的。如此一來,對于任何一段給定的數(shù)據(jù),任何當前狀態(tài)都是對過去狀態(tài)的自動標注,無需人工示教數(shù)據(jù)。在這一點上,陳俊波談到了 Yann LeCun 的思想 —— 智能的本質(zhì)是預測 —— 對于自己的啟發(fā)?!敢粋€一兩歲的孩子肯定不知道什么是萬有引力,但通過長期的實踐和觀察(比如扔東西),他的身體已經(jīng)知道了。我們也是用同樣的方法教機器人學習,」陳俊波談到。 那么,這一套方法到底有沒有效?陳俊波已經(jīng)用他們的第一款產(chǎn)品 —— 有鹿智能清潔機器人給出了答案。和傳統(tǒng)的只能進行全覆蓋清掃和巡檢清掃的室外清潔機器人不同,內(nèi)置了 LPLM 大模型的有鹿機器人支持隨叫隨到的清掃模式,比如你可以讓它「去 1 號樓清掃一下落葉」,或者說「路邊有點臟,貼邊清掃一下吧」,機器人都能聽懂,并且能在充滿行人、車輛的園區(qū)交互博弈環(huán)境中安全穿行,功耗僅 50 瓦。這體現(xiàn)了該機器人對語言語義、物理環(huán)境及行為意圖的融合理解。據(jù)悉,這款機器人將在即將到來的杭州亞運會上亮相。
給所有機器人做一顆腦袋
當然,對于陳俊波來說,將內(nèi)置 LPLM 大模型的「腦袋」安在清潔機器人身上只是一個開始。未來,這套方案還將擴展到挖掘機、鏟車等傳統(tǒng)設備上。在他看來,比起開發(fā)一款服務于單個場景的完整產(chǎn)品,開發(fā)一個通用的腦袋具有更大的社會價值。 有鹿的機器人大腦多種應用場景
在談到這件事情的可行性時,陳俊波提到,雖然表面看起來這是一些跨模態(tài)、跨場景、跨行業(yè)的設備,但當模型對于物理世界的理解提升到三維甚至四維,很多共性的東西就可以被提取出來。這種情況下,以 LPLM 為代表的具身大模型相當于充當了物理世界的 Foundation model。此外,有鹿還定義了一個通用的硬件標準,這個標準會兼容現(xiàn)在所有的設備廠商。 不過,眼前還有很多待解決的問題,比如海量機器人數(shù)據(jù)如何獲取?這也是有鹿在很短的時間內(nèi)就推出第一款產(chǎn)品的一大原因。他們希望借助這些產(chǎn)品盡快讓數(shù)據(jù)飛輪轉(zhuǎn)起來,就像很早就開放 API 接口的 GPT 類產(chǎn)品一樣。
在早年和蔣昌建談夢想的時候,陳俊波說,他希望未來?類會像擁有個?電腦?樣擁有機器?。一路走來,他已經(jīng)越來越接近自己的夢想。當初做小蠻驢的時候,他也經(jīng)歷了「機器一直掉螺絲,送不出幾個包裹」的階段,但到了 2022 年,平均每秒鐘都會有兩位消費者收到小蠻驢送出的包裹,這款產(chǎn)品也讓陳俊波看到了具身智能背后巨大的市場空間。
其實,和小蠻驢所處的物流領域一樣,很多傳統(tǒng)行業(yè)對具身智能機器人都有著強烈的需求。這些行業(yè)擁有海量的存量專業(yè)設備和專業(yè)機器人,也積累了豐富的行業(yè)經(jīng)驗和渠道品牌,只是設備的智能化率仍有很大的提升空間,而具身智能的快速發(fā)展有望為這些行業(yè)帶來一場大范圍的智能化升級。憑借多年來在具身智能領域的探索經(jīng)驗,陳俊波希望能與這些行業(yè)的企業(yè)家一起,迎接這場升級過程中的挑戰(zhàn)與機遇。
參考鏈接:https://mp.weixin.qq.com/s/MM_VLWmrrxev1zWuLKZZUQhttps://hub.baai.ac.cn/view/15855https://mp.weixin.qq.com/s/2ASdgAER2EYsmjipIiVyDg
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。