英偉達(dá)的Rev Lebaredian表示,合成數(shù)據(jù)可以使AI系統(tǒng)變得更好
來源:ScienceAI
這可能違反直覺。但有些人認(rèn)為,訓(xùn)練必須在混亂的現(xiàn)實世界環(huán)境中工作的人工智能系統(tǒng)(例如自動駕駛汽車和倉庫機(jī)器人)的關(guān)鍵實際上并不是現(xiàn)實世界的數(shù)據(jù)。相反,有人說,合成數(shù)據(jù)將釋放人工智能的真正潛力。合成數(shù)據(jù)是生成而不是收集的,咨詢公司 Gartner 估計,用于訓(xùn)練 AI 系統(tǒng)的數(shù)據(jù)中有 60% 將是合成的。但是它的使用是有爭議的,因為關(guān)于合成數(shù)據(jù)是否能夠準(zhǔn)確地反映現(xiàn)實世界的數(shù)據(jù),并為現(xiàn)實世界的情況準(zhǔn)備人工智能系統(tǒng)的問題仍然存在。
Nvidia 已經(jīng)大范圍應(yīng)用合成數(shù)據(jù),并正在努力成為年輕行業(yè)的領(lǐng)導(dǎo)者。11 月,Nvidia 創(chuàng)始人兼首席執(zhí)行官黃仁勛宣布推出 Omniverse Replicator,Nvidia 將其描述為「用于生成具有基本事實的合成數(shù)據(jù)以訓(xùn)練 AI 網(wǎng)絡(luò)的引擎」。為了找出這意味著什么,媒體與 Nvidia 的仿真技術(shù)和 Omniverse 工程副總裁 Rev Lebaredian 進(jìn)行了交談。
Omniverse Replicator 被描述為「一個強(qiáng)大的合成數(shù)據(jù)生成引擎,可以生成用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的物理模擬合成數(shù)據(jù)」。你能解釋一下這是什么意思,尤其是你所說的「物理模擬」是什么意思?
Rev Lebaredian:電子游戲本質(zhì)上是對夢幻世界的模擬。有一些嘗試讓游戲的物理特性變得更加逼真:當(dāng)你炸毀一堵墻或一座建筑物時,它就會倒塌。但在大多數(shù)情況下,游戲并沒有試圖做到真正的物理準(zhǔn)確,因為這在計算上非常昂貴。所以它總是:為了使它作為一個計算問題易于處理,你愿意做什么樣的近似?視頻游戲通常必須在小型計算機(jī)上運(yùn)行,例如控制臺甚至手機(jī)。所以你有那些嚴(yán)格的限制。游戲的另一件事是它們是幻想世界,它們的目的是為了有趣,所以現(xiàn)實世界的物理和準(zhǔn)確性不一定是一件好事。
對于 Omniverse,我們的目標(biāo)是做一些以前在實時世界模擬器中從未做過的事情。我們正在嘗試對世界進(jìn)行物理上準(zhǔn)確的模擬。當(dāng)我們說物理上準(zhǔn)確時,我們指的是與物理相關(guān)的所有方面。事物在物理世界中的外觀是光與物質(zhì)的相互作用,因此我們對其進(jìn)行模擬。我們模擬原子如何與剛體物理、軟體物理、流體動力學(xué)以及其他任何相關(guān)的相互作用。因為我們相信,如果你能足夠接近地模擬現(xiàn)實世界,那么你就會獲得超能力。
什么樣的超能力?
Lebaredian:首先,你得到了傳送。如果我可以將這個房間帶到我身邊并在虛擬世界中呈現(xiàn)它,那么現(xiàn)在我可以在那個世界中移動我的相機(jī)并傳送到任何位置。我甚至可以戴上 VR 頭戴設(shè)備,感覺自己置身其中。而且,如果我可以將現(xiàn)實世界的狀態(tài)與虛擬世界的狀態(tài)同步,那就真的沒有區(qū)別了。我可能在火星上有傳感器,可以接收現(xiàn)實世界并將該信息的副本實時發(fā)送到地球——或者 8 分鐘后,或者以光速從火星傳播所需的任何時間。如果我可以虛擬地重建那個世界并將自己沉浸其中,那么實際上就像我在 8 分鐘前傳送到火星一樣。
并且給定一些關(guān)于世界狀態(tài)的初始條件,如果你能足夠準(zhǔn)確地模擬,那么你就有可能預(yù)測未來。假設(shè)我現(xiàn)在擁有這個房間里的世界狀態(tài),我拿著這個電話。我可以模擬我松開手摔倒的那一刻會發(fā)生什么——如果我的模擬足夠接近,那么我可以預(yù)測這款手機(jī)將如何掉落并撞到地面。真正酷的是,你可以改變初始條件并做一些實驗。你可以說,替代期貨會是什么樣子?如果我重新配置我的工廠?在我的環(huán)境中操作事物做出不同的決定怎么辦?這些不同的未來會是什么樣子?這使你可以進(jìn)行優(yōu)化。你可以找到最好的未來。
好的,這就是您嘗試使用 Omniverse 構(gòu)建的內(nèi)容。所有這些對人工智能有什么幫助?
Lebaredian:在這個人工智能的新時代,開發(fā)高級軟件不再是一個只有筆記本電腦的研究生就能做的事情。它需要大量的投資。人類未來將開發(fā)的所有最先進(jìn)的算法都將由需要大量數(shù)據(jù)的系統(tǒng)進(jìn)行訓(xùn)練。這就是為什么人們說數(shù)據(jù)是新的石油。收集數(shù)據(jù)的大型科技公司似乎具有天然優(yōu)勢。但事實是,對于我們將在未來創(chuàng)建的大多數(shù)人工智能,我們目前收集的數(shù)據(jù)都沒有那么有用。
當(dāng)我們?yōu)?[the Conference] SIGGRAPH 2017 做演示時,我注意到了這一點。我們有一個可以玩多米諾骨牌的機(jī)器人,我們有多個必須訓(xùn)練的 AI 模型。其中一個基本模型是計算機(jī)視覺模型,它可以檢測桌子上的多米諾骨牌,告訴你它們的方向,然后告訴你每張多米諾骨牌上有多少點:一個、五個、六個或其他。
谷歌肯定會擁有訓(xùn)練這種人工智能所需的所有圖像數(shù)據(jù)。
Lebaredian:你可以搜索谷歌圖片,你會發(fā)現(xiàn)很多多米諾骨牌的圖片,但你會發(fā)現(xiàn),首先,它們都沒有標(biāo)簽。一個人必須標(biāo)記每張多米諾骨牌是什么以及每張多米諾骨牌的側(cè)面,這是一大堆體力勞動。但即使你通過了標(biāo)簽,你會發(fā)現(xiàn)圖像并沒有太多的多樣性。
我們需要算法對不同的照明條件具有穩(wěn)健性,因為我們將在實驗室對其進(jìn)行訓(xùn)練,然后將其帶到 SIGGRAPH 的展示廳。我們使用的攝像頭和傳感器也可能會發(fā)生變化,因此它們周圍的條件可能會有所不同。我們希望該算法適用于任何類型的多米諾骨牌,無論它們是塑料、木材還是其他任何材料。因此,即使對于這個非常簡單的事情,必要的數(shù)據(jù)也不存在。如果我們要收集這些數(shù)據(jù),我們將不得不購買數(shù)十甚至數(shù)百個不同的多米諾骨牌,設(shè)置不同的照明條件和不同的傳感器等等。所以,當(dāng)時,我們很快在游戲引擎中編寫了一個隨機(jī)多米諾骨牌生成器,將所有這些東西隨機(jī)化。在一夜之間,我們訓(xùn)練了一個可以穩(wěn)健地完成此任務(wù)的模型,它在會議中心使用不同的攝像頭工作。
這是一個簡單的案例。對于像自動駕駛汽車或自主機(jī)器這樣更復(fù)雜的東西,我們需要的數(shù)據(jù)量,以及這些數(shù)據(jù)的準(zhǔn)確性和多樣性,是不可能從現(xiàn)實世界中獲得的。真的沒有辦法解決它。如果沒有物理上精確的模擬來生成這些 AI 所需的數(shù)據(jù),我們就無法取得進(jìn)展。
使用 Omniverse Replicator,客戶是否獲得了萬能的合成數(shù)據(jù)生成器?還是您為不同的行業(yè)量身定做?
Lebaredian:我們使用 Omniverse 構(gòu)建的是一個非常通用的開發(fā)平臺,任何人都可以根據(jù)自己的特定需求進(jìn)行定制。開箱即用,您可以獲得多個渲染器,它們是光和物質(zhì)物理的模擬器。你會得到一系列的它們,讓你用準(zhǔn)確性來換取速度。
我們有很多方法可以將 3D 數(shù)據(jù)作為 Omniverse Replicator 的輸入來生成您需要的數(shù)據(jù)。如今,幾乎所有人造的東西,在某個地方都有它的 3D 虛擬表示。如果您正在設(shè)計汽車、電話、建筑物、橋梁或其他任何東西,您可以使用 CAD 工具。問題是所有這些工具都說不同的語言。數(shù)據(jù)有不同的格式。很難將它們組合起來并構(gòu)建一個包含所有這些組成部分的場景。
借助 Omniverse,我們嘗試連接所有這些現(xiàn)有工具并協(xié)調(diào)它們,這非常麻煩。我們在一個名為通用場景描述的系統(tǒng)之上構(gòu)建了 Omniverse,該系統(tǒng)最初由 Pixar 開發(fā),后來開源。我們認(rèn)為 USD 之于虛擬世界就像 HTML 之于網(wǎng)頁:這是描述事物的常用方式。我們圍繞美元構(gòu)建了很多工具,讓用戶可以轉(zhuǎn)換數(shù)據(jù)、修改數(shù)據(jù)、隨機(jī)化事物。但源數(shù)據(jù)幾乎可以來自任何地方,因為我們擁有所有相關(guān)工具的連接器。
你能給我一個使用 Replicator 為 AI 訓(xùn)練制作合成數(shù)據(jù)的行業(yè)的例子嗎?
Lebaredian:我們已經(jīng)展示了自動駕駛汽車的例子。研究如何讓車輛自動駕駛需要大量資金,而合成數(shù)據(jù)正在成為訓(xùn)練人工智能系統(tǒng)的主要部分。我們已經(jīng)在 Omniverse Replicator 中針對該領(lǐng)域進(jìn)行了一些專門化:我們擁有大型戶外世界,其中包括道路、車道、汽車、行人和路牌以及所有類似的東西。
我們還對機(jī)器人進(jìn)行了一些專業(yè)化。但是,如果我們不支持你的領(lǐng)域,因為它是一個工具包,你仍然可以使用它做你喜歡的事情。人們有許多途徑可以引入自己的 3D 數(shù)據(jù)或獲取數(shù)據(jù)來構(gòu)建虛擬世界。那里有圖書館和第三方 3D 資產(chǎn)提供者。
對于一家自動駕駛汽車公司來說,生成合成數(shù)據(jù)的一個優(yōu)勢是它可以在危險條件下訓(xùn)練其車輛,對吧?它可以放入冰雪,急轉(zhuǎn)彎之類的東西?
Lebaredian:它們可以改變白天和黑夜的條件,并將行人和動物置于你不想在現(xiàn)實世界中構(gòu)建的危險環(huán)境中。我們不想讓人類或動物在現(xiàn)實生活中處于危險境地,但我確實希望我的自動駕駛汽車知道如何應(yīng)對這些邊緣情況。因此,我們可以在安全第一的虛擬世界中訓(xùn)練他們,這是個兩全其美的辦法。
因此,這些合成數(shù)據(jù)可以在 AI 訓(xùn)練中用作「真實數(shù)據(jù)」,并帶有超準(zhǔn)確的內(nèi)置標(biāo)簽。但這是最好的訓(xùn)練策略嗎?這些人工智能系統(tǒng)通常需要在信息不完整和不完善的世界中運(yùn)行。
Lebaredian:這對訓(xùn)練部分有好處。今天創(chuàng)建大多數(shù)人工智能的方式是通過一種稱為監(jiān)督學(xué)習(xí)的學(xué)習(xí)。在可以區(qū)分貓和狗的神經(jīng)網(wǎng)絡(luò)示例中,首先用帶有以下標(biāo)簽的貓和狗的圖片對其進(jìn)行訓(xùn)練:這是一只貓,這是一只狗。它從這些例子中學(xué)習(xí)。然后,將該網(wǎng)絡(luò)應(yīng)用于未標(biāo)記的新圖像,它會告訴你每個圖像是什么。
例如,在自動駕駛汽車中,你希望汽車通過其傳感器了解周圍所有汽車和行人的相對 3D 位置。但它只是得到一個只有像素的2D圖像,沒有相關(guān)信息。因此,如果你要訓(xùn)練一個網(wǎng)絡(luò)來推斷3D信息,你首先必須在 2D 中畫一個框,然后你必須告訴它,「這是根據(jù)傳感器使用的特定鏡頭的距離。」但如果我們在Omniverse中合成數(shù)據(jù),我們就能以完全物理精度獲得所有 3D 信息。我們可以提供準(zhǔn)確的標(biāo)簽,而不會出現(xiàn)人類引入系統(tǒng)的錯誤。因此,我們訓(xùn)練的最終神經(jīng)網(wǎng)絡(luò)將更加智能和準(zhǔn)確。
在這種情況下過度擬合是一個問題嗎?使用合成數(shù)據(jù)訓(xùn)練的系統(tǒng)是否存在在合成數(shù)據(jù)上表現(xiàn)良好但在現(xiàn)實世界中失敗的危險?
Lebaredian:合成數(shù)據(jù)實際上是解決過擬合問題的好方法,因為我們更容易提供多樣化的數(shù)據(jù)集。如果我們正在訓(xùn)練一個網(wǎng)絡(luò)來識別人們的面部表情,但我們只在高加索男性上訓(xùn)練它,那么我們就會過度擬合高加索男性,當(dāng)你給它更多不同的主題時,它就會失敗。但是,使用合成數(shù)據(jù),我們更容易創(chuàng)建數(shù)據(jù)的多樣性。如果我正在生成人類的圖像并且我有一個合成數(shù)據(jù)生成器,它允許我改變?nèi)藗兊拿娌颗渲?、他們的膚色、眼睛顏色、發(fā)型和所有這些東西。
似乎合成數(shù)據(jù)可以幫助解決算法偏差的大問題,因為算法偏差的來源之一是用于訓(xùn)練 AI 系統(tǒng)的數(shù)據(jù)集中的偏差。我們可以使用合成數(shù)據(jù)在我們更愿意生活的公正世界中訓(xùn)練人工智能,而不是我們實際生活的世界嗎?
Lebaredian:我們正在合成我們的 AI 出生的世界。它們出生在一臺計算機(jī)中,它們只是接受了我們提供給他們的數(shù)據(jù)的訓(xùn)練。因此,我們可以構(gòu)建具有我們想要的多樣性的理想世界,并且我們的 AI 可以更好地實現(xiàn)它。當(dāng)它們完成時,它們比我們在現(xiàn)實世界中的任何人都更聰明。當(dāng)我們把它們放在現(xiàn)實世界中時,它們的表現(xiàn)會比只接受它們在這里所見事物的訓(xùn)練時表現(xiàn)得更好。
那么使用合成數(shù)據(jù)有哪些陷阱呢?它容易受到對抗性攻擊嗎?
Lebaredian:對抗性攻擊,類似于過擬合問題,并不是合成數(shù)據(jù)與任何其他類型數(shù)據(jù)相比所獨有的。解決方案是擁有更多數(shù)據(jù)和更好的數(shù)據(jù)。
合成數(shù)據(jù)的問題在于很難生成好的合成數(shù)據(jù)。它要求您擁有像 Omniverse 這樣出色的模擬器,并且需要一個物理上準(zhǔn)確的模擬器,這樣它才能與現(xiàn)實世界匹配得足夠好。如果我們創(chuàng)建一個合成數(shù)據(jù)生成器來制作看起來像卡通的圖像,那還不夠好。你不會想把一個只知道如何解釋卡通世界的機(jī)器人放在醫(yī)院里,它會和老人和孩子一起工作。那將是一件可怕的事情。您需要您的模擬器在物理上盡可能準(zhǔn)確才能使用它。但這是一個極其困難的問題。
相關(guān)報道:https://spectrum.ieee.org/synthetic-data-ai
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。