AI 真的能夠理解人類語言嗎？

發(fā)布人：AI科技大本營時(shí)間：2022-01-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

作者 | Melanie Mitchell

譯者 | 彎月

出品 | CSDN（ID：CSDNnews）

2011年，IBM 的人工智能系統(tǒng)沃森參加綜藝節(jié)目《危險(xiǎn)邊緣》，并獲得了冠軍，當(dāng)時(shí)他們宣稱：“沃森能夠理解自然語言的所有歧義和復(fù)雜性?！比欢?，之后沃森在大膽進(jìn)軍醫(yī)療保健領(lǐng)域時(shí)，卻遭遇慘敗，這說明人工智能對語言的理解與人類并不相同。

長期以來，理解自然語言一直是人工智能研究的主要目標(biāo)。最初，研究人員曾嘗試通過手工編寫的代碼，幫助計(jì)算機(jī)理解新聞故事、小說或人類撰寫的其他文檔。然而，正如沃森的經(jīng)歷，這種方法都是徒勞的，我們不可能把理解文本所需的所有不成文的事實(shí)、規(guī)則和假設(shè)都寫進(jìn)代碼里。

像人類一樣進(jìn)行書本學(xué)習(xí)的AI

最近，人工智能領(lǐng)域又涌現(xiàn)出一種新型的范式：讓機(jī)器學(xué)習(xí)通過大量書面文本學(xué)習(xí)預(yù)測單詞的方式，自行理解語言。這就是研究人員所說的語言模型。這類模型基于大型神經(jīng)網(wǎng)絡(luò)，比如 OpenAI的GPT-3，并生成了令人難以置信的散文（和詩歌?。?，而且還可以推理復(fù)雜的語言邏輯。

GPT-3通過來自數(shù)千個(gè)網(wǎng)站、書籍和百科全書的文本的訓(xùn)練，它是否超越了沃森的表現(xiàn)呢？它真的能夠理解自己生成的語言及其邏輯嗎？這個(gè)話題在AI研究領(lǐng)域一直富有爭議。這類探討曾是哲學(xué)領(lǐng)域的話題，但在過去的十年中，人工智能已經(jīng)突破學(xué)術(shù)領(lǐng)域，并闖入了現(xiàn)實(shí)世界，但由于缺乏對現(xiàn)實(shí)世界的理解，它們可能會帶來災(zāi)難性的后果。在一項(xiàng)研究中，有人發(fā)現(xiàn)了IBM的沃森“提出不安全和不正確的治療建議”的多個(gè)例子。還有一項(xiàng)研究表明，Google的機(jī)器翻譯系統(tǒng)為非英語患者翻譯醫(yī)療說明時(shí)出現(xiàn)了重大錯(cuò)誤。

AI學(xué)會了嗎？

在實(shí)踐中，我們?nèi)绾尾拍艽_認(rèn)機(jī)器學(xué)習(xí)是否真的能夠理解人類的語言呢？1950 年，計(jì)算先驅(qū)艾倫·圖靈曾通過著名的“模仿游戲”來回答這個(gè)問題，如今我們稱其為圖靈測試。具體做法是，一臺機(jī)器和一個(gè)人，看不見彼此，二者競相僅通過對話的方式來說服人類法官自己才是人類。如果該法官無法分辨哪個(gè)是人類，那么，圖靈可以斷言這臺機(jī)器確實(shí)擁有思考的能力，也就是說能夠理解人類的語言。

然而不幸的是，圖靈低估了人類喜歡被機(jī)器愚弄的傾向性。20世紀(jì)60年代，JosephWeizenbaum發(fā)明了一個(gè)名為Eliza的心理治療師，這個(gè)小程序騙過了很多人，他們相信自己正在與一個(gè)人類交談，即便他們知道對面只是一臺機(jī)器。

訓(xùn)練規(guī)模越來越大

在2012年的一篇論文中，計(jì)算機(jī)科學(xué)家Hector Levesque、Ernest Davis和 Leora Morgenstern提出了一個(gè)更客觀的測試，他們稱之為“威諾格拉德模式挑戰(zhàn)”（WinogradSchema Challenge，WSC）。該測試已被AI語言社區(qū)采用，作為評估機(jī)器理解的一種方式，也許是最好的方式，盡管我們可以看到它并不完美。這種方式有一個(gè)“威諾格拉德模式”（WinogradSchema），其名稱源于斯坦福大學(xué)計(jì)算機(jī)科學(xué)家特里·威諾格拉德。該模式由一對句子組成，兩個(gè)句子僅相差一個(gè)詞，而且兩個(gè)句子緊緊相接。下面是兩個(gè)例子：

句子1：我把瓶子里的水倒進(jìn)杯子里，一直到滿為止。

問題：什么是滿的，瓶子還是杯子？

句子2：我把瓶子里的水倒進(jìn)杯子里，一直到空為止。

問題：什么是空的，瓶子還是杯子？

句子1：小明跟叔叔打網(wǎng)球輸了，盡管他年長了30歲。

問題：誰更年長，小明還是小明的叔叔？

句子2：小明跟叔叔打網(wǎng)球輸了，盡管他年輕了30歲。

問題：誰更年長，小明還是小明的叔叔？

在上述句子中，一字之差，所指的事物或人就完全不同。正確地回答這些問題需要一些常識性的判斷。威諾格拉德模式正是為了測試這種理解能力而設(shè)計(jì)的，這種方式彌補(bǔ)了圖靈測試的脆弱性：不可靠的人類判斷，以及聊天機(jī)器人采用的技巧。特別是，作者設(shè)計(jì)了數(shù)百個(gè)針對網(wǎng)絡(luò)搜索的模式：機(jī)器無法通過網(wǎng)絡(luò)搜索來正確回答的問題。

這些模式是2016年舉辦的一場比賽的主題，最后就連獲勝的程序也只回答對了 58%的句子，比盲猜（50%）略好一點(diǎn)。人工智能研究員Oren Etzioni打趣道：“AI連一句話中的it指的是什么都無法確定，居然還有人指望它統(tǒng)治整個(gè)世界？”

然而，由于大型神經(jīng)網(wǎng)絡(luò)語言模型的涌現(xiàn)，AI程序解決威諾格拉德模式的能力也迅速得到了提高。2020年，OpenAI的一篇論文稱，在威諾格拉德模式的測試中，GPT-3正確回答了90%的句子。還有一些語言模型在經(jīng)過專門的訓(xùn)練之后表現(xiàn)更好。目前，神經(jīng)網(wǎng)絡(luò)語言模型在一組特定的威諾格拉德模式測試上，達(dá)到了約97%的準(zhǔn)確率，這些模式是一個(gè)名叫SuperGLUE的人工智能理解語言競賽中一部分。這個(gè)準(zhǔn)確率幾乎與人類的表現(xiàn)持平。這是否意味著神經(jīng)網(wǎng)絡(luò)語言模型已經(jīng)達(dá)到了人類的理解水平？

不一定。盡管這些語言模型的創(chuàng)作者盡了最大努力，但這些威諾格拉德模式并非不可通過網(wǎng)絡(luò)獲取答案。這些問題就像許多其他當(dāng)前的AI語言理解測試一樣，有時(shí)也有捷徑可以走，即便神經(jīng)網(wǎng)絡(luò)不理解句子的真正含義，也可以給出正確答案。舉個(gè)例子：

跑車比卡車跑的更快，是因?yàn)樗乃俣雀臁?/p>

跑車比卡車跑的更快，是因?yàn)樗乃俣雀?/p>

經(jīng)過大型語料庫訓(xùn)練的語言模型掌握了“跑車”與“快”以及“卡車”與“慢”之間的聯(lián)系，因此可以僅憑這些相關(guān)性（而不是真正理解句子的含義）來給出正確的答案。事實(shí)證明，SuperGLUE競賽中的許多威諾格拉德模式都可以通過這類的統(tǒng)計(jì)相關(guān)性給出答案。

艾倫人工智能研究所的研究人員并沒有放棄威諾格拉德模式，并決定努力解決這些問題。2019年，他們創(chuàng)建了WinoGrande，這是一組更大的威諾格拉德模式，其中包含44,000個(gè)句子。為了獲得如此多的例子，研究人員通過亞馬遜的 MechanicalTurk（一個(gè)流行的眾包工作平臺），讓每個(gè)（人類）工人寫出幾對句子，并通過一些限制確保這些句子包含不同的主題，盡管最后收集到的每一對句子相差可能不止一個(gè)單詞。

接著，研究人員通過一些簡單的AI測試，刪除了可通過統(tǒng)計(jì)捷徑輕松回答的句子。正如預(yù)期的那樣，與原始的威諾格拉德模式相比，WinoGrande中的句子向機(jī)器學(xué)習(xí)發(fā)起了更困難的挑戰(zhàn)。雖然在面對WinoGrande 時(shí)，人類的得分仍然很高，但神經(jīng)網(wǎng)絡(luò)語言模型的得分卻低了很多。這項(xiàng)新挑戰(zhàn)似乎恢復(fù)了威諾格拉德模式作為常識測試的地位，只要句子本身經(jīng)過仔細(xì)篩選，確保無法通過網(wǎng)絡(luò)搜索得到答案即可。

然而，另一個(gè)驚喜還在后面。在 WinoGrande 發(fā)布后的近兩年里，神經(jīng)網(wǎng)絡(luò)語言模型的規(guī)模越來越大，而且隨著規(guī)模的增大，似乎它們在這項(xiàng)新挑戰(zhàn)中的得分也越來越高。目前，最先進(jìn)的神經(jīng)網(wǎng)絡(luò)語言模型已經(jīng)經(jīng)過了TB級文本上訓(xùn)練，然后又在數(shù)千個(gè)WinoGrande示例上進(jìn)行了進(jìn)一步的訓(xùn)練，可以達(dá)到將近 90% 的正確率，而人類的正確率約為94%。這種性能提升幾乎完全來源于神經(jīng)網(wǎng)絡(luò)語言模型及其訓(xùn)練數(shù)據(jù)規(guī)模的增加。

這些日益增大的神經(jīng)網(wǎng)絡(luò)模型是否達(dá)到了人類的常識性理解水平？不太可能。WinoGrande 的結(jié)果有一些嚴(yán)重的問題。例如，由于這些句子的編寫依賴于亞馬遜Mechanical Turk 上的人工，因此寫作的質(zhì)量和連貫性參差不齊。此外，利用簡單的人工智能方法剔除可通過網(wǎng)絡(luò)搜索結(jié)果的句子，但這些人工智能方法可能過于簡單，無法發(fā)現(xiàn)大型神經(jīng)網(wǎng)絡(luò)有可能使用的統(tǒng)計(jì)捷徑，而且這些人工智能只能處理單個(gè)句子，因此導(dǎo)致一些成對的句子只剩下一句。一項(xiàng)后續(xù)研究表明，如果要求神經(jīng)網(wǎng)絡(luò)語言模型僅測試成對的句子，并且要求兩個(gè)句子都回答正確，則它們的準(zhǔn)確性遠(yuǎn)低于人類，因此前面的 90% 根本不能說明什么。

AI理解人類語言了嗎？

那么，威諾格拉德模式對我們來說有何意義呢？我們可以從中得到一個(gè)重要的教訓(xùn)：我們很難通過AI系統(tǒng)在某項(xiàng)挑戰(zhàn)中的表現(xiàn)判斷它們是否真的能夠理解人類的語言（或其他數(shù)據(jù)）。如今我們知道，神經(jīng)網(wǎng)絡(luò)經(jīng)常使用統(tǒng)計(jì)捷徑（而不是展示類似于人類的理解能力）在威諾格拉德模式以及其他流行的“通用語言理解”基準(zhǔn)上展示出高水平。

在我看來，問題的關(guān)鍵在于，要想理解人類的語言就需要理解這個(gè)世界，而只能接觸到語言的機(jī)器無法獲得這樣的理解能力。我們來思考一下“跑車超過了卡車，是因?yàn)樗乃俣雀?，這句話是什么意思。首先你需要知道“跑車”和“卡車”是什么，而且需要知道車輛可以互相“超車”，從更基本的層面來看，車輛是存在于世界上、能夠與之互動的物體，且由人類駕駛。

對于人類來說，這些知識不過是基本常識，但機(jī)器內(nèi)部沒有這樣的常識庫，也不可能明確地編寫到任何語言模型的訓(xùn)練文本中。一些認(rèn)知科學(xué)家認(rèn)為，人類學(xué)習(xí)和理解語言需要依賴語言的核心知識，即掌握空間、時(shí)間以及許多關(guān)于這個(gè)世界的其他基本因素。如果想讓機(jī)器像人類一樣掌握語言，則我們需要賦予它們?nèi)祟惻c生俱來的一些基本法則。為了評估機(jī)器對語言的理解，我們首先應(yīng)該它們對這些法則的掌握情況，人們稱之為“嬰兒的元物理學(xué)”。

與威諾格拉德模式和GPT-3等人工智能系統(tǒng)相比，訓(xùn)練和評估嬰兒級別的智能機(jī)器似乎是一個(gè)巨大的倒退。但是，我們的目標(biāo)是理解語言，而這可能是機(jī)器能夠真正理解句子中的“it”所指，以及理解“it”所包含的一切的唯一途徑。

參考鏈接：

https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

激光器相關(guān)文章:激光器原理

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

AI 真的能夠理解人類語言嗎？

相關(guān)推薦

技術(shù)專區(qū)