為什么谷歌AI Overviews會給出離譜答案?或因采取統(tǒng)計計算來生成答案 發(fā)布人:深科技 時間:2024-06-02 來源:工程師 加入技術(shù)交流群 掃碼加入和技術(shù)大咖面對面交流海量資料庫查詢 發(fā)布文章 當谷歌本月早些時候宣布推出人工智能搜索功能時,該公司承諾“谷歌將替你完成谷歌搜索?!?/span>這項名為“人工智能概述”(AI Overviews)的新功能將提供人工智能生成的簡短摘要,在搜索結(jié)果頁面的頂部突出顯示關(guān)鍵信息和鏈接。不幸的是,人工智能系統(tǒng)天生就不可靠。AI Overviews 在美國上線的幾天內(nèi),用戶們在社交媒體上分享了許多令人啼笑皆非的案例。它建議用戶在披薩中添加膠水或每天至少吃一塊小石頭。它還聲稱美國前總統(tǒng)安德魯·約翰遜(Andrew Johnson)在 1947 年至 2012 年間獲得了大學學位,但他早在 1875 年就去世了。當?shù)貢r間 5 月 30 號,谷歌搜索主管利茲·瑞德(Liz Reid)表示,該公司一直在對該系統(tǒng)進行技術(shù)改進,以降低其產(chǎn)生錯誤答案的可能性,包括更好地檢測無意義查詢的機制。該公司還限制了在回應(yīng)中包含諷刺、幽默和用戶生成的內(nèi)容,因為這些信息可能會導(dǎo)致誤導(dǎo)性建議。但為什么 AI Overviews 會返回不可靠、可能存在危險的信息?有什么辦法可以解決這一問題呢(如果有的話)?為了理解為什么人工智能搜索引擎會出錯,我們需要看看它們是如何工作的。我們知道,AI Overviews 使用的是生成式人工智能模型 Gemini 的一個版本。Gemini 是谷歌的大型語言模型(LLM,large language models)家族,并為谷歌搜索進行了定制。該模型已與谷歌的核心網(wǎng)絡(luò)排名系統(tǒng)集成,旨在從其網(wǎng)站索引中提取相關(guān)結(jié)果。大多數(shù)大型語言模型只是在預(yù)測序列中的下一個單詞(或 token),這使它們生成的內(nèi)容看起來很流暢,但同時也使它們?nèi)菀拙幵焯摷傩畔ⅰ?/span>它們沒有真實信息作為證據(jù),而是純粹根據(jù)統(tǒng)計計算來選擇每個單詞。這會導(dǎo)致“幻覺”。美國華盛頓大學專門研究在線搜索的教授奇拉格·沙阿(Chirag Shah)表示,AI Overviews 中的 Gemini 模型很可能是通過使用一種名為檢索增強生成(RAG,retrieval-augmented generation)的人工智能技術(shù)來解決這一問題的。該技術(shù)允許大模型檢查其訓練數(shù)據(jù)之外的特定(信息)來源,例如某些網(wǎng)頁。(來源:SARAH ROGERS/MITTR)一旦用戶輸入查詢信息,該系統(tǒng)就會根據(jù)構(gòu)成系統(tǒng)信息源的文檔進行檢查,并生成響應(yīng)。因為它能夠?qū)⒃疾樵兣c網(wǎng)頁的特定部分相匹配,所以它能夠給出答案的引用來源,這是普通大模型無法做到的。檢索增強生成技術(shù)的一個主要優(yōu)點是,它對用戶查詢生成的響應(yīng)應(yīng)該比僅基于訓練數(shù)據(jù)生成答案的典型模型的響應(yīng)更及時、更準確、更相關(guān)。這種技術(shù)經(jīng)常被用來防止大模型產(chǎn)生“幻覺”。但谷歌發(fā)言人沒有證實 AI Overviews 是否使用了檢索增強生成技術(shù)。而檢索增強生成技術(shù)并非完美無缺。為了讓使用該技術(shù)的大模型得出一個好的答案,它必須正確地檢索信息并正確地生成響應(yīng)。當這兩個步驟中的一個或全都失敗時,模型就會給出一個糟糕的答案。AI Overviews 推薦在披薩里加入膠水的回應(yīng),源自于 Reddit 論壇上的一篇搞笑回帖。該帖子很可能與用戶一開始提到的如何解決奶酪不粘在披薩上的查詢有關(guān),但在檢索過程中出現(xiàn)了問題。僅僅因為內(nèi)容是相關(guān)的并不意味著它是正確的,這個過程的信息生成步驟并不會質(zhì)疑這一點。同樣,如果檢索增強生成系統(tǒng)遇到相互沖突的信息,如老版和新版的政策手冊,它將無法確定從哪個版本中獲取信息并構(gòu)建響應(yīng)。它可能會將兩者的信息結(jié)合起來,產(chǎn)生一個潛在的誤導(dǎo)性答案。荷蘭萊頓大學專門研究自然語言處理的教授蘇珊·韋伯恩(Suzan Verberne)說:“大型語言模型會根據(jù)你提供的信息來源生成流利的回復(fù),但流利的回復(fù)與正確的信息不同。”她說,一個主題越具體,在大型語言模型的輸出中出現(xiàn)錯誤信息的幾率就越高。并補充道:“這個問題不僅出現(xiàn)在醫(yī)學領(lǐng)域,也出現(xiàn)在教育領(lǐng)域和科學領(lǐng)域?!?/span>谷歌發(fā)言人表示,在許多情況下,當 AI Overviews 返回錯誤答案時,是因為網(wǎng)絡(luò)上沒有太多高質(zhì)量的信息可供顯示,或者是因為用戶查詢的東西與諷刺網(wǎng)站或搞笑帖子最匹配。這位發(fā)言人表示,AI Overviews 在絕大多數(shù)情況下都提供了高質(zhì)量的信息,許多錯誤案例都是針對不常見的查詢。其補充說,AI Overviews 在回復(fù)中包含有害、淫穢或其他不可接受內(nèi)容的概率是 700 萬分之一,即每 700 萬個獨特查詢會導(dǎo)致一個糟糕的回復(fù)。其還表示,會繼續(xù)根據(jù)其內(nèi)容政策刪除某些查詢的 AI Overviews。盡管“披薩膠水”的錯誤很好地展示了 AI Overviews 如何指向不可靠來源,但該系統(tǒng)也可能從事實正確的來源產(chǎn)生錯誤信息。美國新墨西哥州圣達菲研究所的人工智能研究員梅蘭妮·米切爾(Melanie Mitchell)搜索了“美國有多少位穆斯林總統(tǒng)?”AI Overviews 回應(yīng)道:“美國有一位穆斯林總統(tǒng),巴拉克·侯賽因·奧巴馬(Barack Hussein Obama)?!?/span>巴拉克·奧巴馬不是穆斯林,因此 AI Overviews 的回應(yīng)是錯誤的,但它是從一本名為《巴拉克·侯賽因·奧巴馬:美國第一位穆斯林總統(tǒng)?》的書中提取到的信息。因此,人工智能系統(tǒng)不僅沒有抓住文章的全部要點,而且以與預(yù)期完全相反的方式對其進行了解釋。人工智能有幾個問題;一個是找到一個不是玩笑的好的信息來源,另一個是正確地解釋消息來源。這是人工智能系統(tǒng)很難做到的事情,重要的是要注意,即使它得到了一個好的信息來源,它仍然會出錯。最終,我們會知道人工智能系統(tǒng)是不可靠的,只要它們使用概率逐字逐句地生成文本,就總會有出現(xiàn)“幻覺”的風險。雖然隨著谷歌做出調(diào)整,AI Overviews 可能會有所改進,但我們永遠無法確定它是否會 100% 準確。該公司表示,它正在為 AI Overviews 添加觸發(fā)限制,如果對查詢沒有太多幫助的話,并為與健康相關(guān)的查詢添加了額外的“觸發(fā)改進”。韋伯恩說,該公司可以在信息檢索過程中增加一個步驟,用于標記有風險的查詢,并讓系統(tǒng)在這些情況下拒絕生成答案。谷歌發(fā)言人表示,該公司的目標不是顯示危險話題或脆弱狀況的 AI Overviews。從人類反饋中進行強化學習等技術(shù),將這種反饋納入大模型的訓練中,也有助于提高其答案的質(zhì)量。同樣,大模型可以針對無法回答的問題進行專門訓練。在生成答案之前,讓它們仔細評估檢索到的文檔的質(zhì)量也很有用,因此正確的指導(dǎo)很有幫助。盡管谷歌在 AI Overviews 的答案中添加了一個標簽,上面寫著“生成式人工智能是實驗性的”,但它應(yīng)該考慮讓人們更清楚地知道該功能正在測試中,并強調(diào)它還沒有準備好提供完全可靠的答案。“它現(xiàn)在還是測試版,而且還會持續(xù)一段時間,在它不再是測試版之前,它應(yīng)該是一個選項,而不應(yīng)該作為核心搜索的一部分強加給用戶?!鄙嘲⒄f。支持:Ren排版:希幔 *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。