斯坦福團(tuán)隊(duì)是如何構(gòu)建更好用的聊天 AI 呢？

發(fā)布人：AI科技大本營(yíng) 時(shí)間：2022-03-12 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

作者：Standford AI

譯者：Yang

來(lái)源：數(shù)據(jù)實(shí)戰(zhàn)派

2019 年，憑借著 Chirpy Cardinal 機(jī)器人，斯坦福首次在 Alexa Prize Socialbot Grand Challenge 3 中贏得了第二名。本文將進(jìn)一步揭示 Chirpy Cardinal 開(kāi)發(fā)細(xì)節(jié)，來(lái)還原斯坦福團(tuán)隊(duì)如何與人機(jī)交互過(guò)程中常見(jiàn)的疑難雜癥過(guò)招，并探索相應(yīng)的解決方案。Alexa Prize 是一個(gè)獨(dú)特的研究環(huán)境，它允許研究人員按照自己的意愿來(lái)研究人機(jī)交互。在比賽期間，美國(guó)的 Alexa 用戶可以通過(guò)“讓我們來(lái)聊天吧”這句指令，來(lái)用英語(yǔ)與一個(gè)匿名且隨機(jī)的參賽機(jī)器人對(duì)話。在這個(gè)過(guò)程中，他們可以隨時(shí)結(jié)束對(duì)話。由于 Alexa Prize 社交機(jī)器人致力于創(chuàng)造盡可能自然的體驗(yàn)，他們需要能應(yīng)對(duì)長(zhǎng)時(shí)間的、開(kāi)放領(lǐng)域的社交，盡可能地囊括更多的話題。我們發(fā)現(xiàn) Chirpy 用戶對(duì)許多不同的主題感興趣，從時(shí)事（比如新冠病毒）到熱點(diǎn)（比如《冰雪奇緣 2》）再到個(gè)人興趣（比如用戶個(gè)人的寵物）。Chirpy 通過(guò)使用結(jié)合了神經(jīng)生成和腳本對(duì)話的模塊化設(shè)計(jì)來(lái)實(shí)現(xiàn)對(duì)這些話題的覆蓋，正如我們此前的文章所述。我們使用此設(shè)置研究了有關(guān)社交機(jī)器人對(duì)話的三個(gè)問(wèn)題：1、用戶們?cè)谕虏坌┥叮覀內(nèi)绾螐耐虏壑袑W(xué)習(xí)來(lái)改進(jìn)神經(jīng)生成的對(duì)話？2、哪些策略在處理和阻止冒犯性的用戶行為方面有效或者無(wú)效？3、我們?cè)撊绾握{(diào)整優(yōu)先權(quán)，來(lái)讓用戶和機(jī)器人都能有意義地掌控對(duì)話？這篇文章將分享一些關(guān)鍵發(fā)現(xiàn)，為聊天機(jī)器人的研發(fā)人員提供一些實(shí)用的見(jiàn)解。一、了解和預(yù)測(cè)用戶的不滿

神經(jīng)生成對(duì)話模型（如 DialoGPT、Meena 和 BlenderBot）通過(guò)使用大型預(yù)訓(xùn)練神經(jīng)語(yǔ)言模型，在給定歷史對(duì)話的情況下生成響應(yīng)。這些模型在工作人員精心設(shè)置的情況下（一般是具備某些特定主題或者長(zhǎng)度有限制的書(shū)面對(duì)話）表現(xiàn)良好。然而，像 Alexa Prize 這樣的現(xiàn)實(shí)生活中的場(chǎng)景，往往無(wú)章可循。用戶們的期待值和個(gè)性差異都非常大，并且對(duì)話過(guò)程中往往充滿了噪音，在這樣的環(huán)境中，用戶們?nèi)匀粫?huì)要求對(duì)話機(jī)器人快速做出回應(yīng)。通過(guò) Chirpy Cardinal，我們有了個(gè)獨(dú)特的機(jī)會(huì)來(lái)研究現(xiàn)代神經(jīng)生成對(duì)話模型如何在這種環(huán)境中保持穩(wěn)定。Chirpy Cardinal 使用在 EmpatheticDialogues 上微調(diào)的 GPT2-medium 模型，與用戶就他們的日常生活和情緒進(jìn)行簡(jiǎn)短的討論。尤其是在疫情期間，我們發(fā)現(xiàn) Chirpy 向用戶們?cè)儐?wèn)這些話題十分重要。盡管有更大、更強(qiáng)的預(yù)訓(xùn)練模型可以用，但是由于預(yù)算和響應(yīng)速度的限制，我們還是使用了 GPT2-medium。雖然 GPT2-medium 模型能用幾句話來(lái)圍繞這些簡(jiǎn)單的話題聊天，但是一旦對(duì)話時(shí)間變長(zhǎng)，聊天就會(huì)出現(xiàn)偏差，機(jī)器人遲早會(huì)作出不合理的響應(yīng)。無(wú)論是用戶還是模型都很難再讓對(duì)話恢復(fù)正常。為了理解這些對(duì)話是如何脫軌的，我們定義了 7 種神經(jīng)生成模型所犯的錯(cuò)誤的類(lèi)型——重復(fù)、多余問(wèn)題、不清晰的話語(yǔ)、錯(cuò)覺(jué)、忽略、邏輯錯(cuò)誤、侮辱性話語(yǔ)。在對(duì)用戶對(duì)話樣本進(jìn)行標(biāo)注后，我們發(fā)現(xiàn)機(jī)器人的錯(cuò)誤很常見(jiàn)，超過(guò)了一半（53%）的神經(jīng)生成語(yǔ)句包含某種錯(cuò)誤。我們還發(fā)現(xiàn)，由于極具挑戰(zhàn)的嘈雜環(huán)境（可能涉及背景噪聲、串?dāng)_和 ASR 錯(cuò)誤），幾乎四分之一 (22%) 的用戶話語(yǔ)無(wú)法被理解，即使是人工注釋者也是如此。這解釋了一些更基本的機(jī)器人錯(cuò)誤，例如忽略、錯(cuò)覺(jué)、不清楚和重復(fù)的話語(yǔ)。在其他機(jī)器人犯的錯(cuò)誤中，多余問(wèn)題和邏輯錯(cuò)誤尤為常見(jiàn)，這表明更好地推理和使用歷史對(duì)話是神經(jīng)生成模型開(kāi)發(fā)的優(yōu)先事項(xiàng)。我們還定位了用戶表達(dá)不滿的 9 種方式，例如要求澄清、批評(píng)機(jī)器人和結(jié)束對(duì)話。盡管機(jī)器人的錯(cuò)誤和用戶不滿之間存在關(guān)系，但這種相關(guān)性千絲萬(wàn)縷，紛繁復(fù)雜。即使出現(xiàn)機(jī)器人錯(cuò)誤，許多用戶也不會(huì)表達(dá)不滿，而是試圖繼續(xù)對(duì)話。在邏輯錯(cuò)誤之后尤其如此，其中機(jī)器人表現(xiàn)出缺乏現(xiàn)實(shí)世界的知識(shí)或常識(shí)——一些好心的用戶甚至將此作為教育機(jī)器人的機(jī)會(huì)。相反，一些用戶表達(dá)了與任何明顯的機(jī)器人錯(cuò)誤無(wú)關(guān)的不滿——例如，用戶對(duì)機(jī)器人所問(wèn)的哪些問(wèn)題是合時(shí)宜的有很大不同的期望。在更好地理解了用戶表達(dá)不滿的方式和原因后，我們不禁疑問(wèn)：我們能否學(xué)會(huì)預(yù)測(cè)不滿，從而在用戶不滿之前加以預(yù)防？利用在比賽期間收集到的用戶對(duì)話，我們訓(xùn)練了一個(gè)模型來(lái)預(yù)測(cè)某句機(jī)器人說(shuō)的話會(huì)導(dǎo)致用戶不滿的概率?？紤]到機(jī)器人錯(cuò)誤和用戶不滿之間的復(fù)雜相關(guān)性，這非常具有挑戰(zhàn)性。盡管有這種復(fù)雜性，我們的預(yù)測(cè)模型還是能夠找到用戶不滿的信號(hào)。一旦經(jīng)過(guò)訓(xùn)練，我們的不滿意預(yù)測(cè)器就可以在對(duì)話中用于在多個(gè)備選話語(yǔ)之間進(jìn)行選擇。通過(guò)人工評(píng)估，我們發(fā)現(xiàn)預(yù)測(cè)器選擇的機(jī)器人響應(yīng)——即那些被判斷為最不可能引起用戶不滿的響應(yīng)——總體上比隨機(jī)選擇的響應(yīng)質(zhì)量更好。盡管我們尚未將此反饋循環(huán)整合到 Chirpy Cardinal 中，但我們的方法展示了一種可行的方法來(lái)實(shí)現(xiàn)半監(jiān)督在線學(xué)習(xí)方法，以不斷改進(jìn)神經(jīng)生成對(duì)話系統(tǒng)。二、應(yīng)對(duì)攻擊性用戶

語(yǔ)音助手正變得越來(lái)越流行，并且在此過(guò)程中，它們被越來(lái)越多的用戶群的濫用。我們估計(jì)，超過(guò) 10% 的用戶與我們的機(jī)器人 Chirpy Cardinal 的對(duì)話包含褻瀆和公然冒犯的語(yǔ)言。雖然有大量此前的工作試圖解決這個(gè)問(wèn)題，但大多數(shù)先前的方法都使用基于在實(shí)驗(yàn)室環(huán)境中進(jìn)行的調(diào)查的定性指標(biāo)。在這項(xiàng)工作中，我們對(duì)開(kāi)放世界中攻擊性用戶的響應(yīng)策略進(jìn)行了大規(guī)模的定量評(píng)估。在實(shí)驗(yàn)中，我們發(fā)現(xiàn)禮貌地拒絕用戶的冒犯，同時(shí)將用戶重定向到另一個(gè)主題是遏制冒犯的最佳策略。根據(jù)先前的工作，我們測(cè)試了以下 4 種假設(shè)：1、重定向——受到 Brahnam 的啟發(fā)，我們假設(shè)在響應(yīng)冒犯性用戶話語(yǔ)時(shí)，使用明了的重定向是一種有效的策略。例如，“我寧愿不談?wù)撨@個(gè)。那么，你最喜歡的音樂(lè)家是誰(shuí)？”2、姓名——受到 Suler、Chen 和 Williams 的啟發(fā)，我們假設(shè)在機(jī)器人的響應(yīng)中包含用戶的姓名是一種有效的策略。例如，“我不想談這個(gè)，Peter?！?/span>3、疑問(wèn)——受 Shapior 等人的啟發(fā)，我們假設(shè)禮貌地詢(xún)問(wèn)用戶他們發(fā)表冒犯性言論的原因，引導(dǎo)他們反思自己的行為，從而減少之后可能的冒犯。例如，“你為什么這么說(shuō)？”4、關(guān)懷與問(wèn)詢(xún)——受 Chin 等人的啟發(fā)，我們假設(shè)帶有感情的回應(yīng)比一般的回避反應(yīng)更有效，而反擊反應(yīng)沒(méi)有作用。例如，一個(gè)善解人意的回應(yīng)是“如果我可以談?wù)撍?，我?huì)談?wù)撍?，但我真的不能。很抱歉讓您失望了”，而反擊式回?yīng)則是“這是一個(gè)非常具有暗示性的說(shuō)法。我認(rèn)為我們不應(yīng)該談?wù)撨@個(gè)。”我們構(gòu)建了囊括上述多個(gè)因素的響應(yīng)。例如，回避 + 姓名 + 重定向會(huì)產(chǎn)生這樣的表達(dá)“我寧愿不談?wù)撃莻€(gè)（回避的內(nèi)容），Peter（姓名）。那么，你最喜歡的音樂(lè)家是誰(shuí)？（重定向）”為了衡量響應(yīng)策略的有效性，我們提出了 3 個(gè)指標(biāo)：1、再具攻擊性——測(cè)量在初始機(jī)器人響應(yīng)后包含另一個(gè)攻擊性語(yǔ)句的對(duì)話數(shù)量。2、結(jié)束——假設(shè)未來(lái)沒(méi)有違規(guī)行為，以機(jī)器人響應(yīng)后的對(duì)話長(zhǎng)度來(lái)衡量。3、下一個(gè)——測(cè)量為在用戶再次冒犯之前經(jīng)過(guò)的對(duì)話數(shù)。我們認(rèn)為，這些指標(biāo)比 Cohn 等人所做的用戶評(píng)級(jí)更直接地衡量了響應(yīng)策略的有效性，它衡量了對(duì)話的整體質(zhì)量。上圖顯示了對(duì)再具攻擊性采取不同策略所帶來(lái)的不同。正如我們所見(jiàn)，帶有（重定向）的策略比不帶重定向的策略表現(xiàn)得更好，將再具攻擊性的概率降低了 53%。我們的成對(duì)假設(shè)檢驗(yàn)進(jìn)一步表明，在重定向的基礎(chǔ)上帶上用戶的名字，進(jìn)一步降低了大約 6% 的再具攻擊性的概率，而詢(xún)問(wèn)用戶為什么他們發(fā)表冒犯性言論卻讓再具攻擊性率增加了 3%，這表明詢(xún)問(wèn)的效果不盡如人意。感性的回應(yīng)同樣能使再具攻擊性率降低 3%，而反擊式回應(yīng)則沒(méi)有顯著的影響。左圖顯示了直到下一次攻擊性語(yǔ)句出現(xiàn)（Next）的平均對(duì)話數(shù)差異，右圖顯示了直到對(duì)話結(jié)束（End）的平均對(duì)話數(shù)差異。我們?cè)俅慰吹绞褂弥囟ㄏ虻牟呗阅軌蝻@著延長(zhǎng)非冒犯性對(duì)話。這進(jìn)一步表明重定向是抑制用戶冒犯的非常有效的方法。這樣做的結(jié)果顯示，機(jī)器人應(yīng)該始終通過(guò)重定向，并以善解人意的方式回應(yīng)用戶的冒犯，并盡可能地使用用戶的名字。盡管被動(dòng)回避和重定向策略具備有效性，我們想提醒研究人員采用類(lèi)似策略的潛在社會(huì)風(fēng)險(xiǎn)。由于大多數(shù)基于語(yǔ)音的代理都有默認(rèn)的女性聲音，因此這些策略可能會(huì)進(jìn)一步加深性別刻板印象，并對(duì)女性在現(xiàn)實(shí)世界中對(duì)言語(yǔ)的冒犯行為設(shè)定不合理的期望。因此，在部署這些策略時(shí)必須謹(jǐn)慎。三、提高用戶的主動(dòng)性

對(duì)話要么由用戶控制（例如，像 Apple 的 Siri 這樣的機(jī)器人，它被動(dòng)地等待用戶命令），要么由機(jī)器人（例如，CVS 的客戶服務(wù)機(jī)器人，它反復(fù)提示用戶輸入特定信息）。這種屬性——用戶在給定時(shí)刻擁有控制權(quán)——被稱(chēng)為主動(dòng)性。讓一個(gè)人參加雞尾酒會(huì)并參與每一個(gè)主題，而不是給你機(jī)會(huì)分享自己的興趣，這會(huì)很無(wú)趣。同樣的，和拒絕談?wù)撟约?，而只是?qiáng)迫你來(lái)維持對(duì)話的人交流也很乏味。最理想的情況是，每個(gè)人輪流回應(yīng)提示，分享關(guān)于自己的事，并且介紹新的話題加入聊天。我們將這種對(duì)話模式稱(chēng)為混合主動(dòng)性，并假設(shè)它是一種令人愉快的人與人之間的社交對(duì)話，這也是一種更具吸引力和更理想的人機(jī)對(duì)話形式。我們?cè)O(shè)計(jì)了 Chirpy Cardinal 機(jī)器人，通過(guò)在每一個(gè)轉(zhuǎn)折點(diǎn)提出問(wèn)題來(lái)保持對(duì)話向前發(fā)展。盡管這有助于防止對(duì)話停滯，但也很難使用戶采取主動(dòng)。在我們的數(shù)據(jù)中，我們觀察到用戶對(duì)此進(jìn)行了抱怨，例如機(jī)器人提出了太多問(wèn)題，或者這不是用戶想要談?wù)摰膬?nèi)容。由于研究主動(dòng)性的目的是讓人類(lèi)與機(jī)器人的對(duì)話，更像人類(lèi)之間的對(duì)話，因此我們希望研究人類(lèi)對(duì)話來(lái)獲得靈感。基于這項(xiàng)研究，我們形成了三個(gè)關(guān)于如何提高用戶主動(dòng)性的假設(shè)。下圖展示了測(cè)試的話語(yǔ)類(lèi)型以及具有代表性的用戶語(yǔ)句。根據(jù) Alexa Prize 競(jìng)賽規(guī)則，這些不是機(jī)器人收到的實(shí)際用戶語(yǔ)句。1、用陳述代替疑問(wèn)在人類(lèi)對(duì)話研究中，往往提問(wèn)者更具有主動(dòng)性，因?yàn)樗麄兘o出了回答者的方向。相比之下，開(kāi)放式的陳述句讓對(duì)方更有機(jī)會(huì)采取主動(dòng)。這是我們的第一個(gè)策略的基礎(chǔ)：使用陳述而不是疑問(wèn)。2、分享個(gè)人信息人與人之間的對(duì)話和人類(lèi)與機(jī)器人對(duì)話的研究發(fā)現(xiàn)，自我信息的披露具有互惠效應(yīng)。如果一個(gè)參與者分享了他們自己，那么另一個(gè)人更有可能做同樣的事情。我們假設(shè)，如果 Chirpy 提供個(gè)人陳述而不是其他的陳述，那么用戶會(huì)采取主動(dòng)和回報(bào)。左圖是一個(gè)利用回饋信息的對(duì)話示例，右圖沒(méi)有。在這種情況下，回饋允許用戶將對(duì)話導(dǎo)向他們想要的（獲得建議），而不是強(qiáng)迫他們談?wù)撍麄儾桓信d趣的事情（愛(ài)好）。3、引入反饋反饋信息，例如“hmm”、“I see”和“mm-hmm”，都是簡(jiǎn)短的話語(yǔ)，用作從聽(tīng)眾到演講者的信號(hào)，表明演講者應(yīng)該繼續(xù)主動(dòng)。我們的最終假設(shè)是它們可以用于人機(jī)對(duì)話以達(dá)到相同的效果，即如果我們的機(jī)器人反向引導(dǎo)，那么用戶將引導(dǎo)對(duì)話。為了測(cè)試這些策略的效果，我們更改了機(jī)器人的不同組件。我們進(jìn)行了小型實(shí)驗(yàn)，只改變了一次談話，以測(cè)試問(wèn)題與陳述以及個(gè)人陳述與一般陳述的效果差異。為了測(cè)試在更多對(duì)話上用問(wèn)題替換陳述的效果，我們更改了使用神經(jīng)生成對(duì)話的機(jī)器人組件，因?yàn)檫@些組件更靈活地更改用戶輸入。最后我們?cè)跈C(jī)器人的全神經(jīng)模塊中嘗試了用上反饋信息。使用我們手動(dòng)注釋驗(yàn)證的一組自適應(yīng)指標(biāo)，發(fā)現(xiàn)了以下結(jié)果，這些結(jié)果為未來(lái)的對(duì)話設(shè)計(jì)提供了方向：1、單獨(dú)使用陳述優(yōu)于提問(wèn)或陳述和提問(wèn)的結(jié)合；2、給出個(gè)人意見(jiàn)陳述（例如“我喜歡馬男波杰克”）比個(gè)人經(jīng)驗(yàn)陳述（例如“我昨天看了馬男波杰克”）和一般性陳述（例如“馬男波杰克由 Raphael Bob-Waksberg 和 Lisa Hanawalt 創(chuàng)始”）更有效；3、隨著提問(wèn)數(shù)量的減少，用戶主動(dòng)性增加；4、當(dāng)我們?cè)?33% 的時(shí)間中（相對(duì)于 0%、66% 或 100%）利用反饋信息時(shí)，用戶主動(dòng)性最高。由于這些實(shí)驗(yàn)是在有限的環(huán)境中進(jìn)行的，我們并不期望它們會(huì)完美地轉(zhuǎn)移到所有社交機(jī)器人上；然而，我們相信，這些簡(jiǎn)單而有效的策略，是構(gòu)建更自然的對(duì)話式人工智能的一個(gè)有希望的方向。四、總結(jié)：帶著同理心傾聽(tīng)

我們的每個(gè)項(xiàng)目都是從用戶的不滿意開(kāi)始的，他們用自己的方式告訴我們，機(jī)器人可以做得更好。通過(guò)對(duì)這些投訴進(jìn)行系統(tǒng)分析，我們更準(zhǔn)確地了解了用戶對(duì)我們神經(jīng)生成的反應(yīng)的具體困擾。通過(guò)這些反饋，我們訓(xùn)練了一個(gè)模型，該模型能夠成功預(yù)測(cè)生成的響應(yīng)何時(shí)可能導(dǎo)致對(duì)話誤入歧途。有時(shí)，是用戶會(huì)說(shuō)出冒犯性的話。我們研究了這些案例，并確保包含用戶姓名的，帶著同理心的重定向，能最有效地保持對(duì)話正常進(jìn)行。最后，我們嘗試了單純的少說(shuō)話，并為用戶創(chuàng)造更多引導(dǎo)對(duì)話的機(jī)會(huì)。結(jié)果發(fā)現(xiàn)，當(dāng)有這個(gè)機(jī)會(huì)時(shí)，許多人都會(huì)抓住它，從而能進(jìn)行更長(zhǎng)、更豐富的對(duì)話。在我們所有的工作中，人類(lèi)對(duì)話的直觀原則也適用于社交機(jī)器人：做一個(gè)好的傾聽(tīng)者，以同理心回應(yīng)，當(dāng)你得到反饋和學(xué)習(xí)的機(jī)會(huì)時(shí)，接受它。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專(zhuān)欄

斯坦福團(tuán)隊(duì)是如何構(gòu)建更好用的聊天 AI 呢？

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專(zhuān)欄

斯坦福團(tuán)隊(duì)是如何構(gòu)建更好用的聊天 AI 呢？

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

斯坦福團(tuán)隊(duì)是如何構(gòu)建更好用的聊天 AI 呢？