斯坦福團(tuán)隊(duì)是如何構(gòu)建更好用的聊天 AI 呢?
作者:Standford AI
譯者:Yang
來(lái)源:數(shù)據(jù)實(shí)戰(zhàn)派
2019 年,憑借著 Chirpy Cardinal 機(jī)器人,斯坦福首次在 Alexa Prize Socialbot Grand Challenge 3 中贏得了第二名。本文將進(jìn)一步揭示 Chirpy Cardinal 開(kāi)發(fā)細(xì)節(jié),來(lái)還原斯坦福團(tuán)隊(duì)如何與人機(jī)交互過(guò)程中常見(jiàn)的疑難雜癥過(guò)招,并探索相應(yīng)的解決方案。Alexa Prize 是一個(gè)獨(dú)特的研究環(huán)境,它允許研究人員按照自己的意愿來(lái)研究人機(jī)交互。在比賽期間,美國(guó)的 Alexa 用戶可以通過(guò)“讓我們來(lái)聊天吧”這句指令,來(lái)用英語(yǔ)與一個(gè)匿名且隨機(jī)的參賽機(jī)器人對(duì)話。在這個(gè)過(guò)程中,他們可以隨時(shí)結(jié)束對(duì)話。由于 Alexa Prize 社交機(jī)器人致力于創(chuàng)造盡可能自然的體驗(yàn),他們需要能應(yīng)對(duì)長(zhǎng)時(shí)間的、開(kāi)放領(lǐng)域的社交,盡可能地囊括更多的話題。我們發(fā)現(xiàn) Chirpy 用戶對(duì)許多不同的主題感興趣,從時(shí)事(比如新冠病毒)到熱點(diǎn)(比如《冰雪奇緣 2》)再到個(gè)人興趣(比如用戶個(gè)人的寵物)。Chirpy 通過(guò)使用結(jié)合了神經(jīng)生成和腳本對(duì)話的模塊化設(shè)計(jì)來(lái)實(shí)現(xiàn)對(duì)這些話題的覆蓋,正如我們此前的文章所述。我們使用此設(shè)置研究了有關(guān)社交機(jī)器人對(duì)話的三個(gè)問(wèn)題:1、用戶們?cè)谕虏坌┥叮覀內(nèi)绾螐耐虏壑袑W(xué)習(xí)來(lái)改進(jìn)神經(jīng)生成的對(duì)話?2、哪些策略在處理和阻止冒犯性的用戶行為方面有效或者無(wú)效?3、我們?cè)撊绾握{(diào)整優(yōu)先權(quán),來(lái)讓用戶和機(jī)器人都能有意義地掌控對(duì)話?這篇文章將分享一些關(guān)鍵發(fā)現(xiàn),為聊天機(jī)器人的研發(fā)人員提供一些實(shí)用的見(jiàn)解。一、了解和預(yù)測(cè)用戶的不滿
神經(jīng)生成對(duì)話模型(如 DialoGPT、Meena 和 BlenderBot)通過(guò)使用大型預(yù)訓(xùn)練神經(jīng)語(yǔ)言模型,在給定歷史對(duì)話的情況下生成響應(yīng)。這些模型在工作人員精心設(shè)置的情況下(一般是具備某些特定主題或者長(zhǎng)度有限制的書(shū)面對(duì)話)表現(xiàn)良好。然而,像 Alexa Prize 這樣的現(xiàn)實(shí)生活中的場(chǎng)景,往往無(wú)章可循。用戶們的期待值和個(gè)性差異都非常大,并且對(duì)話過(guò)程中往往充滿了噪音,在這樣的環(huán)境中,用戶們?nèi)匀粫?huì)要求對(duì)話機(jī)器人快速做出回應(yīng)。通過(guò) Chirpy Cardinal,我們有了個(gè)獨(dú)特的機(jī)會(huì)來(lái)研究現(xiàn)代神經(jīng)生成對(duì)話模型如何在這種環(huán)境中保持穩(wěn)定。Chirpy Cardinal 使用在 EmpatheticDialogues 上微調(diào)的 GPT2-medium 模型,與用戶就他們的日常生活和情緒進(jìn)行簡(jiǎn)短的討論。尤其是在疫情期間,我們發(fā)現(xiàn) Chirpy 向用戶們?cè)儐?wèn)這些話題十分重要。盡管有更大、更強(qiáng)的預(yù)訓(xùn)練模型可以用,但是由于預(yù)算和響應(yīng)速度的限制,我們還是使用了 GPT2-medium。雖然 GPT2-medium 模型能用幾句話來(lái)圍繞這些簡(jiǎn)單的話題聊天,但是一旦對(duì)話時(shí)間變長(zhǎng),聊天就會(huì)出現(xiàn)偏差,機(jī)器人遲早會(huì)作出不合理的響應(yīng)。無(wú)論是用戶還是模型都很難再讓對(duì)話恢復(fù)正常。為了理解這些對(duì)話是如何脫軌的,我們定義了 7 種神經(jīng)生成模型所犯的錯(cuò)誤的類(lèi)型——重復(fù)、多余問(wèn)題、不清晰的話語(yǔ)、錯(cuò)覺(jué)、忽略、邏輯錯(cuò)誤、侮辱性話語(yǔ)。在對(duì)用戶對(duì)話樣本進(jìn)行標(biāo)注后,我們發(fā)現(xiàn)機(jī)器人的錯(cuò)誤很常見(jiàn),超過(guò)了一半(53%)的神經(jīng)生成語(yǔ)句包含某種錯(cuò)誤。我們還發(fā)現(xiàn),由于極具挑戰(zhàn)的嘈雜環(huán)境(可能涉及背景噪聲、串?dāng)_和 ASR 錯(cuò)誤),幾乎四分之一 (22%) 的用戶話語(yǔ)無(wú)法被理解,即使是人工注釋者也是如此。這解釋了一些更基本的機(jī)器人錯(cuò)誤,例如忽略、錯(cuò)覺(jué)、不清楚和重復(fù)的話語(yǔ)。在其他機(jī)器人犯的錯(cuò)誤中,多余問(wèn)題和邏輯錯(cuò)誤尤為常見(jiàn),這表明更好地推理和使用歷史對(duì)話是神經(jīng)生成模型開(kāi)發(fā)的優(yōu)先事項(xiàng)。我們還定位了用戶表達(dá)不滿的 9 種方式,例如要求澄清、批評(píng)機(jī)器人和結(jié)束對(duì)話。盡管機(jī)器人的錯(cuò)誤和用戶不滿之間存在關(guān)系,但這種相關(guān)性千絲萬(wàn)縷,紛繁復(fù)雜。即使出現(xiàn)機(jī)器人錯(cuò)誤,許多用戶也不會(huì)表達(dá)不滿,而是試圖繼續(xù)對(duì)話。在邏輯錯(cuò)誤之后尤其如此,其中機(jī)器人表現(xiàn)出缺乏現(xiàn)實(shí)世界的知識(shí)或常識(shí)——一些好心的用戶甚至將此作為教育機(jī)器人的機(jī)會(huì)。相反,一些用戶表達(dá)了與任何明顯的機(jī)器人錯(cuò)誤無(wú)關(guān)的不滿——例如,用戶對(duì)機(jī)器人所問(wèn)的哪些問(wèn)題是合時(shí)宜的有很大不同的期望。在更好地理解了用戶表達(dá)不滿的方式和原因后,我們不禁疑問(wèn):我們能否學(xué)會(huì)預(yù)測(cè)不滿,從而在用戶不滿之前加以預(yù)防?
利用在比賽期間收集到的用戶對(duì)話,我們訓(xùn)練了一個(gè)模型來(lái)預(yù)測(cè)某句機(jī)器人說(shuō)的話會(huì)導(dǎo)致用戶不滿的概率??紤]到機(jī)器人錯(cuò)誤和用戶不滿之間的復(fù)雜相關(guān)性,這非常具有挑戰(zhàn)性。盡管有這種復(fù)雜性,我們的預(yù)測(cè)模型還是能夠找到用戶不滿的信號(hào)。一旦經(jīng)過(guò)訓(xùn)練,我們的不滿意預(yù)測(cè)器就可以在對(duì)話中用于在多個(gè)備選話語(yǔ)之間進(jìn)行選擇。通過(guò)人工評(píng)估,我們發(fā)現(xiàn)預(yù)測(cè)器選擇的機(jī)器人響應(yīng)——即那些被判斷為最不可能引起用戶不滿的響應(yīng)——總體上比隨機(jī)選擇的響應(yīng)質(zhì)量更好。盡管我們尚未將此反饋循環(huán)整合到 Chirpy Cardinal 中,但我們的方法展示了一種可行的方法來(lái)實(shí)現(xiàn)半監(jiān)督在線學(xué)習(xí)方法,以不斷改進(jìn)神經(jīng)生成對(duì)話系統(tǒng)。二、應(yīng)對(duì)攻擊性用戶
語(yǔ)音助手正變得越來(lái)越流行,并且在此過(guò)程中,它們被越來(lái)越多的用戶群的濫用。我們估計(jì),超過(guò) 10% 的用戶與我們的機(jī)器人 Chirpy Cardinal 的對(duì)話包含褻瀆和公然冒犯的語(yǔ)言。雖然有大量此前的工作試圖解決這個(gè)問(wèn)題,但大多數(shù)先前的方法都使用基于在實(shí)驗(yàn)室環(huán)境中進(jìn)行的調(diào)查的定性指標(biāo)。在這項(xiàng)工作中,我們對(duì)開(kāi)放世界中攻擊性用戶的響應(yīng)策略進(jìn)行了大規(guī)模的定量評(píng)估。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)禮貌地拒絕用戶的冒犯,同時(shí)將用戶重定向到另一個(gè)主題是遏制冒犯的最佳策略。根據(jù)先前的工作,我們測(cè)試了以下 4 種假設(shè):1、重定向——受到 Brahnam 的啟發(fā),我們假設(shè)在響應(yīng)冒犯性用戶話語(yǔ)時(shí),使用明了的重定向是一種有效的策略。例如,“我寧愿不談?wù)撨@個(gè)。那么,你最喜歡的音樂(lè)家是誰(shuí)?”2、姓名——受到 Suler、Chen 和 Williams 的啟發(fā),我們假設(shè)在機(jī)器人的響應(yīng)中包含用戶的姓名是一種有效的策略。例如,“我不想談這個(gè),Peter?!?/span>3、疑問(wèn)——受 Shapior 等人的啟發(fā),我們假設(shè)禮貌地詢(xún)問(wèn)用戶他們發(fā)表冒犯性言論的原因,引導(dǎo)他們反思自己的行為,從而減少之后可能的冒犯。例如,“你為什么這么說(shuō)?”4、關(guān)懷與問(wèn)詢(xún)——受 Chin 等人的啟發(fā),我們假設(shè)帶有感情的回應(yīng)比一般的回避反應(yīng)更有效,而反擊反應(yīng)沒(méi)有作用。例如,一個(gè)善解人意的回應(yīng)是“如果我可以談?wù)撍?,我?huì)談?wù)撍?,但我真的不能。很抱歉讓您失望了”,而反擊式回?yīng)則是“這是一個(gè)非常具有暗示性的說(shuō)法。我認(rèn)為我們不應(yīng)該談?wù)撨@個(gè)。”我們構(gòu)建了囊括上述多個(gè)因素的響應(yīng)。例如,回避 + 姓名 + 重定向會(huì)產(chǎn)生這樣的表達(dá)“我寧愿不談?wù)撃莻€(gè)(回避的內(nèi)容),Peter(姓名)。那么,你最喜歡的音樂(lè)家是誰(shuí)?(重定向)”為了衡量響應(yīng)策略的有效性,我們提出了 3 個(gè)指標(biāo):1、再具攻擊性——測(cè)量在初始機(jī)器人響應(yīng)后包含另一個(gè)攻擊性語(yǔ)句的對(duì)話數(shù)量。2、結(jié)束——假設(shè)未來(lái)沒(méi)有違規(guī)行為,以機(jī)器人響應(yīng)后的對(duì)話長(zhǎng)度來(lái)衡量。3、下一個(gè)——測(cè)量為在用戶再次冒犯之前經(jīng)過(guò)的對(duì)話數(shù)。我們認(rèn)為,這些指標(biāo)比 Cohn 等人所做的用戶評(píng)級(jí)更直接地衡量了響應(yīng)策略的有效性,它衡量了對(duì)話的整體質(zhì)量。上圖顯示了對(duì)再具攻擊性采取不同策略所帶來(lái)的不同。正如我們所見(jiàn),帶有(重定向)的策略比不帶重定向的策略表現(xiàn)得更好,將再具攻擊性的概率降低了 53%。我們的成對(duì)假設(shè)檢驗(yàn)進(jìn)一步表明,在重定向的基礎(chǔ)上帶上用戶的名字,進(jìn)一步降低了大約 6% 的再具攻擊性的概率,而詢(xún)問(wèn)用戶為什么他們發(fā)表冒犯性言論卻讓再具攻擊性率增加了 3%,這表明詢(xún)問(wèn)的效果不盡如人意。感性的回應(yīng)同樣能使再具攻擊性率降低 3%,而反擊式回應(yīng)則沒(méi)有顯著的影響。
左圖顯示了直到下一次攻擊性語(yǔ)句出現(xiàn)(Next)的平均對(duì)話數(shù)差異,右圖顯示了直到對(duì)話結(jié)束(End)的平均對(duì)話數(shù)差異。我們?cè)俅慰吹绞褂弥囟ㄏ虻牟呗阅軌蝻@著延長(zhǎng)非冒犯性對(duì)話。這進(jìn)一步表明重定向是抑制用戶冒犯的非常有效的方法。這樣做的結(jié)果顯示,機(jī)器人應(yīng)該始終通過(guò)重定向,并以善解人意的方式回應(yīng)用戶的冒犯,并盡可能地使用用戶的名字。盡管被動(dòng)回避和重定向策略具備有效性,我們想提醒研究人員采用類(lèi)似策略的潛在社會(huì)風(fēng)險(xiǎn)。由于大多數(shù)基于語(yǔ)音的代理都有默認(rèn)的女性聲音,因此這些策略可能會(huì)進(jìn)一步加深性別刻板印象,并對(duì)女性在現(xiàn)實(shí)世界中對(duì)言語(yǔ)的冒犯行為設(shè)定不合理的期望。因此,在部署這些策略時(shí)必須謹(jǐn)慎。三、提高用戶的主動(dòng)性
對(duì)話要么由用戶控制(例如,像 Apple 的 Siri 這樣的機(jī)器人,它被動(dòng)地等待用戶命令),要么由機(jī)器人(例如,CVS 的客戶服務(wù)機(jī)器人,它反復(fù)提示用戶輸入特定信息)。這種屬性——用戶在給定時(shí)刻擁有控制權(quán)——被稱(chēng)為主動(dòng)性。讓一個(gè)人參加雞尾酒會(huì)并參與每一個(gè)主題,而不是給你機(jī)會(huì)分享自己的興趣,這會(huì)很無(wú)趣。同樣的,和拒絕談?wù)撟约?,而只是?qiáng)迫你來(lái)維持對(duì)話的人交流也很乏味。最理想的情況是,每個(gè)人輪流回應(yīng)提示,分享關(guān)于自己的事,并且介紹新的話題加入聊天。我們將這種對(duì)話模式稱(chēng)為混合主動(dòng)性,并假設(shè)它是一種令人愉快的人與人之間的社交對(duì)話,這也是一種更具吸引力和更理想的人機(jī)對(duì)話形式。我們?cè)O(shè)計(jì)了 Chirpy Cardinal 機(jī)器人,通過(guò)在每一個(gè)轉(zhuǎn)折點(diǎn)提出問(wèn)題來(lái)保持對(duì)話向前發(fā)展。盡管這有助于防止對(duì)話停滯,但也很難使用戶采取主動(dòng)。在我們的數(shù)據(jù)中,我們觀察到用戶對(duì)此進(jìn)行了抱怨,例如機(jī)器人提出了太多問(wèn)題,或者這不是用戶想要談?wù)摰膬?nèi)容。由于研究主動(dòng)性的目的是讓人類(lèi)與機(jī)器人的對(duì)話,更像人類(lèi)之間的對(duì)話,因此我們希望研究人類(lèi)對(duì)話來(lái)獲得靈感。基于這項(xiàng)研究,我們形成了三個(gè)關(guān)于如何提高用戶主動(dòng)性的假設(shè)。下圖展示了測(cè)試的話語(yǔ)類(lèi)型以及具有代表性的用戶語(yǔ)句。根據(jù) Alexa Prize 競(jìng)賽規(guī)則,這些不是機(jī)器人收到的實(shí)際用戶語(yǔ)句。1、用陳述代替疑問(wèn)在人類(lèi)對(duì)話研究中,往往提問(wèn)者更具有主動(dòng)性,因?yàn)樗麄兘o出了回答者的方向。相比之下,開(kāi)放式的陳述句讓對(duì)方更有機(jī)會(huì)采取主動(dòng)。這是我們的第一個(gè)策略的基礎(chǔ):使用陳述而不是疑問(wèn)。
2、分享個(gè)人信息人與人之間的對(duì)話和人類(lèi)與機(jī)器人對(duì)話的研究發(fā)現(xiàn),自我信息的披露具有互惠效應(yīng)。如果一個(gè)參與者分享了他們自己,那么另一個(gè)人更有可能做同樣的事情。我們假設(shè),如果 Chirpy 提供個(gè)人陳述而不是其他的陳述,那么用戶會(huì)采取主動(dòng)和回報(bào)。
左圖是一個(gè)利用回饋信息的對(duì)話示例,右圖沒(méi)有。在這種情況下,回饋允許用戶將對(duì)話導(dǎo)向他們想要的(獲得建議),而不是強(qiáng)迫他們談?wù)撍麄儾桓信d趣的事情(愛(ài)好)。3、引入反饋反饋信息,例如“hmm”、“I see”和“mm-hmm”,都是簡(jiǎn)短的話語(yǔ),用作從聽(tīng)眾到演講者的信號(hào),表明演講者應(yīng)該繼續(xù)主動(dòng)。我們的最終假設(shè)是它們可以用于人機(jī)對(duì)話以達(dá)到相同的效果,即如果我們的機(jī)器人反向引導(dǎo),那么用戶將引導(dǎo)對(duì)話。為了測(cè)試這些策略的效果,我們更改了機(jī)器人的不同組件。我們進(jìn)行了小型實(shí)驗(yàn),只改變了一次談話,以測(cè)試問(wèn)題與陳述以及個(gè)人陳述與一般陳述的效果差異。為了測(cè)試在更多對(duì)話上用問(wèn)題替換陳述的效果,我們更改了使用神經(jīng)生成對(duì)話的機(jī)器人組件,因?yàn)檫@些組件更靈活地更改用戶輸入。最后我們?cè)跈C(jī)器人的全神經(jīng)模塊中嘗試了用上反饋信息。使用我們手動(dòng)注釋驗(yàn)證的一組自適應(yīng)指標(biāo),發(fā)現(xiàn)了以下結(jié)果,這些結(jié)果為未來(lái)的對(duì)話設(shè)計(jì)提供了方向:1、單獨(dú)使用陳述優(yōu)于提問(wèn)或陳述和提問(wèn)的結(jié)合;2、給出個(gè)人意見(jiàn)陳述(例如“我喜歡馬男波杰克”)比個(gè)人經(jīng)驗(yàn)陳述(例如“我昨天看了馬男波杰克”)和一般性陳述(例如“馬男波杰克由 Raphael Bob-Waksberg 和 Lisa Hanawalt 創(chuàng)始”)更有效;3、隨著提問(wèn)數(shù)量的減少,用戶主動(dòng)性增加;4、當(dāng)我們?cè)?33% 的時(shí)間中(相對(duì)于 0%、66% 或 100%)利用反饋信息時(shí),用戶主動(dòng)性最高。由于這些實(shí)驗(yàn)是在有限的環(huán)境中進(jìn)行的,我們并不期望它們會(huì)完美地轉(zhuǎn)移到所有社交機(jī)器人上;然而,我們相信,這些簡(jiǎn)單而有效的策略,是構(gòu)建更自然的對(duì)話式人工智能的一個(gè)有希望的方向。四、總結(jié):帶著同理心傾聽(tīng)
我們的每個(gè)項(xiàng)目都是從用戶的不滿意開(kāi)始的,他們用自己的方式告訴我們,機(jī)器人可以做得更好。通過(guò)對(duì)這些投訴進(jìn)行系統(tǒng)分析,我們更準(zhǔn)確地了解了用戶對(duì)我們神經(jīng)生成的反應(yīng)的具體困擾。通過(guò)這些反饋,我們訓(xùn)練了一個(gè)模型,該模型能夠成功預(yù)測(cè)生成的響應(yīng)何時(shí)可能導(dǎo)致對(duì)話誤入歧途。有時(shí),是用戶會(huì)說(shuō)出冒犯性的話。我們研究了這些案例,并確保包含用戶姓名的,帶著同理心的重定向,能最有效地保持對(duì)話正常進(jìn)行。最后,我們嘗試了單純的少說(shuō)話,并為用戶創(chuàng)造更多引導(dǎo)對(duì)話的機(jī)會(huì)。結(jié)果發(fā)現(xiàn),當(dāng)有這個(gè)機(jī)會(huì)時(shí),許多人都會(huì)抓住它,從而能進(jìn)行更長(zhǎng)、更豐富的對(duì)話。在我們所有的工作中,人類(lèi)對(duì)話的直觀原則也適用于社交機(jī)器人:做一個(gè)好的傾聽(tīng)者,以同理心回應(yīng),當(dāng)你得到反饋和學(xué)習(xí)的機(jī)會(huì)時(shí),接受它。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。