克服多語(yǔ)言語(yǔ)音技術(shù)的障礙:五大挑戰(zhàn)和創(chuàng)新解決方案
推薦:使用NSDT場(chǎng)景編輯器助你快速搭建可二次編輯器的3D應(yīng)用場(chǎng)景介紹
在用西班牙語(yǔ)(您的首選語(yǔ)言)向語(yǔ)音助手詢(xún)問(wèn)某些內(nèi)容后,您有多少次不得不暫停,然后用語(yǔ)音助手理解的語(yǔ)言(可能是英語(yǔ))重述您的問(wèn)題,因?yàn)檎Z(yǔ)音助手無(wú)法理解您的西班牙語(yǔ)請(qǐng)求?或者,當(dāng)你要求你的語(yǔ)音助手播放他們的音樂(lè)時(shí),你有多少次不得不故意念錯(cuò)你最喜歡的藝術(shù)家A. R. Rahman的名字,因?yàn)槟阒廊绻阏f(shuō)出他們的名字是正確的,語(yǔ)音助手根本聽(tīng)不懂,但如果你說(shuō)A.R.拉面,語(yǔ)音助手會(huì)明白嗎?此外,當(dāng)語(yǔ)音助手用他們舒緩、無(wú)所不知的聲音,屠宰你最喜歡的音樂(lè)劇《悲慘世界》的名字并明確地將其發(fā)音為“Les Miz-er-ables”時(shí),你有多少次畏縮?
盡管語(yǔ)音助手在大約十年前已成為主流,但它們?nèi)匀槐3趾?jiǎn)單化,特別是在理解多語(yǔ)言環(huán)境中的用戶(hù)請(qǐng)求方面。在一個(gè)多語(yǔ)言家庭正在崛起,現(xiàn)有和潛在用戶(hù)群變得越來(lái)越全球化和多樣化的世界中,語(yǔ)音助手在理解用戶(hù)請(qǐng)求時(shí)變得無(wú)縫至關(guān)重要,無(wú)論他們的語(yǔ)言、方言、口音、語(yǔ)氣、調(diào)制和其他語(yǔ)音特征如何。然而,語(yǔ)音助手在能夠以人類(lèi)彼此的方式與用戶(hù)順利交談方面繼續(xù)嚴(yán)重滯后。在本文中,我們將深入探討使語(yǔ)音助手多語(yǔ)言運(yùn)行的最大挑戰(zhàn)是什么,以及緩解這些挑戰(zhàn)的一些策略可能是什么。在本文中,我們將使用假設(shè)的語(yǔ)音助手 Nova,用于說(shuō)明目的。
語(yǔ)音助手的工作原理在深入探討使語(yǔ)音助手用戶(hù)體驗(yàn)多語(yǔ)言的挑戰(zhàn)和機(jī)遇之前,讓我們大致了解一下語(yǔ)音助手的工作原理。使用 Nova 作為假設(shè)的語(yǔ)音助手,我們看看請(qǐng)求音樂(lè)曲目的端到端流程是什么樣的(參考)。
1. 假設(shè)語(yǔ)音助手Nova的端到端概述
如圖所示。1.當(dāng)用戶(hù)要求Nova播放流行樂(lè)隊(duì)酷玩樂(lè)隊(duì)的原聲音樂(lè)時(shí),用戶(hù)的這個(gè)聲音信號(hào)首先被轉(zhuǎn)換為一串文本令牌,作為人-語(yǔ)音助手交互的第一步。此階段稱(chēng)為自動(dòng)語(yǔ)音識(shí)別 (ASR) 或語(yǔ)音轉(zhuǎn)文本 (STT)。一旦令牌字符串可用,它就會(huì)傳遞到自然語(yǔ)言理解步驟,語(yǔ)音助手將嘗試?yán)斫庥脩?hù)意圖的語(yǔ)義和句法含義。在這種情況下,語(yǔ)音助手的NLU解釋用戶(hù)正在尋找酷玩樂(lè)隊(duì)的歌曲(即解釋酷玩樂(lè)隊(duì)是一個(gè)樂(lè)隊(duì)),這些歌曲本質(zhì)上是原聲的(即在該樂(lè)隊(duì)的唱片中查找歌曲的元數(shù)據(jù),并且只選擇版本=原聲的歌曲)。然后,此用戶(hù)意圖理解用于查詢(xún)后端以查找用戶(hù)要查找的內(nèi)容。最后,用戶(hù)正在尋找的實(shí)際內(nèi)容以及向用戶(hù)呈現(xiàn)此輸出所需的任何其他附加信息將轉(zhuǎn)到下一步。在此步驟中,響應(yīng)和任何其他可用信息用于修飾用戶(hù)的體驗(yàn),并令人滿(mǎn)意地響應(yīng)用戶(hù)查詢(xún)。在這種情況下,它將是文本到語(yǔ)音轉(zhuǎn)換 (TTS) 輸出(“這是酷玩樂(lè)隊(duì)的一些原聲音樂(lè)”),然后播放為此用戶(hù)查詢(xún)選擇的實(shí)際歌曲。
構(gòu)建多語(yǔ)言語(yǔ)音助手的挑戰(zhàn)多語(yǔ)言語(yǔ)音助手 (VA) 意味著能夠理解和響應(yīng)多種語(yǔ)言的 VA,無(wú)論它們是由同一個(gè)人或多人說(shuō)的,還是由同一個(gè)人用與另一種語(yǔ)言混合的同一個(gè)句子說(shuō)的(例如“Nova,arrêt!玩別的東西“)。以下是語(yǔ)音助手在多模式環(huán)境中無(wú)縫操作時(shí)面臨的主要挑戰(zhàn)。
語(yǔ)言資源的數(shù)量和數(shù)量不足為了使語(yǔ)音助手能夠很好地解析和理解查詢(xún),需要對(duì)該語(yǔ)言的大量訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)包括來(lái)自人類(lèi)的語(yǔ)音數(shù)據(jù)、地面真相注釋、大量文本語(yǔ)料庫(kù)、用于改進(jìn) TTS 發(fā)音的資源(例如發(fā)音詞典)和語(yǔ)言模型。雖然這些資源很容易用于英語(yǔ)、西班牙語(yǔ)和德語(yǔ)等流行語(yǔ)言,但對(duì)于斯瓦希里語(yǔ)、普什圖語(yǔ)或捷克語(yǔ)等語(yǔ)言,它們的可用性有限甚至不存在。即使有足夠多的人使用這些語(yǔ)言,也沒(méi)有結(jié)構(gòu)化的資源可用于這些語(yǔ)言。為多種語(yǔ)言創(chuàng)建這些資源可能很昂貴、復(fù)雜且需要大量人力,從而為進(jìn)展帶來(lái)阻力。
語(yǔ)言變化語(yǔ)言有不同的方言、口音、變體和區(qū)域適應(yīng)。處理這些變化對(duì)于語(yǔ)音助手來(lái)說(shuō)具有挑戰(zhàn)性。除非語(yǔ)音助手適應(yīng)這些語(yǔ)言上的細(xì)微差別,否則很難正確理解用戶(hù)請(qǐng)求或能夠以相同的語(yǔ)言語(yǔ)氣做出響應(yīng),以提供自然的聲音和更像人類(lèi)的體驗(yàn)。例如,僅英國(guó)就有40多種英語(yǔ)口音。另一個(gè)例子是墨西哥使用的西班牙語(yǔ)與西班牙使用的西班牙語(yǔ)不同。
語(yǔ)言識(shí)別和適應(yīng)多語(yǔ)言用戶(hù)在與其他人的交互過(guò)程中切換語(yǔ)言是很常見(jiàn)的,他們可能期望與語(yǔ)音助手進(jìn)行相同的自然交互。例如,“Hinglish”是一個(gè)常用術(shù)語(yǔ),用于描述在說(shuō)話(huà)時(shí)使用印地語(yǔ)和英語(yǔ)單詞的人的語(yǔ)言。能夠識(shí)別用戶(hù)與語(yǔ)音助手交互的語(yǔ)言并相應(yīng)地調(diào)整響應(yīng)是一項(xiàng)艱巨的挑戰(zhàn),這是當(dāng)今主流語(yǔ)音助手無(wú)法做到的艱巨挑戰(zhàn)。
語(yǔ)言翻譯將語(yǔ)音助手?jǐn)U展到多種語(yǔ)言的一種方法是將 ASR 輸出從盧森堡語(yǔ)等非主流語(yǔ)言翻譯成 NLU 層可以更準(zhǔn)確地解釋的語(yǔ)言,例如英語(yǔ)。常用的翻譯技術(shù)包括使用一種或多種技術(shù),如神經(jīng)機(jī)器翻譯 (NMT)、統(tǒng)計(jì)機(jī)器翻譯 (SMT)、基于規(guī)則的機(jī)器翻譯 (RBMT) 等。但是,這些算法可能無(wú)法很好地針對(duì)不同的語(yǔ)言集進(jìn)行擴(kuò)展,并且可能還需要大量的訓(xùn)練數(shù)據(jù)。此外,語(yǔ)言特定的細(xì)微差別經(jīng)常丟失,翻譯版本往往顯得尷尬和不自然。在能夠擴(kuò)展多語(yǔ)言語(yǔ)音助手方面,翻譯質(zhì)量仍然是一個(gè)持續(xù)的挑戰(zhàn)。翻譯步驟中的另一個(gè)挑戰(zhàn)是它引入的延遲,降低了人與語(yǔ)音助手交互的體驗(yàn)。
真正的語(yǔ)言理解語(yǔ)言通常具有獨(dú)特的語(yǔ)法結(jié)構(gòu)。例如,英語(yǔ)有單數(shù)和復(fù)數(shù)的概念,梵語(yǔ)有3(單數(shù),對(duì)偶,復(fù)數(shù))。也可能有不同的習(xí)語(yǔ)不能很好地翻譯成其他語(yǔ)言。最后,可能還有文化細(xì)微差別和文化參考,除非翻譯技術(shù)具有高質(zhì)量的語(yǔ)義理解,否則翻譯可能很差。開(kāi)發(fā)特定于語(yǔ)言的 NLU 模型是昂貴的。
克服構(gòu)建多語(yǔ)言語(yǔ)音助手的挑戰(zhàn)上面提到的挑戰(zhàn)是難以解決的問(wèn)題。但是,有一些方法可以立即部分(如果不是完全)緩解這些挑戰(zhàn)。以下是一些可以解決上述一個(gè)或多個(gè)挑戰(zhàn)的技術(shù)。
利用深度學(xué)習(xí)檢測(cè)語(yǔ)言解釋句子含義的第一步是知道句子屬于哪種語(yǔ)言。這就是深度學(xué)習(xí)的用武之地。深度學(xué)習(xí)使用人工神經(jīng)網(wǎng)絡(luò)和大量數(shù)據(jù)來(lái)創(chuàng)建看起來(lái)像人類(lèi)的輸出?;谵D(zhuǎn)換器的架構(gòu)(例如BERT)在語(yǔ)言檢測(cè)方面已經(jīng)證明是成功的,即使在資源匱乏的語(yǔ)言中也是如此?;谵D(zhuǎn)換器的語(yǔ)言檢測(cè)模型的替代方法是遞歸神經(jīng)網(wǎng)絡(luò) (RNN)。這些模型應(yīng)用的一個(gè)例子是,如果一個(gè)平時(shí)用英語(yǔ)說(shuō)話(huà)的用戶(hù)有一天突然用西班牙語(yǔ)與語(yǔ)音助手交談,語(yǔ)音助手可以正確檢測(cè)和識(shí)別西班牙語(yǔ)。
使用上下文機(jī)器翻譯來(lái)“理解”請(qǐng)求一旦檢測(cè)到語(yǔ)言,解釋句子的下一步是獲取 ASR 階段的輸出,即標(biāo)記字符串,并將該字符串(不僅從字面上而且在語(yǔ)義上)轉(zhuǎn)換為可以處理以生成響應(yīng)的語(yǔ)言。而不是使用翻譯 API,這些 API 可能并不總是知道語(yǔ)音界面的上下文和特性,并且由于高延遲而在響應(yīng)中引入次優(yōu)延遲,從而降低用戶(hù)體驗(yàn)。但是,如果將上下文感知機(jī)器翻譯模型集成到語(yǔ)音助手中,則由于特定于域或會(huì)話(huà)上下文,翻譯可以具有更高的質(zhì)量和準(zhǔn)確性。例如,如果語(yǔ)音助手主要用于娛樂(lè),它可以利用上下文機(jī)器翻譯來(lái)正確理解和回答有關(guān)音樂(lè)流派和子流派、樂(lè)器和音符、某些曲目的文化相關(guān)性等問(wèn)題。
利用多語(yǔ)言預(yù)訓(xùn)練模型由于每種語(yǔ)言都有獨(dú)特的結(jié)構(gòu)和語(yǔ)法、文化參考、短語(yǔ)、習(xí)語(yǔ)和表達(dá)方式以及其他細(xì)微差別,因此處理不同的語(yǔ)言具有挑戰(zhàn)性。鑒于特定于語(yǔ)言的模型很昂貴,預(yù)先訓(xùn)練的多語(yǔ)言模型可以幫助捕獲特定于語(yǔ)言的細(xì)微差別。像BERT和XLM-R這樣的模型是預(yù)先訓(xùn)練模型的很好的例子,可以捕獲語(yǔ)言特定的細(xì)微差別。最后,這些模型可以微調(diào)到一個(gè)領(lǐng)域,以進(jìn)一步提高其準(zhǔn)確性。例如,對(duì)于在音樂(lè)領(lǐng)域訓(xùn)練的模型,可能不僅能夠理解查詢(xún),還可以通過(guò)語(yǔ)音助手返回豐富的響應(yīng)。如果這個(gè)語(yǔ)音助手被問(wèn)到一首歌歌詞背后的含義是什么,語(yǔ)音助手將能夠以比簡(jiǎn)單解釋單詞更豐富的方式回答問(wèn)題。
使用代碼切換模型實(shí)現(xiàn)代碼切換模型以便能夠處理混合使用不同語(yǔ)言的語(yǔ)言輸入,可以在用戶(hù)與語(yǔ)音助手的交互中使用多種語(yǔ)言的情況下提供幫助。例如,如果語(yǔ)音助手是專(zhuān)門(mén)為加拿大用戶(hù)經(jīng)?;煜ㄕZ(yǔ)和英語(yǔ)的地區(qū)設(shè)計(jì)的,則可以使用代碼切換模型來(lái)理解指向語(yǔ)音助手的句子,這些句子是兩種語(yǔ)言的混合,語(yǔ)音助手將能夠處理它。
利用遷移學(xué)習(xí)和零鏡頭學(xué)習(xí)來(lái)開(kāi)發(fā)低資源語(yǔ)言遷移學(xué)習(xí)是 ML 中的一種技術(shù),其中模型在一項(xiàng)任務(wù)上訓(xùn)練,但用作第二個(gè)任務(wù)的模型的起點(diǎn)。它利用從第一個(gè)任務(wù)中學(xué)習(xí)來(lái)提高第二個(gè)任務(wù)的性能,從而在一定程度上克服了冷啟動(dòng)問(wèn)題。零鏡頭學(xué)習(xí)是指使用預(yù)先訓(xùn)練的模型來(lái)處理以前從未見(jiàn)過(guò)的數(shù)據(jù)。遷移學(xué)習(xí)和零鏡頭學(xué)習(xí)都可以用于將知識(shí)從高資源語(yǔ)言轉(zhuǎn)移到低資源語(yǔ)言。例如,如果語(yǔ)音助手已經(jīng)接受了世界上最常用的 10 種語(yǔ)言的培訓(xùn),則可以利用它來(lái)理解斯瓦希里語(yǔ)等低資源語(yǔ)言的查詢(xún)。
結(jié)論總之,在語(yǔ)音助手上構(gòu)建和實(shí)現(xiàn)多語(yǔ)言體驗(yàn)具有挑戰(zhàn)性,但也有一些方法可以緩解其中一些挑戰(zhàn)。通過(guò)解決上述挑戰(zhàn),語(yǔ)音助手將能夠?yàn)橛脩?hù)提供無(wú)縫體驗(yàn),無(wú)論其語(yǔ)言如何。
原文鏈接:克服多語(yǔ)言語(yǔ)音技術(shù)的障礙:五大挑戰(zhàn)和創(chuàng)新解決方案 (mvrlink.com)
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。