克服多語(yǔ)言語(yǔ)音技術(shù)的障礙：五大挑戰(zhàn)和創(chuàng)新解決方案

發(fā)布人：ygtu 時(shí)間：2023-08-15 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

推薦：使用NSDT場(chǎng)景編輯器助你快速搭建可二次編輯器的3D應(yīng)用場(chǎng)景

介紹

在用西班牙語(yǔ)（您的首選語(yǔ)言）向語(yǔ)音助手詢(xún)問(wèn)某些內(nèi)容后，您有多少次不得不暫停，然后用語(yǔ)音助手理解的語(yǔ)言（可能是英語(yǔ)）重述您的問(wèn)題，因?yàn)檎Z(yǔ)音助手無(wú)法理解您的西班牙語(yǔ)請(qǐng)求？或者，當(dāng)你要求你的語(yǔ)音助手播放他們的音樂(lè)時(shí)，你有多少次不得不故意念錯(cuò)你最喜歡的藝術(shù)家A. R. Rahman的名字，因?yàn)槟阒廊绻阏f(shuō)出他們的名字是正確的，語(yǔ)音助手根本聽(tīng)不懂，但如果你說(shuō)A.R.拉面，語(yǔ)音助手會(huì)明白嗎？此外，當(dāng)語(yǔ)音助手用他們舒緩、無(wú)所不知的聲音，屠宰你最喜歡的音樂(lè)劇《悲慘世界》的名字并明確地將其發(fā)音為“Les Miz-er-ables”時(shí)，你有多少次畏縮？

盡管語(yǔ)音助手在大約十年前已成為主流，但它們?nèi)匀槐３趾?jiǎn)單化，特別是在理解多語(yǔ)言環(huán)境中的用戶(hù)請(qǐng)求方面。在一個(gè)多語(yǔ)言家庭正在崛起，現(xiàn)有和潛在用戶(hù)群變得越來(lái)越全球化和多樣化的世界中，語(yǔ)音助手在理解用戶(hù)請(qǐng)求時(shí)變得無(wú)縫至關(guān)重要，無(wú)論他們的語(yǔ)言、方言、口音、語(yǔ)氣、調(diào)制和其他語(yǔ)音特征如何。然而，語(yǔ)音助手在能夠以人類(lèi)彼此的方式與用戶(hù)順利交談方面繼續(xù)嚴(yán)重滯后。在本文中，我們將深入探討使語(yǔ)音助手多語(yǔ)言運(yùn)行的最大挑戰(zhàn)是什么，以及緩解這些挑戰(zhàn)的一些策略可能是什么。在本文中，我們將使用假設(shè)的語(yǔ)音助手 Nova，用于說(shuō)明目的。

語(yǔ)音助手的工作原理

在深入探討使語(yǔ)音助手用戶(hù)體驗(yàn)多語(yǔ)言的挑戰(zhàn)和機(jī)遇之前，讓我們大致了解一下語(yǔ)音助手的工作原理。使用 Nova 作為假設(shè)的語(yǔ)音助手，我們看看請(qǐng)求音樂(lè)曲目的端到端流程是什么樣的（參考）。

克服多語(yǔ)言語(yǔ)音技術(shù)的障礙：五大挑戰(zhàn)和創(chuàng)新解決方案

1. 假設(shè)語(yǔ)音助手Nova的端到端概述

如圖所示。1.當(dāng)用戶(hù)要求Nova播放流行樂(lè)隊(duì)酷玩樂(lè)隊(duì)的原聲音樂(lè)時(shí)，用戶(hù)的這個(gè)聲音信號(hào)首先被轉(zhuǎn)換為一串文本令牌，作為人-語(yǔ)音助手交互的第一步。此階段稱(chēng)為自動(dòng)語(yǔ)音識(shí)別（ASR）或語(yǔ)音轉(zhuǎn)文本（STT）。一旦令牌字符串可用，它就會(huì)傳遞到自然語(yǔ)言理解步驟，語(yǔ)音助手將嘗試?yán)斫庥脩?hù)意圖的語(yǔ)義和句法含義。在這種情況下，語(yǔ)音助手的NLU解釋用戶(hù)正在尋找酷玩樂(lè)隊(duì)的歌曲（即解釋酷玩樂(lè)隊(duì)是一個(gè)樂(lè)隊(duì)），這些歌曲本質(zhì)上是原聲的（即在該樂(lè)隊(duì)的唱片中查找歌曲的元數(shù)據(jù)，并且只選擇版本=原聲的歌曲）。然后，此用戶(hù)意圖理解用于查詢(xún)后端以查找用戶(hù)要查找的內(nèi)容。最后，用戶(hù)正在尋找的實(shí)際內(nèi)容以及向用戶(hù)呈現(xiàn)此輸出所需的任何其他附加信息將轉(zhuǎn)到下一步。在此步驟中，響應(yīng)和任何其他可用信息用于修飾用戶(hù)的體驗(yàn)，并令人滿(mǎn)意地響應(yīng)用戶(hù)查詢(xún)。在這種情況下，它將是文本到語(yǔ)音轉(zhuǎn)換（TTS）輸出（“這是酷玩樂(lè)隊(duì)的一些原聲音樂(lè)”），然后播放為此用戶(hù)查詢(xún)選擇的實(shí)際歌曲。

構(gòu)建多語(yǔ)言語(yǔ)音助手的挑戰(zhàn)

多語(yǔ)言語(yǔ)音助手（VA）意味著能夠理解和響應(yīng)多種語(yǔ)言的 VA，無(wú)論它們是由同一個(gè)人或多人說(shuō)的，還是由同一個(gè)人用與另一種語(yǔ)言混合的同一個(gè)句子說(shuō)的（例如“Nova，arrêt！玩別的東西“）。以下是語(yǔ)音助手在多模式環(huán)境中無(wú)縫操作時(shí)面臨的主要挑戰(zhàn)。

語(yǔ)言資源的數(shù)量和數(shù)量不足

為了使語(yǔ)音助手能夠很好地解析和理解查詢(xún)，需要對(duì)該語(yǔ)言的大量訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)包括來(lái)自人類(lèi)的語(yǔ)音數(shù)據(jù)、地面真相注釋、大量文本語(yǔ)料庫(kù)、用于改進(jìn) TTS 發(fā)音的資源（例如發(fā)音詞典）和語(yǔ)言模型。雖然這些資源很容易用于英語(yǔ)、西班牙語(yǔ)和德語(yǔ)等流行語(yǔ)言，但對(duì)于斯瓦希里語(yǔ)、普什圖語(yǔ)或捷克語(yǔ)等語(yǔ)言，它們的可用性有限甚至不存在。即使有足夠多的人使用這些語(yǔ)言，也沒(méi)有結(jié)構(gòu)化的資源可用于這些語(yǔ)言。為多種語(yǔ)言創(chuàng)建這些資源可能很昂貴、復(fù)雜且需要大量人力，從而為進(jìn)展帶來(lái)阻力。

語(yǔ)言變化

語(yǔ)言有不同的方言、口音、變體和區(qū)域適應(yīng)。處理這些變化對(duì)于語(yǔ)音助手來(lái)說(shuō)具有挑戰(zhàn)性。除非語(yǔ)音助手適應(yīng)這些語(yǔ)言上的細(xì)微差別，否則很難正確理解用戶(hù)請(qǐng)求或能夠以相同的語(yǔ)言語(yǔ)氣做出響應(yīng)，以提供自然的聲音和更像人類(lèi)的體驗(yàn)。例如，僅英國(guó)就有40多種英語(yǔ)口音。另一個(gè)例子是墨西哥使用的西班牙語(yǔ)與西班牙使用的西班牙語(yǔ)不同。

語(yǔ)言識(shí)別和適應(yīng)

多語(yǔ)言用戶(hù)在與其他人的交互過(guò)程中切換語(yǔ)言是很常見(jiàn)的，他們可能期望與語(yǔ)音助手進(jìn)行相同的自然交互。例如，“Hinglish”是一個(gè)常用術(shù)語(yǔ)，用于描述在說(shuō)話(huà)時(shí)使用印地語(yǔ)和英語(yǔ)單詞的人的語(yǔ)言。能夠識(shí)別用戶(hù)與語(yǔ)音助手交互的語(yǔ)言并相應(yīng)地調(diào)整響應(yīng)是一項(xiàng)艱巨的挑戰(zhàn)，這是當(dāng)今主流語(yǔ)音助手無(wú)法做到的艱巨挑戰(zhàn)。

語(yǔ)言翻譯

將語(yǔ)音助手?jǐn)U展到多種語(yǔ)言的一種方法是將 ASR 輸出從盧森堡語(yǔ)等非主流語(yǔ)言翻譯成 NLU 層可以更準(zhǔn)確地解釋的語(yǔ)言，例如英語(yǔ)。常用的翻譯技術(shù)包括使用一種或多種技術(shù)，如神經(jīng)機(jī)器翻譯（NMT）、統(tǒng)計(jì)機(jī)器翻譯（SMT）、基于規(guī)則的機(jī)器翻譯（RBMT）等。但是，這些算法可能無(wú)法很好地針對(duì)不同的語(yǔ)言集進(jìn)行擴(kuò)展，并且可能還需要大量的訓(xùn)練數(shù)據(jù)。此外，語(yǔ)言特定的細(xì)微差別經(jīng)常丟失，翻譯版本往往顯得尷尬和不自然。在能夠擴(kuò)展多語(yǔ)言語(yǔ)音助手方面，翻譯質(zhì)量仍然是一個(gè)持續(xù)的挑戰(zhàn)。翻譯步驟中的另一個(gè)挑戰(zhàn)是它引入的延遲，降低了人與語(yǔ)音助手交互的體驗(yàn)。

真正的語(yǔ)言理解

語(yǔ)言通常具有獨(dú)特的語(yǔ)法結(jié)構(gòu)。例如，英語(yǔ)有單數(shù)和復(fù)數(shù)的概念，梵語(yǔ)有3（單數(shù)，對(duì)偶，復(fù)數(shù)）。也可能有不同的習(xí)語(yǔ)不能很好地翻譯成其他語(yǔ)言。最后，可能還有文化細(xì)微差別和文化參考，除非翻譯技術(shù)具有高質(zhì)量的語(yǔ)義理解，否則翻譯可能很差。開(kāi)發(fā)特定于語(yǔ)言的 NLU 模型是昂貴的。

克服構(gòu)建多語(yǔ)言語(yǔ)音助手的挑戰(zhàn)

上面提到的挑戰(zhàn)是難以解決的問(wèn)題。但是，有一些方法可以立即部分（如果不是完全）緩解這些挑戰(zhàn)。以下是一些可以解決上述一個(gè)或多個(gè)挑戰(zhàn)的技術(shù)。

利用深度學(xué)習(xí)檢測(cè)語(yǔ)言

解釋句子含義的第一步是知道句子屬于哪種語(yǔ)言。這就是深度學(xué)習(xí)的用武之地。深度學(xué)習(xí)使用人工神經(jīng)網(wǎng)絡(luò)和大量數(shù)據(jù)來(lái)創(chuàng)建看起來(lái)像人類(lèi)的輸出?；谵D(zhuǎn)換器的架構(gòu)（例如BERT）在語(yǔ)言檢測(cè)方面已經(jīng)證明是成功的，即使在資源匱乏的語(yǔ)言中也是如此?；谵D(zhuǎn)換器的語(yǔ)言檢測(cè)模型的替代方法是遞歸神經(jīng)網(wǎng)絡(luò) （RNN）。這些模型應(yīng)用的一個(gè)例子是，如果一個(gè)平時(shí)用英語(yǔ)說(shuō)話(huà)的用戶(hù)有一天突然用西班牙語(yǔ)與語(yǔ)音助手交談，語(yǔ)音助手可以正確檢測(cè)和識(shí)別西班牙語(yǔ)。

使用上下文機(jī)器翻譯來(lái)“理解”請(qǐng)求

一旦檢測(cè)到語(yǔ)言，解釋句子的下一步是獲取 ASR 階段的輸出，即標(biāo)記字符串，并將該字符串（不僅從字面上而且在語(yǔ)義上）轉(zhuǎn)換為可以處理以生成響應(yīng)的語(yǔ)言。而不是使用翻譯 API，這些 API 可能并不總是知道語(yǔ)音界面的上下文和特性，并且由于高延遲而在響應(yīng)中引入次優(yōu)延遲，從而降低用戶(hù)體驗(yàn)。但是，如果將上下文感知機(jī)器翻譯模型集成到語(yǔ)音助手中，則由于特定于域或會(huì)話(huà)上下文，翻譯可以具有更高的質(zhì)量和準(zhǔn)確性。例如，如果語(yǔ)音助手主要用于娛樂(lè)，它可以利用上下文機(jī)器翻譯來(lái)正確理解和回答有關(guān)音樂(lè)流派和子流派、樂(lè)器和音符、某些曲目的文化相關(guān)性等問(wèn)題。

利用多語(yǔ)言預(yù)訓(xùn)練模型

由于每種語(yǔ)言都有獨(dú)特的結(jié)構(gòu)和語(yǔ)法、文化參考、短語(yǔ)、習(xí)語(yǔ)和表達(dá)方式以及其他細(xì)微差別，因此處理不同的語(yǔ)言具有挑戰(zhàn)性。鑒于特定于語(yǔ)言的模型很昂貴，預(yù)先訓(xùn)練的多語(yǔ)言模型可以幫助捕獲特定于語(yǔ)言的細(xì)微差別。像BERT和XLM-R這樣的模型是預(yù)先訓(xùn)練模型的很好的例子，可以捕獲語(yǔ)言特定的細(xì)微差別。最后，這些模型可以微調(diào)到一個(gè)領(lǐng)域，以進(jìn)一步提高其準(zhǔn)確性。例如，對(duì)于在音樂(lè)領(lǐng)域訓(xùn)練的模型，可能不僅能夠理解查詢(xún)，還可以通過(guò)語(yǔ)音助手返回豐富的響應(yīng)。如果這個(gè)語(yǔ)音助手被問(wèn)到一首歌歌詞背后的含義是什么，語(yǔ)音助手將能夠以比簡(jiǎn)單解釋單詞更豐富的方式回答問(wèn)題。

使用代碼切換模型

實(shí)現(xiàn)代碼切換模型以便能夠處理混合使用不同語(yǔ)言的語(yǔ)言輸入，可以在用戶(hù)與語(yǔ)音助手的交互中使用多種語(yǔ)言的情況下提供幫助。例如，如果語(yǔ)音助手是專(zhuān)門(mén)為加拿大用戶(hù)經(jīng)?；煜ㄕZ(yǔ)和英語(yǔ)的地區(qū)設(shè)計(jì)的，則可以使用代碼切換模型來(lái)理解指向語(yǔ)音助手的句子，這些句子是兩種語(yǔ)言的混合，語(yǔ)音助手將能夠處理它。

利用遷移學(xué)習(xí)和零鏡頭學(xué)習(xí)來(lái)開(kāi)發(fā)低資源語(yǔ)言

遷移學(xué)習(xí)是 ML 中的一種技術(shù)，其中模型在一項(xiàng)任務(wù)上訓(xùn)練，但用作第二個(gè)任務(wù)的模型的起點(diǎn)。它利用從第一個(gè)任務(wù)中學(xué)習(xí)來(lái)提高第二個(gè)任務(wù)的性能，從而在一定程度上克服了冷啟動(dòng)問(wèn)題。零鏡頭學(xué)習(xí)是指使用預(yù)先訓(xùn)練的模型來(lái)處理以前從未見(jiàn)過(guò)的數(shù)據(jù)。遷移學(xué)習(xí)和零鏡頭學(xué)習(xí)都可以用于將知識(shí)從高資源語(yǔ)言轉(zhuǎn)移到低資源語(yǔ)言。例如，如果語(yǔ)音助手已經(jīng)接受了世界上最常用的 10 種語(yǔ)言的培訓(xùn)，則可以利用它來(lái)理解斯瓦希里語(yǔ)等低資源語(yǔ)言的查詢(xún)。

結(jié)論

總之，在語(yǔ)音助手上構(gòu)建和實(shí)現(xiàn)多語(yǔ)言體驗(yàn)具有挑戰(zhàn)性，但也有一些方法可以緩解其中一些挑戰(zhàn)。通過(guò)解決上述挑戰(zhàn)，語(yǔ)音助手將能夠?yàn)橛脩?hù)提供無(wú)縫體驗(yàn)，無(wú)論其語(yǔ)言如何。

原文鏈接：克服多語(yǔ)言語(yǔ)音技術(shù)的障礙：五大挑戰(zhàn)和創(chuàng)新解決方案 (mvrlink.com)

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專(zhuān)欄

克服多語(yǔ)言語(yǔ)音技術(shù)的障礙：五大挑戰(zhàn)和創(chuàng)新解決方案

相關(guān)推薦

技術(shù)專(zhuān)區(qū)