Nikko Strom揭秘語(yǔ)音識(shí)別技術(shù):Alexa是怎樣煉成的?
聲學(xué)模型就是一個(gè)分類器(classifier),輸入的是向量,輸出的是語(yǔ)音類別的概率。這是一個(gè)典型的神經(jīng)網(wǎng)絡(luò)。底部是輸入的信息,隱藏層將向量轉(zhuǎn)化到最后一層里的音素概率。
本文引用地址:http://www.biyoush.com/article/201703/345967.htm這里是一個(gè)美式英語(yǔ)的 Alexa 語(yǔ)音識(shí)別系統(tǒng),所以就會(huì)輸出美式英語(yǔ)中的各個(gè)音素。在 Echo 初始發(fā)布的時(shí)候,我們錄了幾千個(gè)小時(shí)的美式英語(yǔ)語(yǔ)音來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,這個(gè)成本是很高的。當(dāng)然,世界上還有很多其它的語(yǔ)言,比如我們?cè)?016年9月發(fā)行了德語(yǔ)版的Echo,如果再重頭來(lái)一遍用幾千個(gè)小時(shí)的德語(yǔ)語(yǔ)音來(lái)訓(xùn)練,成本是很高的。所以,這個(gè)神經(jīng)網(wǎng)絡(luò)模型一個(gè)有趣的地方就是可以“遷移學(xué)習(xí)”,你可以保持原有網(wǎng)絡(luò)中其它層不變,只把最后的一層換成德語(yǔ)。
兩種不同的語(yǔ)言,音素有很多是不一樣的,但仍然有很多相同的部分。所以,你可以只使用少量的德語(yǔ)的訓(xùn)練數(shù)據(jù),在稍作改變的模型上就可以最終得到不錯(cuò)的德語(yǔ)結(jié)果。
“錨定嵌入”
在一個(gè)充滿很多人的空間里,Alexa 需要弄清楚到底誰(shuí)在說(shuō)話。開(kāi)始的部分比較簡(jiǎn)單,用戶說(shuō)一句喚醒詞“Alexa”,Echo上的對(duì)應(yīng)方向的麥克風(fēng)就會(huì)開(kāi)啟,但接下來(lái)的部分就比較困難了。比如,在一個(gè)雞尾酒派對(duì)中,一個(gè)人說(shuō)“Alexa,來(lái)一點(diǎn)爵士樂(lè)”,但如果他/她的旁邊緊挨著同伴一起交談,在很短的時(shí)間里都說(shuō)話,那么要弄清楚到底是誰(shuí)在發(fā)出指令就比較困難了。
這個(gè)問(wèn)題的解決方案來(lái)自于2016年的一份論文《錨定語(yǔ)音檢測(cè)》(Anchored Speech Detection)。一開(kāi)始,我們得到喚醒詞“Alexa”,我們使用一個(gè)RNN從中提取一個(gè)“錨定嵌入”(Anchor embedding),這代表了喚醒詞里包含語(yǔ)音特征。接下來(lái),我們用了另一個(gè)不同的RNN,從后續(xù)的請(qǐng)求語(yǔ)句中提取語(yǔ)音特征,基于此得出一個(gè)端點(diǎn)決策。這就是我們解決雞尾酒派對(duì)難題的方法。
“雙連音片段”
Alexa里的語(yǔ)音合成技術(shù),也用在了Polly里。語(yǔ)音合成的步驟一般包括:
第一步,將文本規(guī)范化。如果你還記得的話,這一步驟恰是對(duì)“語(yǔ)音識(shí)別”里的最后一個(gè)步驟的逆向操作。 第二步,把字素轉(zhuǎn)換成音素,由此得到音素串。 第三步是關(guān)鍵的一步,也是最難的一步,就是將音素生成波形,也就是真正的聲音。 最后,就可以把音頻播放出來(lái)了。
Alexa擁有連續(xù)的語(yǔ)音合成。我們錄下了數(shù)小時(shí)人的自然發(fā)音的音頻,然后將其切割成非常小的片段,由此組成一個(gè)數(shù)據(jù)庫(kù)。這些被切割的片段被稱為“雙連音片段”(Di-phone segment),雙連音由一個(gè)音素的后半段和另一個(gè)音素的前半段組成,當(dāng)最終把語(yǔ)音整合起來(lái)時(shí),聲音聽(tīng)起來(lái)的效果就比較好。
創(chuàng)建這個(gè)數(shù)據(jù)庫(kù)時(shí),要高度細(xì)致,保證整個(gè)數(shù)據(jù)庫(kù)里片段的一致性。另外一個(gè)重要環(huán)節(jié)是算法方面的,如何選擇最佳片段序列結(jié)合在一起形成最終的波形。首先要弄清楚目標(biāo)函數(shù)是什么,來(lái)確保得到最合適的“雙連音片段”,以及如何從龐大的數(shù)據(jù)庫(kù)里搜索到這些片段。比如,我們會(huì)把這些片段標(biāo)簽上屬性,我今天會(huì)談到三個(gè)屬性,分別是音高(pitch)、時(shí)長(zhǎng)(duration)和密度(intensity),我們也要用RNN為這些特征找到目標(biāo)值。之后,我們?cè)跀?shù)據(jù)庫(kù)中,搜索到最佳片段組合序列,然后播放出來(lái)。
評(píng)論