基于聽(tīng)覺(jué)特性的聲紋識(shí)別系統(tǒng)的研究
在本文的實(shí)驗(yàn)系統(tǒng)中,語(yǔ)音特征參數(shù)依次使用了12階LPCC以及12階MFCC。最后選定12階MFCC參數(shù)。本課題建立的是與文本有關(guān)的聲紋身份確認(rèn)系統(tǒng),用于測(cè)試模型是連續(xù)CHMM模型。
實(shí)驗(yàn)中我們用的是30 ms的漢明窗,依次計(jì)算它的特征參數(shù),分別使用了12階LPCC和12階MFCC(24個(gè)Mel濾波器,語(yǔ)音信號(hào)的幀長(zhǎng)度為256,信號(hào)的采樣頻率為8 000 Hz)和由此推導(dǎo)出的一階MFCC差分參數(shù)。LPCC特征和MFCC特征識(shí)別率比較如表4所示。
表4顯示了在測(cè)試人數(shù)為10人時(shí),在相同的幀長(zhǎng)下,MFCC特征的識(shí)別性能高于LPCC特征。這個(gè)結(jié)論又一次證明了倒譜特征的可區(qū)分性測(cè)度優(yōu)于LPCC特征。
實(shí)驗(yàn)中,我們把第一個(gè)說(shuō)話人的語(yǔ)音“9”,作為實(shí)驗(yàn)研究樣本。圖2是數(shù)字“9”的語(yǔ)音波形圖,圖3是數(shù)字“9”的語(yǔ)譜圖。
MFCC參數(shù)是按幀計(jì)算的,在這里語(yǔ)音幀長(zhǎng)度是256,信號(hào)采樣頻率是8 kHz,采用24個(gè)濾波器,MFCC特征階數(shù)是12。MFCC的優(yōu)點(diǎn)是在噪聲的環(huán)境下,可以表現(xiàn)出對(duì)環(huán)境更強(qiáng)的魯棒性。接下來(lái)一步要做的是對(duì)語(yǔ)音特征矢量序列進(jìn)行矢量量化,矢量量化的數(shù)據(jù)壓縮效果相當(dāng)好,因此進(jìn)行語(yǔ)音處理經(jīng)常要用到。在本文的實(shí)驗(yàn)中,采用LBG法聚類(lèi)生成碼書(shū)。矢量量化之后這些語(yǔ)音特征參數(shù)就轉(zhuǎn)變成語(yǔ)音模型。緊接著可以開(kāi)始進(jìn)行下一步的操作。
在訓(xùn)練階段,對(duì)數(shù)字1~9建立HMM模型,就要對(duì)10個(gè)人進(jìn)行每個(gè)數(shù)字10遍訓(xùn)練。第一天訓(xùn)練,第二天檢測(cè)。每天一遍,一共兩遍,首先把語(yǔ)音信號(hào)做端點(diǎn)檢測(cè),然后根據(jù)特征量計(jì)算出MFCC系數(shù)序列后,這里要用Baum-Welch算法建立各個(gè)說(shuō)話人的HMM模型庫(kù)。測(cè)試階段,先保持和訓(xùn)練階段一樣,提取說(shuō)話人測(cè)試語(yǔ)音中的特征矢量,然后根據(jù)維特比算法,并以各個(gè)說(shuō)話人的HMM模板為參照,計(jì)算出來(lái)該輸入序列的生成概率,根據(jù)最大的輸出概率進(jìn)行判決結(jié)果。對(duì)于本課題研究的身份確認(rèn)系統(tǒng),把概率值與判決門(mén)限相比較,其值大于或等于判決門(mén)限的聲音作為受測(cè)者本人的聲音被接受,小于門(mén)限的被拒絕。
2.2 實(shí)驗(yàn)結(jié)果分析
本文的實(shí)驗(yàn)是與文本有關(guān)的說(shuō)話人身份確認(rèn)系統(tǒng)。在實(shí)驗(yàn)中,分別按照不同人數(shù)進(jìn)行訓(xùn)練,但是測(cè)試語(yǔ)音數(shù)保持不變。任意抽3個(gè)人朗讀數(shù)字,在隨后的實(shí)驗(yàn)中我們依次確定實(shí)驗(yàn)人數(shù)為5,7和10時(shí),這時(shí)可以看出識(shí)別率會(huì)有一些大的差異。其結(jié)果如表5所示。
實(shí)驗(yàn)中的語(yǔ)音特征是MFCC,所用模型是連續(xù)CHMM,每一數(shù)字模型有4個(gè)狀態(tài)。在這個(gè)身份確認(rèn)系統(tǒng)中,在二值判定的前提下,確認(rèn)受測(cè)者是否是之前所認(rèn)定的某人。從表5可以看到識(shí)別的時(shí)間比較短,當(dāng)有10個(gè)人訓(xùn)練時(shí),識(shí)別率最大。為了訓(xùn)練出可靠的參數(shù)模型,必須加大訓(xùn)練集的數(shù)據(jù)。本實(shí)驗(yàn)由于條件限制,實(shí)驗(yàn)語(yǔ)音模板庫(kù)比較小,訓(xùn)練數(shù)據(jù)不太充足,影響系統(tǒng)的一定性能。當(dāng)訓(xùn)練數(shù)據(jù)足夠大時(shí),得修改補(bǔ)充一下程序的流程。本實(shí)驗(yàn)中系統(tǒng)的識(shí)別率達(dá)到了90%以上。
3 結(jié)論
本文的實(shí)驗(yàn)達(dá)到了預(yù)期的實(shí)驗(yàn)效果,基本完成了身份確認(rèn)的目標(biāo)。但是針對(duì)語(yǔ)音的特征提取和模式匹配,在實(shí)驗(yàn)中難免會(huì)出現(xiàn)一些誤差,出現(xiàn)誤認(rèn)識(shí)和拒認(rèn)識(shí)的偏差。對(duì)于說(shuō)話人確認(rèn)系統(tǒng),雖然說(shuō)從理論上來(lái)說(shuō),識(shí)別率和登錄的說(shuō)話者量無(wú)關(guān),但是實(shí)際上對(duì)于二值判定的說(shuō)話人確認(rèn)系統(tǒng)也會(huì)隨著登錄人數(shù)的增減而有所改變,怎么樣才能確保有足夠多的登錄者,登錄到說(shuō)話人確認(rèn)系統(tǒng)中,而它的識(shí)別率問(wèn)題仍然是一個(gè)很大的課題。
評(píng)論