語音識別系統(tǒng)中增加圖像識別技術(shù)的設(shè)計

作者：時間：2007-03-09 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

摘要：采用機器視覺對語音對象進行跟蹤，利用說話人正常發(fā)音時，嘴部的開合狀況提取語速信息，實時調(diào)整語音識別的工作速度，匹配語音韻律，將有效提高語音識別準確性。討論了系統(tǒng)的設(shè)計原理和實現(xiàn)技術(shù)，著重介紹了對應輔助圖像識別的設(shè)計分析。關(guān)鍵詞：語音識別機器視覺圖像識別語音識別是機器自動語音識別（automatic speech recognition by machine）的簡稱。語音識別技術(shù)關(guān)系到多學科的研究領(lǐng)域，不同領(lǐng)域中的研究成果都對語音識別的發(fā)展作出了貢獻。讓機器識別語音的困難在某種程度上就像一個外語不好的人聽外圍人講話一樣，它與說話人、說話速度、說話內(nèi)容、環(huán)境條件有關(guān)。語音信號本身的特點造成了語音識別的困難。這些特點包括多變性、動態(tài)性、瞬時性和連續(xù)性等。計算機語音識別的過程與人對語音識別處理過程基本上是一致的。目前主流的語音識別技術(shù)是基于統(tǒng)計模式識別的基本理論。一個完整的語音識別系統(tǒng)可大致分為三部分：（1）語音特征提?。浩淠康氖菑恼Z音波形中提取出隨時間變化的語音特征序列。（2）聲學模型與模式匹配（識別算法）：聲學模型通常將獲取的語音特征通過學習算法產(chǎn)生。在識別時將輸入的語音特征與聲學模型（模式）進行匹配、比較，得到最佳的識別結(jié)果。（3）語言模型與語言處理：語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型，語言處理可以進行語法、語義分析。對小詞表語音識別系統(tǒng)，通常不需要語言處理部分。

聲學模型是識別系統(tǒng)的底層模型，并且是語音識別系統(tǒng)中最關(guān)系的一部分。聲學模型的目的是提供一種有效的方法，計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設(shè)計與語言發(fā)音特點密切相關(guān)。聲學模型單元大?。ㄗ职l(fā)音模型、半音字模型或音素模型）對語音訓練數(shù)據(jù)量大小、系統(tǒng)識別率以及靈活性有較大的影響。必須根據(jù)不同的語言的特點、識別系統(tǒng)詞匯量的大小決定識別單元的大小。語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當分類發(fā)生錯誤時可以根據(jù)語言學模型、語法結(jié)構(gòu)、語義學進行判斷糾正，特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令的語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系，減少了識別系統(tǒng)的搜索空間，這有利于提高系統(tǒng)的識別。語音識別過程實際上是一種認識過程。就像人們聽語音時，并不把語音和語言的語法結(jié)構(gòu)、語義結(jié)構(gòu)分開。因為當語音發(fā)音模糊時人們可以用這些和知識來指導對語言的理解過程，但是對機器來說，識別系統(tǒng)也要利用這些知識，只是如何有效地描述這些語法和語義還有困難：（1）小詞匯量語音識別系統(tǒng)：包括幾十個詞的語音識別系統(tǒng)。（2）中等詞匯量的語音識別系統(tǒng)：通常包括幾百個詞至上千個詞的識別系統(tǒng)。（3）大詞匯量語音識別系統(tǒng)：通常包括幾千至幾萬個詞的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。

由于有了種種困難，語音識別技術(shù)通常根據(jù)使用中的限制性要求，構(gòu)建成不同類型的系統(tǒng)，通常包括三類。其一為限制用戶的說話方式，這又可以分為孤立詞語音識別系統(tǒng)（isolate-word speech recognition system）、連接詞語音識別系統(tǒng)（connected-words speech recognition system）、連續(xù)語音識別系統(tǒng)（continue speech recopnition system）和即興口語語音識別系統(tǒng)（spontaneous speech recognition system）。其二為限制用戶的用詞范圍。第三種為限制系統(tǒng)的用戶對象。 1 增加圖像識別設(shè)計的目的如今的語音識別技術(shù)正在逐漸成熟，許多語音識別技術(shù)都已經(jīng)能夠達到很高的識別率了，不過當識別率到了一定的程度后，再提高就很困難，此時需要采用其他技術(shù)來協(xié)助語音的識別。目前的語音識別系統(tǒng)由于采用單一傳感器（聲音傳感器）進行工作，在進行語音識別時，不可能對捕獲的語音信息進行細分，只能采用定速率跟蹤識別，將語音信息與系統(tǒng)庫中的模板進行匹配判斷。如果捕獲信息的速率與存儲在系統(tǒng)庫中的模板相關(guān)不多，則能正常工作，否則將會出現(xiàn)誤判。然而現(xiàn)實生活中，人們說話不可能總保持相同的速率，而是不斷變化的，這勢必造成了語音識別系統(tǒng)的誤差增多，以致降低語音識別系統(tǒng)的實用性。人們在進行語音交流時，在捕獲語音信息的同時，也在獲取其他的信息以幫助理解，例如表情、神態(tài)等信息。如果得不到相關(guān)信息，人們相互之間也會產(chǎn)生誤解，例如當兩個人在相隔較遠距離時，由于不能清楚對方的表情、神態(tài)，經(jīng)常會出現(xiàn)理解錯誤的情況發(fā)生?？梢娛褂脝我坏男畔⑶赖拇_會增加理解難度，因此有必要考慮增加信息渠道來解決這個問題。這就是增加圖像識別功能的原因。對于語音識別系統(tǒng)，如果能像人一樣判斷語言對象的喜、怒、哀、樂，當然是最好的，但這勢必大大增加圖像識別的工作量，甚至超過語音識別的成本，不太合理。并且，由于技術(shù)的原因，還不能使機器有像人一樣的視覺能力，要讓機器能夠準確識別出人的各種表情還達不到，所以此種方案是不可取的。進一步分析知道，語音識別系統(tǒng)受語速的影響是很大的。人在正常講話時，嘴的開合狀態(tài)都是大同小異的，如果讓機器只對嘴的開合兩種情況進行判斷和實時跟蹤，得出講話人的語速信息，是能夠做到的。所以僅僅需要機器識別出人說話的速度，以此來調(diào)整語音識別的匹配速度，從而適合語音韻律，自然有利于系統(tǒng)的語音識別能力，提高識別的準確性。通過語速對語音識別系統(tǒng)的幫助，將為語音系統(tǒng)提供另一條實用的信息渠道。

采用語速作為系統(tǒng)的第二信息渠道，一旦系統(tǒng)跟蹤到了目標的語還，在協(xié)助語音識別的同時還能夠有效地排除與語音信息不同步的外界噪聲，因此系統(tǒng)能夠獲得更好的識別性能。 2 實現(xiàn)的技術(shù)及方法 2．1 系統(tǒng)總體設(shè)計概述語音系統(tǒng)采集說話人（語言對象）的兩路信息，一路由聲音傳感器取得，一路由攝像設(shè)備取得。攝像設(shè)備取得人的嘴型變化后，將之轉(zhuǎn)化為語速信息送到語音識別器與采集到的語音進行匹配識別，自動調(diào)節(jié)識別速度，更好地完成語音識別工作。系統(tǒng)的工作流程如圖1。 2．2 輔助圖像識別設(shè)計捕獲語言對象的說話速率是保證整個系統(tǒng)良好工作的關(guān)鍵。為了實現(xiàn)此目的，使用基于機器視覺的人嘴部狀態(tài)檢測方法來設(shè)計。由于對圖像的識別精度要求不高，可以選擇灰度圖像以提高運算速度。在速度允許的情況下，彩色圖像的識別精度會更高。 2．2．1 流程分析整個輔助圖像識別設(shè)計的目的就是通過機器視覺進行圖像采集、圖像處理，提取出說話人的語速信息供語音系統(tǒng)使用。以灰度圖像為例，其圖像處理過程如圖2。對于彩色圖像，特征量會更多一些，也就更復雜一些，但其基本步驟都是先完成圖像數(shù)字化，再進行圖像特片提取，最后進行圖像識別和理解。當完成圖像處理后，比較模塊將這一幀圖像與上一幀圖像的數(shù)據(jù)進行對比，判斷出變化，從而統(tǒng)計出語速信息，最后輸出給語音識別器進行匹配工作。

2．2．2 圖像處理算法設(shè)計（1）圖像分割經(jīng)過對人臉RGB像素的分析，發(fā)現(xiàn)人臉圖像中的R、G兩分量符合二維高斯分布。因此，可通過這兩個分量確定人臉的位置。在人臉定位的基礎(chǔ)上，根據(jù)人的嘴部處于人臉下半部分的特片，比較容易確定出嘴部的大致位置，它為嘴部精確定位提供了基本條件，如圖3所示。（2）圖像特征的提取根據(jù)系統(tǒng)要求，灰度圖像可以滿足需要，但由于嘴唇與皮膚的灰度差別不大，而且灰度信息更容量受到光照條件、人臉的運動和旋轉(zhuǎn)變化等影響，使人臉圖像中嘴唇區(qū)域邊緣不明顯，特別是當嘴唇內(nèi)部的陰影區(qū)域與牙齒交替出現(xiàn)時，嘴唇的邊緣變得更加模糊，所以利用唇色和膚色的灰度及邊緣信息分割不能達到很高的準確度。若要提高對嘴部狀況的識別準確度，可以利用彩色信息來對人嘴的形狀、位置進行確定。研究發(fā)現(xiàn)，嘴唇的主要顏色特征是唇色相對膚色顏色較紅，而且歸一化RGB顏色對光照、人臉運動和旋轉(zhuǎn)具有不變性。因此利用顏色信息，采用模式分類技術(shù)分割嘴唇區(qū)域，可以克服灰度圖像本身固有的缺點。由于Fisher線性分類器能夠最大限度地分開兩類，且其學習是離線處理，減少了計算量，因此可采用Fisher線性分類器進行嘴唇區(qū)域分割。人嘴在說話與正常情況下的外形有明顯的區(qū)別。說話時嘴部張開較大，而正常情況下，嘴部基本閉合（圖4）。因此，可以利用這些特征進行嘴部狀態(tài)的檢測。研究中發(fā)現(xiàn)，嘴部區(qū)域的最大寬度Wmax、最大高度Hmax能夠表征嘴部的張開程度，應取為特征值；上嘴唇與下嘴唇之間的高度Hmin在說話不說話時也有明顯不同，應取為特征值。將以上三個特征值組成一組向量，即可描述出不同狀態(tài)下的嘴部幾何特片，如圖5所示。將獲得的能夠描述人的嘴部區(qū)域幾何形狀特征參數(shù)組成一個特征向量Zui，即可作為下一步判別分類的輸入向量：Zui=(Wmax,Hmax,Hmin)。在進行識別時只要確定兩個狀態(tài)“開”、“合”即可。在實際中由于發(fā)音時不同的語音會導致嘴的開合程度不一，所以對“開”（Hmin>0）的區(qū)分會很多種情況，必然會極大地增加運算存儲量。相對而言，嘴的“閉合”狀態(tài)一般只有一種模式（Hmin=0），因此可以只確定說話人嘴的“閉合”狀態(tài)，其他狀態(tài)都判為“開”，這樣將方便處理。（3）圖像識別理解由于對識別精度要求不高，既可以采用傳統(tǒng)的統(tǒng)計模式識別方法，也可以采用較熱門的神經(jīng)網(wǎng)絡(luò)識別方法；但由于系統(tǒng)對實時要求較高，而神經(jīng)網(wǎng)絡(luò)識別方法運行速度成問題，因此不建議采用神經(jīng)網(wǎng)絡(luò)識別方法。 2．3 語速信息的提取選用合適的捕獲頻率不斷采集說話人的圖像，用當前幀的數(shù)據(jù)與上一幀數(shù)據(jù)進行比較，根據(jù)其變化的頻率就可以推算出語速信息。實際情況中，所求的語速信息不需要太精確就能夠達到一般要求。

3 應用展望語音識別是一種賦能技術(shù)，現(xiàn)有的很多人機交互界面都可能通過補充語音識別功能而得到改善。語音識別技術(shù)可以把費腦、費力、費時的機器操作變成一件很容易且有趣味性的事情，在許多“手忙”、“手不能用”、“手所不能及”、“懶得動手”的場景中，包括像駕駛室、一些危險的工業(yè)場合、家電控制等方面，高識別率的語音識別系統(tǒng)將會更加方便人的工作和生活。由于知識層次和知識領(lǐng)域的差異，現(xiàn)實生活中有相當一部分人很難享受到現(xiàn)代化生活帶來的便利，包括信息服務和其他各類先進設(shè)備可提供的幫助。高識別率語音識別技術(shù)有助于改善這種情況，使社會各個階層更多的人享受到更多的社會信息資源和現(xiàn)代化服務，提高整個社會的信息化程度和現(xiàn)代化速度。高識別率語音識別技術(shù)還將推出機器人智能技術(shù)的發(fā)展，由于機器人本來就要配置視覺系統(tǒng)，本方案很容易實現(xiàn)，提高了人與機器交互的能力。另外高識別率語音識別技術(shù)在語音錄入系統(tǒng)、會議實時記錄及同聲翻譯、記者采訪設(shè)備等方向有著廣闊的應用前景。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

新聞中心

語音識別系統(tǒng)中增加圖像識別技術(shù)的設(shè)計

評論

相關(guān)推薦

技術(shù)專區(qū)