在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            新聞中心

            EEPW首頁 > 智能計算 > 設計應用 > 人工智能與語音識別技術

            人工智能與語音識別技術

            作者:胡郁 時間:2016-03-28 來源:電子產品世界 收藏
            編者按:隨著深度神經網絡在大規(guī)模語音識別任務上獲得顯著效果提升,大數(shù)據的不斷完善和漣漪效應的提出,在近十年,中國的人工智能也得到了快速發(fā)展。作為國內智能語音與人工智能產業(yè)領導者的科大訊飛率先將遞歸神經網絡和卷積神經網絡應用到真實在線系統(tǒng)中,并提出了全新的深度神經網絡結構FSMN——訊飛構型。

            摘要:隨著在大規(guī)模語音識別任務上獲得顯著效果提升,大數(shù)據的不斷完善和漣漪效應的提出,在近十年,中國的人工智能也得到了快速發(fā)展。作為國內智能語音與人工智能產業(yè)領導者的科大訊飛率先將應用到真實在線系統(tǒng)中,并提出了全新的結構FSMN——

            本文引用地址:http://www.biyoush.com/article/201603/288901.htm

            人工智能的三個層面

              2014年8月20日,在國家會議中心,科大訊飛宣布其人工智能的整體戰(zhàn)略——訊飛超腦計劃,正式成立??拼笥嶏w超腦計劃的首次發(fā)布時,科大訊飛就對人工智能做了一個清晰的分割和鑒定,它把人工智能劃分成三個層面。第一個層面是運算智能,讓機器具備了能存會算的能力;第二個層面是感知智能,讓機器能聽會說能看會認;但是最有挑戰(zhàn)性的,也是我們人區(qū)別于動物的最大的能力,就是我們的認知智能。即認識和知道,能理解會思考,這樣一個能力。

            人工智能發(fā)展三要素——、大數(shù)據和漣漪效應當

              世界因為人工智能而改變的時候,我們開始思考為什么人工智能可以在過去的十年取得如此大的進步。胡郁先生認為,其實,雖然在整個學術界眾說紛紜,但是慢慢的大家越來越趨向于三個關鍵的因素。即,深度神經網絡、大數(shù)據和漣漪效應。

              深度神經網絡其實只是統(tǒng)計模式識別的一個很小的分支。但是它卻和我們現(xiàn)在大的IT產業(yè)的發(fā)展背景很好地結合在一起。因為現(xiàn)在統(tǒng)計模式識別辦法想要發(fā)揮出人工智能的威力,就要有深度神經網絡能夠更好的使用以及互聯(lián)網和移動互聯(lián)網時代得到越來越多的大數(shù)據為大基礎。

              漣漪效應是科大訊飛提出的,是指互聯(lián)網和移動互聯(lián)網,把每個用戶的經驗和知識數(shù)據加入到我們核心技術研發(fā)過程中來的一種效應。像是一個水滴滴到水面的時候,這個水面相當于所有的用戶人群,而這個水滴所激發(fā)起來的這個漣漪,其實是這個核心技術一開始的效果。一開始水滴滴入水面振幅會很大,說明它的效果并不好。就像大家今天看到科大訊飛的語音識別系統(tǒng)已經非常準確,但是在2010年科大訊飛第一次發(fā)布會發(fā)布其語音輸入法的時候,識別率慘不忍睹。在實驗室里面90%的正確率的識別系統(tǒng)放到真實環(huán)境下一用,正確率只有55%。但是只要這個系統(tǒng)在上線運行中,就會不斷地有用戶,他們會不斷的貢獻數(shù)據,從而為科大訊飛系統(tǒng)不斷改進提供助力。當這個水波紋擴散出去的時候,有更多人用的時候,系統(tǒng)已經是改進過以后的系統(tǒng)。當這個水波紋已經能覆蓋1000萬人,系統(tǒng)改進了以后,當一千萬零一個人來使用這個系統(tǒng)的時候,對他來講是第一次,他會覺得:哇!怎么這么好。 有了這三點我們繼續(xù)可以在語音和圖像的道路上持續(xù)的尋找下去。

            科大訊飛的發(fā)展歷程

              發(fā)布會上,胡郁先生為我們展示了科大訊飛在人工神經網絡方面的發(fā)展。其實真正將神經網絡應用在語音識別和圖像識別方面并取得成功應該是在2010年的7月份。而在2011年9月份,科大訊飛的研究人員在中國科學技術大學,就跟鄧力研究員進行了探討。在2011年的年底,科大訊飛就將深度神經網絡用于語音識別上,用于中文語音識別上第一個系統(tǒng)上線使用。在2012年4月份,在日本召開的,由微軟研究院的移動研究院做的報告中,將谷歌、微軟和訊飛,列為當時世界上,最先將深度神經網絡推薦使用的幾個公司和研究機構。此后,他們在2012年將深度神經網絡用于參數(shù)語音合成。利用了深度神經網絡的參數(shù)語音合成系統(tǒng),比我們原來使用的也是當時世界上最先進的,基于隱馬爾可夫模型的語音合成系統(tǒng)效果提升30%?,F(xiàn)在已經成為整個業(yè)界的標配。而在2013年,科大訊飛在語種識別方面,第一次提出了一種新型構型的深度神經網絡的構型。他們將當時的語種識別技術,在nist測試的最先進的系統(tǒng)的基礎上,又提高了30%?,F(xiàn)在也是整個業(yè)界標準的語種識別構型系統(tǒng)。2014年科大訊飛超腦技術發(fā)布,在超腦計劃里面他們又將深度神經網絡應用在更多方面。進入2015年后,我們看到了越來越多的成果。

            科大訊飛的最新進展——不一樣的

              我們聽了很長一段聲音之后,就能夠記憶起原來的東西,這是人腦的一個非常特別的功能叫做記憶能力。人腦的這個記憶能力非常特別,它包括瞬時記憶、短時記憶和長時記憶。深度神經網絡能夠比較好地模仿人類的大腦,但是深度神經網絡對于短時記憶的處理其實比較弱。最近國際上有一個新的名詞叫做RNN(Recurrent Neural Network,循環(huán)神經網絡),也是我們講的回歸神經網絡或。那么它相對傳統(tǒng)神經網絡的唯一改進就是他可以用前一個時刻的信息輸入到當前時刻,進而把原來的一些歷史信息能夠輸入到當前來提高它的記憶能力。

              一個真正的回歸神經網絡里面的工作系統(tǒng)是非常復雜的。它可能包括LSTM。這是一個長短時記憶系統(tǒng),它里面還包括一個雙向語音識別系統(tǒng)。這個回歸神經網絡,它會從正向識別一遍,還會從反向識別一遍。而如果想要得到更好的效果,他還需要加一個叫做CTC(Connectionist Temporal Classification)的系統(tǒng)。那么這個ctc的系統(tǒng),可以保證在整個句子層面上的成功率是最高的。其實在這過程中我們會遇到很多的難題,比如說這些疊加起來,它的效果可能不是那么好。第二個是,如果我們剛才要利用未來的信息來識別的話,它的響應時間會受到影響。更加重要的是,它是這么復雜的一個網絡,如果你要去訓練它,例如,訓練1萬小時可能要一個星期。沒有人能夠忍受得了這種訓練時間。

              對此,科大訊飛提出了自己的構型——FSMN(Feed-forward Sequential Memory Network,前饋型序列記憶網絡),即前饋序列記憶網絡。利用這種神經網絡,可以很好地有效地處理剛才碰到的各種問題。它可以把剛才的幾個優(yōu)點綜合在一起,它可以非常好的縮短響應時間,它還可以非常好的提升我們的訓練效果。現(xiàn)在我們1萬小時從原來的一個星期現(xiàn)在已經縮短到了一天。

              卷積網絡是仿照人類視覺機理,借鑒人類在大腦上處理的一些優(yōu)勢,形成一個自下而上逐步細化,從逐步地處理一些線條,局部輪廓到最后整個人臉。這樣的系統(tǒng)很好地仿照了人類大腦里面的結構。但是僅有這些還是遠遠不夠的,它在分析文字的時候還是會有一定誤差,處理圖像的時候,也略顯模糊。

              現(xiàn)在科大訊飛的卷積神經網絡將整個圖片處理、版面分析、文字分割和最后的處理完全集中在一起。它綜合性地使用了卷積神經網絡,延遲性神經網絡和我們的HMM的系統(tǒng)。當把這些系統(tǒng)綜合在一起的時候,能夠更好地分析圖文任務的一些具體的情況,這將使我們得到一個最好的效果。

            Neural Thinking Machine技術框架

              利用深度神經網絡可以把語音識別和圖像識別都提升到一個非常高的層次,但是人類最重要的是認知。

              人腦的大腦皮層是人區(qū)別于動物最顯著的一個腦結構變化,如果把人類的大腦皮層完全攤開的話,大概相當于一個桌布那么大。但是科學家研究表明這個桌布上的不同區(qū)域的功能是完全不一樣的。中間有一部分是專門管視覺的,它會把你臉的各個細節(jié)處理的非常好。還有一部分是管聽覺的,還有一部分是用來管觸覺的。但是這些在感知層面上的各種信息都會匯聚到認知層面。就是概念語言與概念表達和理解。

              當我們看到一只貓臉的時候,其實我們馬上腦袋里面就會形成一個貓的概念,這個時候我們腦袋里面會同時知道貓的叫聲,我們知道摸貓會是一種什么樣的感覺。多種不同感知內容最后會匯聚到我們的認知層面上。根據這種啟發(fā),科大訊飛在訊飛超腦里面建立了感知和認知的綜合智能引擎的布局。在感知智能方面有Neural Viewing Machine、Neural Reading Machine、Neural Listening Machine。它們分別會主管看到的東西、閱讀和聽覺。當這些東西感知到很多的信息以后,它會被送到上面的一個叫做Neural Thinking Machine的地方,在這個地方所有概念會進行匯聚,這些概念會進行推理,得出結論,從而幫助我們進行決策。而決策以后的結果會通過一個叫做Neural Experssing Machine的結果返回來。從而形成整個的,包括交互,包括人類所有智能問題的完整閉環(huán)。其實Neural Thinking Machine是科大訊飛認知的實現(xiàn)核心。在這個核心實現(xiàn)過程中,它主要實現(xiàn)包括我們講的語言的理解、知識的表達、邏輯的推理和最后的決策功能。為了實現(xiàn)這樣一個系統(tǒng),我們整個Neural Thinking Machine技術框架被定義成,在自然語言表述下的語言理解與生成以及知識表達與推理。(注:本文改編自2015年12月科大訊飛年度發(fā)布會的講話)


            本文來源于中國科技期刊《電子產品世界》2016年第3期第23頁,歡迎您寫論文時引用,并注明出處。



            評論


            相關推薦

            技術專區(qū)

            關閉