“據(jù)我們所知,EchoSpeech 是第一個(gè)使用眼鏡框來進(jìn)行無聲語音識(shí)別的工作。論文發(fā)表之后我們收到了很多郵件。在發(fā)信人中,有即將被移除聲帶的癌癥患者、有語音障礙的孩子、也有來自醫(yī)生的。這些反饋激勵(lì)著我們更加努力地將本次成果帶出實(shí)驗(yàn)室,做出真正能夠改變?nèi)祟惿畹漠a(chǎn)品。”清華大學(xué)校友、目前正在美國康奈爾大學(xué)讀博的張瑞東表示。
圖 | 圖中張瑞東佩戴的眼鏡就是 EchoSpeech 設(shè)備(來源:Photo Courtesy of Dave Burbank)EchoSpeech 是一款新型可穿戴無聲語音識(shí)別系統(tǒng) ,它可以連續(xù)識(shí)別 31 條無聲語音指令,準(zhǔn)確率達(dá)到 95%,最高電池續(xù)航時(shí)間約 10 小時(shí)。其中,傳感器成本不超過 100 元,單片機(jī)處理器成本 300 元左右。,時(shí)長00:29(來源:ACM)無聲語音指的是只動(dòng)嘴、而聲帶不發(fā)聲的說話方式,有些類似于耳語(不嚴(yán)格區(qū)分的話,耳語也可以算作無聲語音)。不過,耳語本身必須發(fā)出一些聲音,而無聲語音則無需發(fā)出任何聲音。正在閱讀這篇文章的你可以嘗試一下耳語,但是不要送出氣流,這樣幾乎不會(huì)發(fā)出任何聲音,而嘴唇和舌頭依然會(huì)動(dòng)。對(duì)于公眾來說,無聲語音可能仍然是一個(gè)新鮮事物。但是,大家在日常中或多或少都會(huì)接觸到。比如,開會(huì)時(shí)和別人交流時(shí)的耳語。相比有聲語音來說,無聲語音最大的優(yōu)勢就是“無聲”。在一些安靜的場合,比如圖書館、會(huì)議中等,出聲地說話是不合適的;另外,在特別嘈雜的環(huán)境中,語音交流也會(huì)容易受到噪聲的影響。在這種情況之下,都可以使用耳語。而對(duì)于聲帶損傷者或殘疾人士來說,無聲語音可能是最接近語音交流的唯一選擇。在這個(gè)意義上,關(guān)于無聲語音的相關(guān)應(yīng)用具備很大的潛力。,時(shí)長09:30(來源:ACM)對(duì)于無聲語音識(shí)別這項(xiàng)技術(shù),已經(jīng)有很多課題組在研究。最成熟、最流行的是依靠計(jì)算機(jī)視覺的方案:即使用相機(jī)直接捕捉面部運(yùn)動(dòng)尤其是嘴唇的運(yùn)動(dòng)。這種方法的缺點(diǎn)十分明顯:它必須在用戶面前放置相機(jī),而這就涉及到普適性、功耗、隱私等問題。也正因此,目前面向可穿戴領(lǐng)域的解決方案多數(shù)還不成熟,在穿戴舒適度、功耗、系統(tǒng)等方面依舊欠佳。例如,在多支團(tuán)隊(duì)的研究成果中,都需要在口腔內(nèi)放置傳感器來追蹤舌頭運(yùn)動(dòng)。絕大多數(shù)方案只能識(shí)別說得比較清晰、語速較慢的離散指令,例如能識(shí)別單獨(dú)說出來的、中間有暫停的 1-2-3,但是無法識(shí)別連續(xù)說出來的 123。而張瑞東所在團(tuán)隊(duì)研發(fā)的 EchoSpeech,在穿戴舒適度和連續(xù)識(shí)別上有著明顯優(yōu)勢。在 EchoSpeech 的設(shè)計(jì)中,傳感器即小揚(yáng)聲器的麥克風(fēng),被安裝在眼鏡框的下邊緣。這時(shí),通過采用聲波感知技術(shù),就能探測面部運(yùn)動(dòng)尤其嘴唇的運(yùn)動(dòng),并以此來識(shí)別無聲語音。與同類成果相比,EchoSpeech 具有體積小、佩戴舒適、功耗低、隱私保護(hù)好等優(yōu)勢。同時(shí),在識(shí)別連續(xù)詞組/句子的能力上,EchoSpeech 也有著很大提升。
(來源:ACM)長期來看,無聲語音識(shí)別技術(shù)很有潛力作為普通語音識(shí)別的替代和補(bǔ)充。有研究顯示,隱私和社交尷尬是用戶不愿使用語音識(shí)別的重要因素 [1,2]。而無聲語音恰好解決這兩個(gè)問題,原因在于它可以擴(kuò)展語音輸入整體的應(yīng)用。另一方面,無聲語音還能把語音識(shí)別技術(shù)擴(kuò)展到更多場景中,例如有望讓用戶在工作環(huán)境下使用無聲語音控制設(shè)備,同時(shí)也能讓用戶使用無聲語音來與 AI 使用自然語言交流,這樣一來既能大大提高工作效率,也不會(huì)打擾到周圍人。不過短期來看,由于詞匯量、識(shí)別準(zhǔn)確率等方面的限制,要想實(shí)現(xiàn)大規(guī)模的應(yīng)用可能還不成熟。目前,最有希望將 EchoSpeech 用于控制音樂播放和社交軟件等。,時(shí)長03:53(來源:ACM)張瑞東表示:“一直以來,我們實(shí)驗(yàn)室都專注于可穿戴交互設(shè)備的研究。我的上一個(gè)項(xiàng)目 SpeeChin,也是一個(gè)無聲語音識(shí)別的工作。不同之處在于,SpeeChin 采用掛在項(xiàng)鏈上的紅外相機(jī)來捕捉下巴運(yùn)動(dòng),進(jìn)而去推斷無聲語音?!?/span>相比之前的工作,SpeeChin 在識(shí)別準(zhǔn)確率和設(shè)備舒適性上有著極大提高。但是,作為一種采用相機(jī)的方案,其依然存在功耗高、侵犯隱私等問題。正因?yàn)檫@些原因,該團(tuán)隊(duì)一直在開發(fā)應(yīng)用范圍更廣泛的感知技術(shù),比如聲波感知技術(shù)等。張瑞東表示:“為此我參與了一個(gè)名為 EarIO 的項(xiàng)目,期間我們利用耳機(jī)上的揚(yáng)聲器和麥克風(fēng),借助聲波感知技術(shù)通過捕捉耳后皮膚的微小震動(dòng)來重建面部表情。在 EarIO 獲得成功時(shí),我們立刻意識(shí)到了這項(xiàng)技術(shù)在其他方面的巨大潛力。于是開啟了本次 EchoSpeech 的項(xiàng)目?!?/span>立項(xiàng)之后,有兩個(gè)難題擺在張瑞東面前:一是尋找最合適的設(shè)備形態(tài),包括設(shè)備本身的形態(tài),以及傳感器的位置、角度和數(shù)量;二是提高系統(tǒng)性能,尤其是識(shí)別連續(xù)短語和句子的能力。在尋找設(shè)備形態(tài)上,他們嘗試了很多方案,比如耳機(jī)+外延的結(jié)構(gòu)、以及環(huán)繞頭部固定器+外延結(jié)構(gòu)等。但是,這類結(jié)構(gòu)的主要問題在于,在多次佩戴之后穩(wěn)定性欠佳。他們也嘗試過入耳式耳機(jī)、頭戴式耳機(jī)等結(jié)構(gòu),不過由于距離主要“發(fā)音器”(即說話時(shí)活動(dòng)的部分例如嘴唇、舌頭)比較遠(yuǎn),故在同等條件之下識(shí)別準(zhǔn)確率不甚理想,同時(shí)所需要的數(shù)據(jù)也更多。后來,張瑞東的導(dǎo)師想到了眼鏡?!皩?dǎo)師強(qiáng)烈建議我試一試眼鏡框,我之前對(duì)眼鏡框不是很有信心,因?yàn)樗x主要的‘發(fā)聲器’太遠(yuǎn)了。而且由于位置和角度的原因,并沒有合適的直線傳播路徑。但是,在嘗試中我意識(shí)到對(duì)于信號(hào)來說,其實(shí)并不需要直線傳播。”張瑞東說。眼鏡的好處之一在于穩(wěn)定性高,一般情況下眼鏡會(huì)被貼合地佩戴在頭上,在多次佩戴之后依然具備較好的穩(wěn)定性。并且,眼鏡和主要“發(fā)聲器”之間的相對(duì)距離比較穩(wěn)定。直到這時(shí),裝置的最終形態(tài)終于被確定下來:即在眼鏡框下緣布置傳感器,其中一側(cè)放置揚(yáng)聲器,另一側(cè)放置麥克風(fēng)。在提高系統(tǒng)性能上,他們并未使用先切割出來說話部分、再進(jìn)行識(shí)別的方法,而是使用端到端的方法,一次性地完成切割任務(wù)和識(shí)別任務(wù)。這樣一來,當(dāng)佩戴者不說話的時(shí)候,系統(tǒng)就會(huì)輸出空標(biāo)簽。至此,前面提到的兩個(gè)難題均被攻克,關(guān)于 EchoSpeech 的課題也正式宣告結(jié)束。日前,相關(guān)論文以《EchoSpeech:由聲學(xué)傳感驅(qū)動(dòng)的最小干擾眼鏡上的連續(xù)無聲語音識(shí)別》(EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing)為題發(fā)在 2023 ACM 人機(jī)交互國際會(huì)議上,該會(huì)議也被認(rèn)為是人機(jī)交互領(lǐng)域最負(fù)盛名的會(huì)議。張瑞東是論文第一作者,康奈爾大學(xué)教授張鋮擔(dān)任通訊作者 [3]。
圖 | 相關(guān)論文(來源:ACM)基于本次成果,張瑞東也將開展語音合成、以及擴(kuò)展詞匯量。假如可以實(shí)現(xiàn)語音合成,那么就能用于發(fā)音障礙人群身上,從而給他們提供一個(gè)真正的語音交互接口。而之所以打算拓展詞匯量,是因?yàn)槿绻氚褵o聲語音識(shí)別真正做成一個(gè)有用的產(chǎn)品,就必須能夠識(shí)別更多的單詞。長期來看,該團(tuán)隊(duì)希望無聲語音識(shí)別技術(shù)的表現(xiàn),能夠和普通語音識(shí)別相媲美,只有這樣才能討論更加長遠(yuǎn)的應(yīng)用。另據(jù)悉,張瑞東所在的團(tuán)隊(duì)專注于研究智能傳感器件,此前他們還曾造出可以檢測表情的耳機(jī)等創(chuàng)新設(shè)備。目前,該團(tuán)隊(duì)已有超過 20 項(xiàng)正在申請(qǐng)的美國專利和國際專利。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。