在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 微軟翻譯突破百種語言和方言大關(guān)

            微軟翻譯突破百種語言和方言大關(guān)

            發(fā)布人:MSRAsia 時間:2021-10-21 來源:工程師 發(fā)布文章

            編者按:“ ??????? ???、?? ????、???????????? 、?????????”,你知道這句話里有幾種語言,它們又是什么意思么?其實這只是我國少數(shù)民族語言的一部分,依次為維吾爾語、蒙古語、哈薩克語和藏語的“你好”之意。這類文字我們在旅行中也時常能見到,比如,故宮里就有不少牌匾上有漢文、滿文和蒙文,只因大家看不懂,而常常被忽略。近日,微軟翻譯再添12種新語言和方言,其中就包括由微軟亞洲研究院提供技術(shù)支持的維語、 蒙語、藏語、土庫曼語、烏茲別克語等。目前,微軟翻譯共支持103種語言,讓你輕松實現(xiàn)跨國、跨地區(qū)交流無障礙。

            近日,微軟 Azure 認知服務翻譯的語言列表又添加了12種全新的語種和方言,微軟翻譯可以提供翻譯支持的語言總數(shù)已達103種!

            新增語言的母語使用者合計達8,460萬人,包括巴什基爾語、迪維希語、格魯吉亞語、吉爾吉斯語、馬其頓語、蒙古語(西里爾文字)、蒙古語(傳統(tǒng)文字)、韃靼語、藏語、土庫曼語、維吾爾語和烏茲別克語(拉丁文字)。微軟亞洲研究院為其中的七種語言和方言——迪維希語、蒙古語(西里爾文字)、蒙古語(傳統(tǒng)文字)、藏語、土庫曼語、維吾爾語和烏茲別克語(拉丁文字),提供了核心技術(shù)支持。目前最新版的微軟翻譯可以在全球56.6億人所使用的不同母語之間實現(xiàn)文本文檔的互譯。

            打破語言障礙:實現(xiàn)100+語言翻譯的自由

            微軟翻譯的核心使命是打破人與人之間的文化和語言障礙。為實現(xiàn)這一目標,微軟的研究員們不斷為這項服務增添新的語種和方言,同時確保所支持語言的機器翻譯達到并超過我們設(shè)置的高質(zhì)量標準。

            微軟研究院在20多年前首次開發(fā)出了機器翻譯系統(tǒng)。2003年,該機器翻譯系統(tǒng)將整個微軟知識庫(Microsoft Knowledge Base)從英文翻譯成了西班牙文、法文、德文、日文,并在微軟網(wǎng)站上發(fā)布了譯文版,使之成為當時互聯(lián)網(wǎng)上規(guī)模最大、面向公眾開放的初始機器翻譯應用。

            此后,微軟以統(tǒng)計機器翻譯(SMT)模型為基礎(chǔ),對系統(tǒng)做了進一步改良,并通過 Windows Live Translator、Translator API 以及作為微軟 Office 應用程序的內(nèi)置功能,向用戶提供翻譯服務。

            多年來,微軟已將世界上諸多常用的語言和方言添加到了微軟翻譯的系統(tǒng)中。而隨著人工智能技術(shù)的發(fā)展,微軟研究院開始采用神經(jīng)機器翻譯(NMT)技術(shù),將所有機器翻譯系統(tǒng)遷移到了基于 Transformer 架構(gòu)的神經(jīng)模型上,因此翻譯的流暢度和準確性獲得了大幅提升。

            引入 Transformer 架構(gòu)的 NMT 技術(shù),不僅可以利用包括單語語料數(shù)據(jù)在內(nèi)的更多數(shù)據(jù)來訓練超大模型,提升翻譯的整體質(zhì)量,也為構(gòu)建機器翻譯模型開辟了新的路徑,讓模型可以借助比先前更少的數(shù)據(jù)來進行訓練。多語言的 Transformer 架構(gòu)可以利用來自其他語言(通常屬于相同或相關(guān)的語系)的資料擴充訓練數(shù)據(jù),為低資源語言構(gòu)建翻譯模型。

            當全部技術(shù)都已準備就緒的同時,機器翻譯系統(tǒng)還必須要有一套數(shù)字化的并行文檔,其中包括目標語言版本的文檔,以及另一種已納入翻譯服務的語言的翻譯版文檔。但對于很多小語種來說,這些并行文檔中的平行語料很難獲得。幸運的是,微軟通過與語言社區(qū)的合作伙伴展開合作,可以獲取人工翻譯的文本,收集低資源語言的數(shù)據(jù)。這些社區(qū)伙伴通常是在各自社區(qū)任職的志愿者,他們通過咨詢社區(qū)成員和長者,不辭勞苦地收集雙語詞句。與社區(qū)合作伙伴的接觸始于2010年,當時微軟與社區(qū)負責災難響應的人員合作,在海地發(fā)生毀滅性地震后短短10天內(nèi),就為海地克里奧爾語構(gòu)建了一個翻譯系統(tǒng)。從那時起,越來越多的社區(qū)伙伴加入了社群,幫助微軟創(chuàng)建了多個語言系統(tǒng),例如苗族語、烏爾都語、瑪雅語、毛利語和因紐特語等等。

            盡管如此,缺少足夠的平行語料依然是小語種語言翻譯的最大難點。多年來,微軟亞洲研究院承擔了多個小語種語言和方言的模型構(gòu)建工作,將新技術(shù)融入其中,幫助解決語料問題。微軟亞洲研究院首席研究員秦濤表示,“基于源語言和目標語言的平行語料及單語語料,我們在訓練階段將多語言模型與 MASS 預訓練模型相結(jié)合,同時再利用相關(guān)大語種的豐富語料及單語語料來提升模型的翻譯質(zhì)量?!?/p>

            1.jpg

            圖 1:2016年,微軟利用神經(jīng)機器翻譯(NMT)技術(shù)提高了翻譯質(zhì)量,2019年,微軟采用 Transformer 架構(gòu)為低資源語言構(gòu)建了模型

            Azure 認知服務翻譯工具的技術(shù)能力

            Azure 認知服務中的翻譯工具由微軟翻譯提供支持,旨在幫助企業(yè)擴大其全球影響力,讓他們能夠快速、可靠并以合理的成本跨越語言障礙,用客戶的母語與之進行合作、交流并提供內(nèi)容服務。當然,這項服務還能幫助企業(yè)內(nèi)部來自不同國家的員工在溝通時打破語言障礙。

            Azure 認知服務翻譯工具將 NMT 模型納入微軟產(chǎn)品中,通過文本翻譯和文檔翻譯 API,為用戶提供服務,將純文本和復雜的文檔從一種語言翻譯成另一種語言。Azure 認知服務翻譯工具還包含自定義翻譯服務,該服務允許用戶使用自備翻譯存儲器構(gòu)建自定義的機器翻譯模型,用于翻譯他們在各自業(yè)務及相關(guān)領(lǐng)域中所使用的特定術(shù)語。用戶可以通過文本和文檔翻譯 API 使用這些自定義機器翻譯模型。為了實現(xiàn)音頻或語音內(nèi)容的翻譯,Azure 認知服務的翻譯工具和語音工具緊密集成,并通過 Azure 語音 SDK 為語音翻譯和多設(shè)備對話提供支持。

            Azure 認知服務翻譯工具及其支持的產(chǎn)品被用戶廣泛采用,用于網(wǎng)站內(nèi)容和 App 的本地化、為業(yè)務分析的對話和內(nèi)容及法證調(diào)查的內(nèi)容提供翻譯等諸多應用場景。該服務還無縫集成到微軟的許多產(chǎn)品中,每個人都可以隨時通過他們所選擇的語言來使用和創(chuàng)建內(nèi)容。集成了翻譯服務的微軟產(chǎn)品包括 Microsoft 365 中的文本和文檔翻譯、微軟 Edge 瀏覽器中的網(wǎng)頁翻譯、SwiftKey 中的消息翻譯、LinkedIn 中的用戶提交內(nèi)容翻譯、微軟翻譯 App 中的多語言對話翻譯等等。

            消除語言障礙是承諾,但仍任重道遠

            如果一個人并不能掌握承載特定信息的語言,那么技術(shù)如何才能幫助他獲取信息呢?在一個不斷縮小的世界中,人們又將如何更了解和欣賞彼此的文化?語言障礙阻礙了人們獲取某些重要信息,而這也是促使微軟致力于打破這些障礙的動因之一。將文本、文檔、語音和圖像從一種語言翻譯成另一種語言,將為實現(xiàn)這一目標發(fā)揮重要作用。

            微軟亞洲研究院高級研究員張冬冬認為,“語言作為文化的載體,其翻譯任務一方面促進了各種文化的交流,另一方面也在保護、復原那些正在消失或已經(jīng)消失的語言中所蘊含的人類知識、智慧文明。我們除了不斷提升主流語言機器翻譯質(zhì)量讓其接近人工翻譯水平外,同時也在考慮低資源和零資源語言的翻譯問題。機器翻譯技術(shù)是解決跨國家、跨地區(qū)、跨民族無障礙交流、文化傳承等問題的重要手段?!?/p>

            事實上,當翻譯語言覆蓋面達到世界語言總數(shù)的百分之一時,微軟就已經(jīng)為全球72%的人口打破了語言障礙。微軟的科研和技術(shù)人員在感到自豪的同時,也將以謙卑的態(tài)度繼續(xù)語言翻譯的探索與研究。未來,微軟將繼續(xù)滿懷激情地改進服務和解決方案,提升質(zhì)量,讓每個人都能獲取來自世界各地的內(nèi)容,消除語言差異帶來的分歧,同時保持對文化、傳統(tǒng)和歸屬感的尊重。

            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉