非自回歸生成研究最新綜述,近200篇文獻揭示挑戰(zhàn)和未來方向
在如機器翻譯、對話生成、語音合成等自然語言、語音等生成任務中,自回歸(auto-regressive,AR)生成是一種最常采用的生成方法。簡單來說,AR 生成指的是用迭代循環(huán)的方式來依次生成一句語音或文本。比如,為了生成一句長度為5的句子,AR 生成首先會生成第一個詞語,然后基于第一個詞語生成第二個詞語,再基于前二個詞語生成第三個詞語,以此類推。由于每次新的詞語生成都依賴于之前生成的詞語,因此自回歸的生成方式能夠保證生成的準確度。
但顯然,這樣循環(huán)的生成方式效率非常低,尤其是對生成長句子來說則更為明顯。為了加速生成過程,非自回歸(non-autoregressive,NAR)生成被提出,通過一次性并行地生成句子中所有詞語的方式,NAR 生成方法極大地提升了生成效率。然而,NAR 生成的準確率并沒有得到保證,其性能與自回歸生成相比仍有一定差距。因此,如何平衡好 AR 生成與 NAR 生成的優(yōu)劣,是當下生成任務的研究重點。
綜述概覽
NAR 生成在神經(jīng)機器翻譯 (neural machine translation,NMT) 中首次被提出,此后 NAR 生成便引起了機器學習和自然語言處理領(lǐng)域的廣泛關(guān)注。如前文所述,雖然 NAR 生成可以顯著提升機器翻譯的推理生成速度,但與 AR 生成相比,其加速是在犧牲翻譯準確性的代價上實現(xiàn)的。近年來,為了彌補 NAR 生成和 AR 生成之間的準確性差距,許多新的模型和算法陸續(xù)被提出。
為了促進 NAR 生成模型的發(fā)展,微軟亞洲研究院與蘇州大學的研究員們共同撰寫了綜述論文“A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond”(點擊閱讀原文,查看論文詳情 )。
在文章中,研究員們給出了一個系統(tǒng)、全面的綜述。首先,研究員們從不同方面比較和討論了各種非自回歸翻譯(non-autoregressive translation,NAT)模型,具體來說就是對 NAT 的工作進行了幾組不同的分類,包括數(shù)據(jù)操作(data manipulation)、建模方法(modeling methods)、訓練準則(training criteria)、解碼算法(decoding ways)以及利用預訓練模型(benefit from pre-training)。此外,研究員們還簡要總結(jié)回顧了 NAR 生成在機器翻譯之外的其他應用,例如對話生成、文本摘要、語法糾錯、語義解析、語音合成和自動語音識別等等。最后,研究員們討論了 NAR 未來值得繼續(xù)探索的潛在方向,包括減少對知識蒸餾(knowledge distillation,KD)的依賴性、動態(tài)解碼長度預測、NAR 生成的預訓練,以及更廣泛的應用。圖1展示了本篇綜述論文的整體結(jié)構(gòu)。
研究員們希望該綜述文章可以幫助研究人員更好地了解 NAR 生成的最新進展,啟發(fā)更先進的 NAR 模型和算法的設計,使行業(yè)從業(yè)者能夠根據(jù)其所在領(lǐng)域選擇合適的解決方案。
圖1:非自回歸(NAR)生成研究綜述概覽架構(gòu)圖
NAT 模型面臨的主要挑戰(zhàn)與解決方案
傳統(tǒng)的自回歸機器翻譯(autoregressive translation,AT)模型由編碼器和****構(gòu)成,編碼器對源語句進行編碼后輸至****,然后****根據(jù)源語句和上一步預測的目標端語言單詞來預測下一個單詞,這種逐字的生成方式限制了 AT 模型的解碼速度。而為了實現(xiàn)在訓練和推理時并行的解碼方式, NAT 僅僅依賴源語句信息來生成所有目標單詞,摒棄了目標端單詞之間的條件依賴。這種方式極大地加速了模型的解碼,但也增加了 NAR 模型的訓練難度,造成模型“難以建模目標語言單詞之間的條件信息”。
針對該挑戰(zhàn),現(xiàn)有的工作提出了多種解決方案。綜述文章對現(xiàn)有工作進行了分類,從數(shù)據(jù)、模型、損失函數(shù)、解碼算法、利用預訓練模型五個角度對相關(guān)方法進行了介紹和比較。其中,數(shù)據(jù)、模型和損失函數(shù)是自回歸文本生成模型的三個基本組成部分,這方面的工作旨在研究上述三個方面的傳統(tǒng)方法在 NAR 模型上的不足,并進行相應的改進;解碼算法和利用預訓練模型則是非自回歸文本生成模型中區(qū)別于 AR 生成的特殊模塊,包括目標語句長度預測、非自回歸預訓練等,這方面的工作旨在設計合理、有效的算法來最大化地提升 NAR 生成模型的效果。這幾方面的聯(lián)系如圖2所示。
圖2:非自回歸機器翻譯模型的主要框架。其中涉及數(shù)據(jù)處理、模型改進、訓練準則、解碼方式、預訓練模型的利用等。
具體來說,上述五個方面的改進如下:
1. 數(shù)據(jù)層面進行的改進,包括利用知識蒸餾來生成數(shù)據(jù)、設計數(shù)據(jù)學習算法等。利用預訓練 NAR 模型,基于知識蒸餾的方法將訓練集中的源語句進行翻譯,并將源語句和翻譯結(jié)果作為 NAR 模型的訓練集。這種方式可以減少訓練數(shù)據(jù)的多樣性,減輕 NAR 模型的訓練難度。請注意數(shù)據(jù)層面的方法是通用的方法,例如,基于知識蒸餾的方法被廣泛應用在文中介紹的大部分 NAR 生成模型中。
2. 模型層面進行的改進,包括設計迭代式模型、基于隱變量的模型以及增強****模型結(jié)構(gòu)等。其中,迭代式模型將原始一次解碼的 NAR 模型擴展成為多次迭代解碼的模型,這樣在進行每輪迭代時,上一輪迭代的結(jié)果可以作為目標語言端的依賴信息,將一次解碼的難度分攤到多次迭代中,從而提升 NAR 模型的效果。與一次解碼的 NAR 模型相比,迭代式的模型翻譯效果更好,但也犧牲了一部分翻譯速度,是屬于 AR 模型和 NAR 模型的中間態(tài)。
3. 損失函數(shù)層面進行的改進,主要針對傳統(tǒng)交叉熵損失函數(shù)的問題,提出一系列改進方法,包括基于 CTC、n-gram、以及引入順序信息的損失函數(shù)。其中,由于 n-gram 的方法針對傳統(tǒng)的交叉熵損失函數(shù)只能提供單詞級別的監(jiān)督信息而無法提供全局信息,研究員們提出了優(yōu)化預測和目標之間 Bag of N-gram 差異的損失函數(shù),以補充交叉熵損失函數(shù)中缺失的全局信息,以更好地對 NAR 模型進行優(yōu)化。
4. 解碼算法層面進行的改進,包括對 NAR 模型的長度預測模塊進行改進,以及對傳統(tǒng)解碼算法的改進。由于 NAR 模型無法像 AR 模型一樣隱式地在解碼過程中決定目標語句的長度,因此需要在解碼過程開始前就對目標語句的長度進行顯式預測。這個步驟十分重要,因為目標語句的長度是否匹配直接影響模型最終的翻譯效果。因此,類似自回歸解碼中的 Beam Search,有模型提出了提升長度預測準確率的方法,如多個長度并行解碼等。這些方法也被廣泛應用在 NAR 模型中。
5. 利用預訓練模型的方法,包括利用自回歸教師翻譯模型的方法,和利用單語大規(guī)模預訓練語言模型的方法。其中,由于 NAR 模型和 AR 模型結(jié)構(gòu)相似,并且 AR 模型的翻譯準確度更高,因此很多方法提出利用預訓練的 AR 模型來額外監(jiān)督 NAR 模型的訓練,包括在隱變量層面引入額外監(jiān)督信息,和基于課程學習的遷移學習方法等。
研究員們將文中討論的相關(guān)論文按照類別列在了表1中,供大家查閱。
表1:針對 NAT 模型5個方面的研究總結(jié)以及具體的相關(guān)工作
關(guān)于探索 NAR 的開放性問題和未來方向
NAR 除了在 NMT 中的應用之外,還在其它許多的任務中也得到了擴展應用,其中包括文本生成任務,如文本補全、摘要生成、語法糾正、對話、風格變化,語義解析任務,文本語音轉(zhuǎn)化任務,語音翻譯任務等等。研究員們在綜述文章中給出了一些具體實例的介紹,同時也給出了這些相關(guān)工作的實現(xiàn)與資源列表。
為了促進未來 NAR 的發(fā)展,研究員們對當前 NAR 產(chǎn)生的問題進行了總結(jié),并對未來可能的方向進行了展望,具體包括:(1)如何能夠擺脫當下 NAR 嚴重依賴 AR 進行知識蒸餾的技術(shù)方案;(2)如何能夠降低迭代式 NAR 模型的計算復雜度以更好地關(guān)注純 NAR 模型;(3)動態(tài)的預測目標端文本的生成長度值得深入探索;(4)如何像 AR 模型一般將 NAR 模型擴展到多語言多任務的環(huán)境中是需要進一步關(guān)注的;(5)如何對 NAR 模型進行更好的預訓練。以上這些都是具有研究前景的研究問題。
希望通過本篇綜述,在不同領(lǐng)域進行生成任務研究的學者們能夠?qū)?NAR 生成有更全面的認識,并且激發(fā)創(chuàng)造更加先進的 NAR 模型,以促進 NAR 未來的發(fā)展,影響更廣闊的生成場景。
相關(guān)鏈接:
論文:
https://arxiv.org/pdf/2204.09269.pdf
GitHub:
https://github.com/LitterBrother-Xiao/Overview-of-Non-autoregressive-Applications
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。