谷歌多模態(tài)預(yù)訓(xùn)練框架:視頻字幕、動(dòng)作分類、問答全部實(shí)現(xiàn)SOTA
一個(gè)模型在五項(xiàng)基準(zhǔn)上都實(shí)現(xiàn)了重大進(jìn)步,該研究已被 CVPR 2022 大會(huì)收錄。
多模態(tài)視頻字幕系統(tǒng)利用視頻幀和語音來生成視頻的自然語言描述(字幕)。這樣的系統(tǒng)是朝著構(gòu)建多模態(tài)對(duì)話系統(tǒng)的長期目標(biāo)前進(jìn)的一步,后者可以輕松地與用戶交流,同時(shí)通過多模態(tài)輸入流感知環(huán)境。
與關(guān)鍵挑戰(zhàn)在于處理和理解多模態(tài)輸入視頻的視頻理解任務(wù)不同,多模態(tài)視頻字幕的任務(wù)包括生成實(shí)用化字幕的額外挑戰(zhàn)。這項(xiàng)任務(wù)被采用最廣泛的方法是使用手動(dòng)注釋數(shù)據(jù)聯(lián)合訓(xùn)練編碼器 - ****網(wǎng)絡(luò)。
然而,由于缺乏大規(guī)模的人工標(biāo)注數(shù)據(jù),為視頻注釋可用字幕的任務(wù)是非常耗費(fèi)人力的,在許多情況下不切實(shí)際。VideoBERT 和 CoMVT 等先前的研究通過利用自動(dòng)語音識(shí)別(ASR)對(duì)未標(biāo)記視頻的模型進(jìn)行預(yù)訓(xùn)練。然而,此類模型通常無法生成自然語言句子,因?yàn)樗鼈內(nèi)鄙?***,因此只有視頻編碼器被轉(zhuǎn)移到下游任務(wù)。
在 CVPR 2022 大會(huì)上發(fā)表的論文《End-to-end Generative Pretraining for Multimodal Video Captioning》上,谷歌研究人員為多模態(tài)視頻字幕引入了一種全新的預(yù)訓(xùn)練框架,被稱為多模態(tài)視頻生成預(yù)訓(xùn)練或 MV-GPT,它從未標(biāo)記的視頻中聯(lián)合訓(xùn)練多模態(tài)視頻編碼器和句子****,以輸出未來語句文本,制定新的雙向生成任務(wù)作為目標(biāo)。
論文鏈接:https://arxiv.org/pdf/2201.08264.pdf
實(shí)驗(yàn)證明 MV-GPT 的能力可以有效地轉(zhuǎn)移到多模態(tài)視頻字幕上,在各種基準(zhǔn)測試中取得了 SOTA 結(jié)果。此外,多模態(tài)視頻編碼器在多種視頻理解任務(wù)方面具有競爭力,例如 VideoQA、文本視頻檢索和動(dòng)作識(shí)別。
未來語句作為附加文本信號(hào)
通常,用于多模態(tài)視頻字幕的每個(gè)訓(xùn)練視頻剪輯都要與兩個(gè)不同的文本相關(guān)聯(lián):其一作為多模態(tài)輸入流的一部分,與剪輯對(duì)齊的語音轉(zhuǎn)錄本;其二是目標(biāo)字幕,通常需要手動(dòng)注釋。編碼器需要學(xué)習(xí)將文本中的信息與視覺內(nèi)容融合,目標(biāo)標(biāo)簽用于訓(xùn)練****進(jìn)行生成。
但在未標(biāo)記視頻的情況下,每個(gè)視頻剪輯僅帶有來自 ASR 的腳本,沒有手動(dòng)注釋的目標(biāo)標(biāo)簽。此外,我們不能對(duì)編碼器輸入和****目標(biāo)使用相同的文本(ASR 轉(zhuǎn)錄本),因?yàn)檫@對(duì)生成目標(biāo)沒有多少意義。
MV-GPT 通過利用未來的話語作為附加文本信號(hào)并啟用編碼器和****的聯(lián)合預(yù)訓(xùn)練來規(guī)避這一挑戰(zhàn)。但是,訓(xùn)練模型以生成通常不以輸入內(nèi)容為基礎(chǔ)的未來話語效果并不理想。因此,谷歌應(yīng)用了一種新的雙向生成損失函數(shù)來加強(qiáng)與輸入的關(guān)聯(lián)。
雙向生成損失
我們可以通過制定包括前向和后向生成的雙向生成損失來緩解非基礎(chǔ)文本生成的問題。前向生成在給定視覺框架及其相應(yīng)的轉(zhuǎn)錄本的情況下生成未來語句,并允許模型學(xué)習(xí)將視覺內(nèi)容與其相應(yīng)的轉(zhuǎn)錄本融合。反向生成采用視覺幀和未來語句來訓(xùn)練模型,以生成包含更多視頻剪輯基礎(chǔ)文本的腳本。
MV-GPT 中的雙向生成損失允許對(duì)編碼器和****進(jìn)行訓(xùn)練以處理基于視覺的文本。
MV-GPT 中的雙向生成,已訓(xùn)練兩代損失。在前向生成中,模型在給定幀和當(dāng)前話語(紅色框)的情況下生成未來話語(藍(lán)色框),而現(xiàn)在是從后向生成中的未來話語生成的。兩個(gè)特殊的句首標(biāo)記([BOS-F] 和 [BOS-B])為****啟動(dòng)前向和后向生成。
多模態(tài)視頻字幕生成結(jié)果
研究人員將 MV-GPT 與使用相同模型架構(gòu)的現(xiàn)有預(yù)訓(xùn)練損失進(jìn)行比較,在 YouCook2 上使用標(biāo)準(zhǔn)評(píng)估指標(biāo)(Bleu-4、Cider、Meteor 和 Rouge-L)。雖然所有預(yù)訓(xùn)練技術(shù)都可以提高字幕性能,但聯(lián)合預(yù)訓(xùn)練****提高模型性能的效果最為明顯。
實(shí)驗(yàn)證明了 MV-GPT 比之前最先進(jìn)的聯(lián)合預(yù)訓(xùn)練方法高出 3.5% 以上,并且在所有四個(gè)指標(biāo)上都有相對(duì)增益。
MV-GPT 在 YouCook2 上不同預(yù)訓(xùn)練損失的四個(gè)指標(biāo)(Bleu-4、Cider、Meteor 和 Rouge-L)。「預(yù)訓(xùn)練部分」表示模型的哪些部分是預(yù)訓(xùn)練的 —— 僅編碼器或編碼器和****。作者重新實(shí)現(xiàn)了現(xiàn)有方法的損失函數(shù),但使用新模型和訓(xùn)練策略進(jìn)行公平比較。
研究人員將 MV-GPT 預(yù)訓(xùn)練的模型轉(zhuǎn)移到四個(gè)不同的字幕基準(zhǔn):YouCook2、MSR-VTT、ViTT 和 ActivityNet-Captions 上。
谷歌的模型在所有四個(gè)基準(zhǔn)測試中都以顯著優(yōu)勢實(shí)現(xiàn)了最先進(jìn)性能。例如在 Meteor 指標(biāo)上,MV-GPT 在所有四個(gè)基準(zhǔn)測試中都顯示出超過 12% 的相對(duì)改進(jìn)。
業(yè)內(nèi)最佳方法和 MV-GPT 在四個(gè)基準(zhǔn)上的度量分?jǐn)?shù)。
盡管 MV-GPT 是旨在訓(xùn)練多模態(tài)視頻字幕的生成模型,但研究發(fā)現(xiàn)新預(yù)訓(xùn)練技術(shù)學(xué)習(xí)了一個(gè)強(qiáng)大的多模態(tài)視頻編碼器,可應(yīng)用于多種視頻理解任務(wù),包括 VideoQA、文本視頻檢索和動(dòng)作分類等任務(wù)。
與最佳可比基線模型相比,從 MV-GPT 遷移的模型在五個(gè)視頻理解基準(zhǔn)的主要指標(biāo)上表現(xiàn)出卓越的性能 —— 如在 VideoQA 和動(dòng)作分類基準(zhǔn)的 top 1 準(zhǔn)確度,以及檢索基準(zhǔn)的召回率上。
在五個(gè)視頻理解基準(zhǔn)上將 MV-GPT 與最佳可比基線模型進(jìn)行比較。對(duì)于每個(gè)數(shù)據(jù)集,此處報(bào)告了廣泛使用的主要指標(biāo),即 MSRVTT-QA 和 ActivityNet-QA:Top-1 回答準(zhǔn)確率;MSR-VTT:Recall at 1;和 Kinetics:Top-1 分類準(zhǔn)確度。
總結(jié)
本文介紹了 MV-GPT,一種用于多模態(tài)視頻字幕的新生成預(yù)訓(xùn)練框架。它通過雙向生成目標(biāo),使用在未標(biāo)記視頻中不同時(shí)間采樣的話語聯(lián)合預(yù)訓(xùn)練多模態(tài)編碼器和字幕****。該預(yù)訓(xùn)練模型在多個(gè)視頻字幕基準(zhǔn)和其他視頻理解任務(wù)(如 VideoQA、視頻檢索和動(dòng)作分類)上取得了最先進(jìn)的結(jié)果。
原文鏈接:https://ai.googleblog.com/2022/06/end-to-end-generative-pre-training-for.html
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。