ACL 2021 | 時(shí)空可控的圖片描述生成

發(fā)布人：MSRAsia 時(shí)間：2021-08-12 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：一直以來(lái)，圖片描述生成任務(wù)都是人工智能領(lǐng)域研究人員們關(guān)注的熱點(diǎn)話題。近期學(xué)術(shù)界提出的 Localized-Narratives 數(shù)據(jù)集，為圖片描述生成的可控性和可解釋性研究提供了新的機(jī)會(huì)?；诖?，微軟亞洲研究院的研究員們展開了深入研究，致力于對(duì)圖像描述生成任務(wù)中所涉及的語(yǔ)義概念進(jìn)行空間和時(shí)序關(guān)系上的控制，以提高其表現(xiàn)性能。同時(shí)，研究員們還提出了一種新模型 LoopCAG，并通過(guò)一系列實(shí)驗(yàn)證明了其在多個(gè)層面的可控性優(yōu)勢(shì)。

針對(duì)視覺(jué)信號(hào)和語(yǔ)言信號(hào)的對(duì)應(yīng)關(guān)系這一研究熱點(diǎn)，研究員們從圖片描述生成的可控性角度給出了解答，但想要深度理解和研究這一問(wèn)題還有很長(zhǎng)的路要走。希望感興趣的讀者可以閱讀論文全文，并發(fā)表自己的獨(dú)特觀點(diǎn)，和研究員們一起交流學(xué)術(shù)感想！

圖片描述生成是一項(xiàng)非常經(jīng)典的人工智能任務(wù)，但是隨著人們對(duì)其關(guān)注度的提高，如何控制生成的內(nèi)容還需要進(jìn)一步探究。為了生成用戶希望且具備事實(shí)依據(jù)的圖片描述，學(xué)術(shù)界近期提出了一個(gè)被稱為 Localized-Narratives 的數(shù)據(jù)集，并且將鼠標(biāo)軌跡作為一個(gè)額外的輸入，引入到圖片描述生成任務(wù)中。

對(duì)此，微軟亞洲研究院的研究員們進(jìn)行了深入研究，發(fā)現(xiàn)鼠標(biāo)軌跡的引入可以增強(qiáng)圖片描述生成的可控性和可解釋性，同時(shí)研究員們還提出了一種新模型 LoopCAG，顯著提升了圖片描述生成的性能。相關(guān)論文“Control Image Captioning Spatially and Temporally”已被 ACL 2021 接收。（論文鏈接：https://aclanthology.org/2021.acl-long.157.pdf）

軌跡控制的圖片描述生成任務(wù)可以定義為：當(dāng)給定一個(gè)圖像和代表用戶意圖的鼠標(biāo)軌跡時(shí)，模型應(yīng)該生成與軌跡的每個(gè)部分相對(duì)應(yīng)的描述。例如，當(dāng)在圖1左側(cè)的圖像上畫上彩色軌跡時(shí)，需要生成如圖1右側(cè)的描述。軌跡和標(biāo)有相同顏色的描述是相互對(duì)應(yīng)的。從圖1中可以看出，描述中的一些詞，例如 “person”、“horse”、“tree”，可以在空間上直接與圖片中的視覺(jué)對(duì)象一一對(duì)應(yīng)。同時(shí)，生成描述的順序需要與軌跡的順序保持一致。

圖1：軌跡控制的圖片描述生成

雖然，人們可以很容易地做到按軌跡的指示順序來(lái)描述圖片中的視覺(jué)對(duì)象。但對(duì)于人工智能系統(tǒng)來(lái)說(shuō)，如何識(shí)別、強(qiáng)調(diào)并沿著這些坐標(biāo)安排視覺(jué)語(yǔ)義，是一件非常困難且具有研究意義的事情。

在這項(xiàng)工作中，微軟亞洲研究院的研究員們主要致力于對(duì)圖像描述生成任務(wù)中所涉及的語(yǔ)義概念進(jìn)行控制，其包含兩個(gè)層面：空間上的對(duì)應(yīng)關(guān)系和時(shí)序上的排列次序?？臻g上的對(duì)應(yīng)關(guān)系是指，描述中的每一個(gè)詞都應(yīng)該在圖像的正確區(qū)域找到正確的對(duì)應(yīng)；時(shí)序上的排列次序是指，描述和軌跡之間的語(yǔ)義順序應(yīng)該保持一致。

軌跡控制圖片描述生成任務(wù)的形式化表述

研究員們首先給出了針對(duì)這個(gè)問(wèn)題的形式化表述。對(duì)于視覺(jué)輸入，需要在圖像上應(yīng)用一個(gè)預(yù)先訓(xùn)練好的視覺(jué)目標(biāo)檢測(cè)器，得到一個(gè)對(duì)象級(jí)別的視覺(jué)特征集 V={v_1,…,v_N} ，其中包括 N 個(gè)視覺(jué)對(duì)象的向量表示。相對(duì)應(yīng)的文字描述則是生成目標(biāo)，表示為一個(gè)字符序列 Y={y_1,…,y_l}，其中 y_j 是第 j 個(gè)字符，l 是字符序列的長(zhǎng)度。

原始軌跡輸入是一個(gè)帶有時(shí)間戳的軌跡點(diǎn)序列，將軌跡點(diǎn)序列按相同的時(shí)間窗口

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

電能表相關(guān)文章:電能表原理

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

ACL 2021 | 時(shí)空可控的圖片描述生成

相關(guān)推薦

技術(shù)專區(qū)