在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁(yè) > 博客 > ACL 2021 | 時(shí)空可控的圖片描述生成

            ACL 2021 | 時(shí)空可控的圖片描述生成

            發(fā)布人:MSRAsia 時(shí)間:2021-08-12 來(lái)源:工程師 發(fā)布文章

            編者按:一直以來(lái),圖片描述生成任務(wù)都是人工智能領(lǐng)域研究人員們關(guān)注的熱點(diǎn)話題。近期學(xué)術(shù)界提出的 Localized-Narratives 數(shù)據(jù)集,為圖片描述生成的可控性和可解釋性研究提供了新的機(jī)會(huì)?;诖?,微軟亞洲研究院的研究員們展開了深入研究,致力于對(duì)圖像描述生成任務(wù)中所涉及的語(yǔ)義概念進(jìn)行空間和時(shí)序關(guān)系上的控制,以提高其表現(xiàn)性能。同時(shí),研究員們還提出了一種新模型 LoopCAG,并通過(guò)一系列實(shí)驗(yàn)證明了其在多個(gè)層面的可控性優(yōu)勢(shì)。

            針對(duì)視覺(jué)信號(hào)和語(yǔ)言信號(hào)的對(duì)應(yīng)關(guān)系這一研究熱點(diǎn),研究員們從圖片描述生成的可控性角度給出了解答,但想要深度理解和研究這一問(wèn)題還有很長(zhǎng)的路要走。希望感興趣的讀者可以閱讀論文全文,并發(fā)表自己的獨(dú)特觀點(diǎn),和研究員們一起交流學(xué)術(shù)感想!

            圖片描述生成是一項(xiàng)非常經(jīng)典的人工智能任務(wù),但是隨著人們對(duì)其關(guān)注度的提高,如何控制生成的內(nèi)容還需要進(jìn)一步探究。為了生成用戶希望且具備事實(shí)依據(jù)的圖片描述,學(xué)術(shù)界近期提出了一個(gè)被稱為 Localized-Narratives 的數(shù)據(jù)集,并且將鼠標(biāo)軌跡作為一個(gè)額外的輸入,引入到圖片描述生成任務(wù)中。

            對(duì)此,微軟亞洲研究院的研究員們進(jìn)行了深入研究,發(fā)現(xiàn)鼠標(biāo)軌跡的引入可以增強(qiáng)圖片描述生成的可控性和可解釋性,同時(shí)研究員們還提出了一種新模型 LoopCAG,顯著提升了圖片描述生成的性能。相關(guān)論文“Control Image Captioning Spatially and Temporally”已被 ACL 2021 接收。(論文鏈接:https://aclanthology.org/2021.acl-long.157.pdf)

            軌跡控制的圖片描述生成任務(wù)可以定義為:當(dāng)給定一個(gè)圖像和代表用戶意圖的鼠標(biāo)軌跡時(shí),模型應(yīng)該生成與軌跡的每個(gè)部分相對(duì)應(yīng)的描述。例如,當(dāng)在圖1左側(cè)的圖像上畫上彩色軌跡時(shí),需要生成如圖1右側(cè)的描述。軌跡和標(biāo)有相同顏色的描述是相互對(duì)應(yīng)的。從圖1中可以看出,描述中的一些詞,例如 “person”、“horse”、“tree”,可以在空間上直接與圖片中的視覺(jué)對(duì)象一一對(duì)應(yīng)。同時(shí),生成描述的順序需要與軌跡的順序保持一致。

            1.png

            圖1:軌跡控制的圖片描述生成

            雖然,人們可以很容易地做到按軌跡的指示順序來(lái)描述圖片中的視覺(jué)對(duì)象 。但對(duì)于人工智能系統(tǒng)來(lái)說(shuō),如何識(shí)別、強(qiáng)調(diào)并沿著這些坐標(biāo)安排視覺(jué)語(yǔ)義,是一件非常困難且具有研究意義的事情。

            在這項(xiàng)工作中,微軟亞洲研究院的研究員們主要致力于對(duì)圖像描述生成任務(wù)中所涉及的語(yǔ)義概念進(jìn)行控制,其包含兩個(gè)層面:空間上的對(duì)應(yīng)關(guān)系和時(shí)序上的排列次序??臻g上的對(duì)應(yīng)關(guān)系是指,描述中的每一個(gè)詞都應(yīng)該在圖像的正確區(qū)域找到正確的對(duì)應(yīng);時(shí)序上的排列次序是指,描述和軌跡之間的語(yǔ)義順序應(yīng)該保持一致。

            軌跡控制圖片描述生成任務(wù)的形式化表述

            研究員們首先給出了針對(duì)這個(gè)問(wèn)題的形式化表述。對(duì)于視覺(jué)輸入,需要在圖像上應(yīng)用一個(gè)預(yù)先訓(xùn)練好的視覺(jué)目標(biāo)檢測(cè)器,得到一個(gè)對(duì)象級(jí)別的視覺(jué)特征集 V={v_1,…,v_N} ,其中包括 N 個(gè)視覺(jué)對(duì)象的向量表示。相對(duì)應(yīng)的文字描述則是生成目標(biāo),表示為一個(gè)字符序列 Y={y_1,…,y_l},其中 y_j 是第 j 個(gè)字符,l 是字符序列的長(zhǎng)度。

            原始軌跡輸入是一個(gè)帶有時(shí)間戳的軌跡點(diǎn)序列,將軌跡點(diǎn)序列按相同的時(shí)間窗口

            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

            電能表相關(guān)文章:電能表原理


            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉