在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > “目標(biāo)檢測”+“視覺理解”實(shí)現(xiàn)對(duì)輸入圖像的理解及翻譯

            “目標(biāo)檢測”+“視覺理解”實(shí)現(xiàn)對(duì)輸入圖像的理解及翻譯

            發(fā)布人:CV研究院 時(shí)間:2022-07-23 來源:工程師 發(fā)布文章

            提出了GLIPv2,一種基于VL的理解模型,它服務(wù)于localization任務(wù)例如,目標(biāo)檢測、實(shí)例分割)和視覺語言(VL)理解任務(wù)(例如,VQA、圖像字幕)。


            01

            概述


            GLIPv2優(yōu)雅地將localization預(yù)訓(xùn)練和視覺語言預(yù)訓(xùn)練 (VLP) 與三個(gè)預(yù)訓(xùn)練任務(wù)相結(jié)合:phrase grounding作為檢測任務(wù)的VL重構(gòu),區(qū)域-詞對(duì)比學(xué)習(xí)作為新的區(qū)域-詞級(jí)對(duì)比學(xué)習(xí)任務(wù)和掩碼語言建模。這種統(tǒng)一不僅簡化了之前的多階段VLP程序,而且實(shí)現(xiàn)了定位和理解任務(wù)之間的互惠互利。實(shí)驗(yàn)結(jié)果表明,單個(gè)GLIPv2模型(所有模型權(quán)重共享)在各種定位和理解任務(wù)上實(shí)現(xiàn)了接近SoTA的性能。該模型還展示了:

            • 在開放詞匯目標(biāo)檢測任務(wù)上的強(qiáng)大的零樣本和少樣本自適應(yīng)性能;
            • 在 VL 理解任務(wù)上的出色grounding能力

            02

            背景


            最近,人們普遍關(guān)注構(gòu)建通用視覺系統(tǒng),也稱為視覺基礎(chǔ)模型,它可以同時(shí)解決各種視覺任務(wù),例如圖像分類、物體檢測,以及視覺語言 (VL) 理解。特別感興趣的是定位任務(wù)(例如,目標(biāo)檢測和分割)和VL理解任務(wù)(例如,VQA和圖像字幕)之間的統(tǒng)一。

            localization預(yù)訓(xùn)練有利于VL任務(wù),“l(fā)ocalization->VLP”兩階段預(yù)訓(xùn)練過程是VL社區(qū)。一個(gè)長期存在的挑戰(zhàn)是localization和理解的統(tǒng)一,旨在這兩種任務(wù)之間互惠互利,簡化預(yù)訓(xùn)練程序并降低預(yù)訓(xùn)練成本。

            然而,這兩種任務(wù)似乎有很大的不同:定位任務(wù)僅是視覺任務(wù),需要細(xì)粒度的輸出(例如,邊界框或像素掩碼),而VL理解任務(wù)強(qiáng)調(diào)兩種模式之間的融合,需要高級(jí)語義輸出。例如,答案或標(biāo)題)。


            03

            新框架


            圖片

            Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.

            A Unified VL Formulation and Architecture

            GLIPv2統(tǒng)一公式的核心是分類匹配技巧,它將任何特定于任務(wù)的固定詞匯分類問題重新表述為與任務(wù)無關(guān)的開放詞匯視覺語言匹配問題。最好的例子是在CLIP中將圖像分類重新表述為圖像-文本匹配,這使模型能夠直接從原始圖像-文本數(shù)據(jù)中學(xué)習(xí),并在開放詞匯分類任務(wù)上實(shí)現(xiàn)強(qiáng)大的零樣本結(jié)果。在GLIPv2 中,我們用視覺語言匹配點(diǎn)積層替換了傳統(tǒng)單模態(tài)視覺模型中的每個(gè)語義分類線性層。

            圖片

            GLIPv2 Pre-training

            GLIPv2使用三個(gè)預(yù)訓(xùn)練損失進(jìn)行預(yù)訓(xùn)練:來自目標(biāo)檢測任務(wù)的視覺語言重構(gòu)的phrase grounding損失Lground、來自新的區(qū)域單詞級(jí)別對(duì)比學(xué)習(xí)任務(wù)的區(qū)域單詞對(duì)比損失 Linter,以及標(biāo)準(zhǔn)掩碼BERT中提出的語言建模損失Lmlm。

            圖片

            Transfer GLIPv2 to Localization and VL Tasks

            我們引入了兩種輕松將GLIPv2傳輸?shù)礁鞣N下游任務(wù)的方法。此外,GLIPv2可以在本地化的同時(shí)執(zhí)行傳統(tǒng)的VL任務(wù)(例如VQA),有效地使我們認(rèn)為的每項(xiàng)任務(wù)都成為“基礎(chǔ)的VL理解”任務(wù)。

            圖片

            GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.


            04

            實(shí)驗(yàn)及可視化


            圖片

            圖片

            圖片

            圖片


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉