在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > YOLOS:通過目標(biāo)檢測重新思考Transformer(附源代碼)

            YOLOS:通過目標(biāo)檢測重新思考Transformer(附源代碼)

            發(fā)布人:CV研究院 時間:2022-01-16 來源:工程師 發(fā)布文章

            最近我看了一些之前的檢測框架,發(fā)現(xiàn)有兩個很有意思,不錯的框架,接下來我給大家簡單分析下,希望給大家?guī)韯?chuàng)新的啟示!

            1.png

            論文地址:https://arxiv.org/pdf/2106.00666.pdf

            源代碼地址:https://github.com/hustvl/YOLOS

            1 前言

            Transformer能否從純序列到序列的角度執(zhí)行2D目標(biāo)級識別,而對2D空間結(jié)構(gòu)知之甚少?為了回答這個問題,今天就展示了“You Only Look at One Sequence” (YOLOS),這是一系列基于樸素視覺變換器的目標(biāo)檢測模型,具有盡可能少的修改和inductive biases。 

            2.png

            YOLOS-S, 200 epochs pre-trained, COCO AP = 36.1

            我們發(fā)現(xiàn)僅在中等大小的ImageNet-1k數(shù)據(jù)集上預(yù)訓(xùn)練的YOLOS已經(jīng)可以在COCO上實現(xiàn)具有競爭力的目標(biāo)檢測性能,例如直接從BERT-Base中采用的YOLOS-Base可以實現(xiàn)42.0 box AP。研究者還通過目標(biāo)檢測討論了當(dāng)前預(yù)訓(xùn)練方案和模型縮放策略對Transformer在視覺中的影響和局限性。

            2 背景

            Transformer為遷移而生。在自然語言處理 (NLP) 中,主要方法是首先在大型通用語料庫上預(yù)訓(xùn)練Transformer以進行通用語言表示學(xué)習(xí),然后針對特定目標(biāo)任務(wù)對模型進行微調(diào)。最近,Vision Transformer(ViT)表明,直接從NLP繼承的典型Transformer編碼器架構(gòu)可以使用現(xiàn)代視覺遷移學(xué)習(xí)配方在大規(guī)模圖像識別上表現(xiàn)出奇的好。將圖像補丁嵌入序列作為輸入,ViT可以從純序列到序列的角度成功地將預(yù)訓(xùn)練的通用視覺表示從足夠的規(guī)模轉(zhuǎn)移到更具體的圖像分類任務(wù),數(shù)據(jù)點更少。

            3.png

            ViT-FRCNN是第一個使用預(yù)訓(xùn)練的ViT作為R-CNN目標(biāo)檢測器的主干。然而,這種設(shè)計無法擺脫對卷積神經(jīng)網(wǎng)絡(luò)(CNN)和強2D歸納偏差的依賴,因為ViT-FRCNN將ViT的輸出序列重新解釋為2D空間特征圖,并依賴于區(qū)域池化操作(即RoIPool或RoIAlign)以及基于區(qū)域的CNN架構(gòu)來解碼ViT特征以實現(xiàn)目標(biāo)級感知。受現(xiàn)代CNN設(shè)計的啟發(fā),最近的一些工作將金字塔特征層次結(jié)構(gòu)和局部性引入Vision Transformer設(shè)計,這在很大程度上提高了包括目標(biāo)檢測在內(nèi)的密集預(yù)測任務(wù)的性能。然而,這些架構(gòu)是面向性能的。另一系列工作,DEtection TRansformer(DETR)系列,使用隨機初始化的Transformer對CNN特征進行編碼和解碼,這并未揭示預(yù)訓(xùn)練Transformer在目標(biāo)檢測中的可遷移性。

            4.png

            ViT-FRCNN

            為了解決上面涉及的問題,有研究者展示了You Only Look at One Sequence (YOLOS),這是一系列基于規(guī)范ViT架構(gòu)的目標(biāo)檢測模型,具有盡可能少的修改以及注入的歸納偏置。從ViT到Y(jié)OLOS檢測器的變化很簡單:

            YOLOS在ViT中刪除[CLS]標(biāo)記,并將一百個可學(xué)習(xí)的[DET]標(biāo)記附加到輸入序列以進行目標(biāo)檢測;

            YOLOS將ViT中的圖像分類損失替換為bipartite matching loss,以遵循Carion等人【End-to-end object detection with transformers】的一套預(yù)測方式進行目標(biāo)檢測。這可以避免將ViT的輸出序列重新解釋為2D特征圖,并防止在標(biāo)簽分配期間手動注入啟發(fā)式和對象2D空間結(jié)構(gòu)的先驗知識。

            3 新框架

            5.png

            YOLOS刪除用于圖像分類的[CLS]標(biāo)記,并將一百個隨機初始化的檢測標(biāo)記([DET] 標(biāo)記)附加到輸入補丁嵌入序列以進行目標(biāo)檢測。

            在訓(xùn)練過程中,YOLOS將ViT中的圖像分類損失替換為bipartite matching loss,這里重點介紹YOLOS的設(shè)計方法論。

            Detection Token

            我們有目的地選擇隨機初始化的[DET]標(biāo)記作為目標(biāo)表示的代理,以避免2D結(jié)構(gòu)的歸納偏差和在標(biāo)簽分配期間注入的任務(wù)的先驗知識。在對COCO進行微調(diào)時,對于每次前向傳遞,在[DET]tokens生成的預(yù)測與真實對象之間建立最佳二分匹配。該過程與標(biāo)簽分配的作用相同,但不知道輸入的2D結(jié)構(gòu),即YOLOS不需要將ViT的輸出序列重新解釋為用于標(biāo)簽分配的2D特征圖。理論上,YOLOS在不知道確切的空間結(jié)構(gòu)和幾何形狀的情況下執(zhí)行任何維度的物體檢測是可行的,只要每次通過輸入總是以相同的方式展平為一個序列。

            6.png

            YOLOS-S, 300 epochs pre-trained, COCO AP = 36.1

            Fine-tuning at Higher Resolution

            在COCO上進行微調(diào)時,除用于分類和邊界框回歸的MLP頭以及隨機初始化的100個[DET]標(biāo)記外,所有參數(shù)均從ImageNet-1k預(yù)訓(xùn)練權(quán)重初始化。分類和邊界框回歸頭均由MLP實現(xiàn),具有兩個使用單獨參數(shù)的隱藏層。 

            在微調(diào)期間,圖像具有比預(yù)訓(xùn)練高得多的分辨率,為了保持補丁大小相同(16 × 16),這導(dǎo)致更大的有效序列長度。雖然ViT可以處理任意序列長度,但位置嵌入需要適應(yīng)更長的輸入序列。我們以相同的方式對預(yù)訓(xùn)練的位置嵌入進行2D插值。

            7.png

            4 實驗分析及可視化

            8.png

            YOLOS的不同版本的結(jié)果

            9.png

            與訓(xùn)練的效果

            10.png

            不同尺度模型的預(yù)訓(xùn)練和遷移學(xué)習(xí)性能

            11.png

            與一些小型CNN檢測器的比較

            Self-attention Maps of YOLOS

            檢驗與YOLOS-S最后一層頭部預(yù)測相關(guān)的[DET]tokens的自注意力??梢暬痯ipeline遵循【 Emerging properties in self-supervised vision transformers】??梢暬Y(jié)果如下圖所示。

            12.png

            對于給定的YOLOS模型,不同的自注意力頭關(guān)注不同的模式和不同的位置。一些可視化是可解釋的,而另一些則不是。

            我們研究了兩個YOLOS模型的注意力圖差異,即200 epochs ImageNet-1k預(yù)訓(xùn)練YOLOS-S和300 epochs ImageNet-1k預(yù)訓(xùn)練YOLOS-S。注意這兩個模型的AP是一樣的(AP=36.1)。從可視化中,我們得出結(jié)論,對于給定的預(yù)測對象,相應(yīng)的[DET]標(biāo)記以及注意力圖模式通常對于不同的模型是不同的。

            ? THE END 

            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉