在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 30%Token就能實現(xiàn)SOTA性能,華為諾亞輕量目標(biāo)檢測器Focus-DETR效率倍增(1)

            30%Token就能實現(xiàn)SOTA性能,華為諾亞輕量目標(biāo)檢測器Focus-DETR效率倍增(1)

            發(fā)布人:計算機(jī)視覺工坊 時間:2023-08-03 來源:工程師 發(fā)布文章
            目前 DETR 類模型已經(jīng)成為了目標(biāo)檢測的一個主流范式。但 DETR 算法模型復(fù)雜度高,推理速度低,嚴(yán)重影響了高準(zhǔn)確度目標(biāo)檢測模型在端側(cè)設(shè)備的部署,加大了學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用之間的鴻溝。


            來自華為諾亞、華中科技大學(xué)的研究者們設(shè)計了一種新型的 DETR 輕量化模型 Focus-DETR 來解決這個難題。
            圖片

            • 論文地址:https://arxiv.org/abs/2307.12612
            • 代碼地址 - mindspore:https://github.com/linxid/Focus-DETR
            • 代碼地址 - torch:https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR


            為實現(xiàn)模型性能和計算資源消耗、顯存消耗、推理時延之間的平衡,F(xiàn)ocus-DETR 利用精細(xì)設(shè)計的前景特征選擇策略,實現(xiàn)了目標(biāo)檢測高相關(guān)特征的精確篩選;繼而,F(xiàn)ocus-DETR 進(jìn)一步提出了針對篩選后特征的注意力增強(qiáng)機(jī)制,來彌補(bǔ) Deformable attention 遠(yuǎn)距離信息交互的缺失。相比業(yè)界全輸入 SOTA 模型, AP 降低 0.5 以內(nèi),計算量降低 45%,F(xiàn)PS 提高 41%,并在多個 DETR-like 模型中進(jìn)行了適配。
            作者對多個 DETR 類檢測器的 GFLOPs 和時延進(jìn)行了對比分析,如圖 1 所示。從圖中發(fā)現(xiàn),在 Deformable-DETR 和 DINO 中,encoder 的計算量分別是 decoder 計算量的 8.8 倍和 7 倍。同時,encoder 的時延大概是 decoder 時延的 4~8 倍。這表明,提升 encoder 的效率至關(guān)重要。
            圖片圖 1:多個 DETR 類檢測器的計算量和時延對比分析
            網(wǎng)絡(luò)結(jié)構(gòu)
            Focus-DETR 包括一個 backbone,一個由 dual-attention 組成的 encoder 和一個 decoder。前景選擇器(Foreground Token Selector)在 backbone 和 encoder 之間,是一個基于跨多尺度特征的自頂向下評分調(diào)制,用來確定一個 token 是否屬于前景。Dual attention 模塊通過多類別評分機(jī)制,選擇更細(xì)粒度的目標(biāo) token,然后將其輸入到一個自注意模塊來彌補(bǔ) token 交互信息的缺失。
            圖片圖 2 :Focus-DETR 整體網(wǎng)絡(luò)結(jié)構(gòu)
            計算量降低:前景篩選策略
            目前已經(jīng)有一些對于前景 token 進(jìn)行剪枝提升性能的方法。例如,Sparse DETR(ICLR2022)提出采用 decoder 的 DAM(decoder attention map)作為監(jiān)督信息。然而作者發(fā)現(xiàn),如圖 3 所示,Sparse DETR 篩選的 token 并不都是前景區(qū)域。作者認(rèn)為,這是由于 Sparse DETR 使用 DAM 來監(jiān)督前景 token 導(dǎo)致的,DAM 會在訓(xùn)練的時候引入誤差。而 Focus-DETR 使用 ground truth(boxes 和 label)來監(jiān)督前景的 token 的篩選。
            圖片圖 3:Focus-DETR 和 Sparse DETR 在不同 feature map 上保留的 token 對比
            為了更好地訓(xùn)練前景篩選器,作者優(yōu)化了 FCOS 的前背景標(biāo)簽分配策略,如圖 4 所示。作者首先為不同特征映射的包圍框設(shè)置了一個大小范圍。與傳統(tǒng)的多尺度特征標(biāo)簽分配方法不同,它允許相鄰兩個特征尺度之間的范圍重疊,以增強(qiáng)邊界附近的預(yù)測能力。對每個擁有步長 圖片 的特征 圖片 ,其中圖片代表多尺度特征的層級序號,圖片 代表在二維特征圖上的位置坐標(biāo),作者定義該特征在原圖上的映射位置為 圖片,那么 圖片,因此 圖片 特征所對應(yīng)的標(biāo)簽應(yīng)該為:

            圖片


            其中 圖片 代表坐標(biāo)和真值框中心之間的最大棋盤距離,圖片 代表真值目標(biāo)框,圖片 分別代表被第圖片層特征圖預(yù)測的目標(biāo)的尺度的最大值和最小值,由于尺度重疊設(shè)置,圖片。
            圖片圖 4. 前背景標(biāo)簽分配可視化
            此外,來自不同特征映射的特征選擇的差異也被忽略,這限制了從最合適的分辨率選擇特征的潛力。為彌補(bǔ)這一差距,F(xiàn)ocus-DETR 構(gòu)造了基于多尺度 feature map 的自頂向下的評分調(diào)制模塊,如圖 5 所示。為了充分利用多尺度特征圖之間的語義關(guān)聯(lián),作者首先使用多層感知器 (MLP) 模塊來預(yù)測每個特征圖中的多類別語義得分。考慮到高層語義特征,低層語義特征包含更豐富的語義信息,作者利用高層 feature map 的 token 重要性得分,作為補(bǔ)充信息來調(diào)制低層 feature map 的預(yù)測結(jié)果。

            圖片

            圖 5:top-down 前景篩選評分調(diào)制策略



            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉