CBAM注意力模型介紹
本文分享自天翼云開發(fā)者社區(qū)《CBAM注意力模型介紹》,作者:Liuzijia
近年來,注意力機制在各項深度學習任務中表現出色。研究表明,人類視覺感知過程中,注意力機制發(fā)揮了積極的效果,可以幫助人們高效和自適應的處理視覺信息并聚焦于顯著的畫面區(qū)域,從而能夠做出最準確的判斷。因此,通過模擬視覺注意力機制,在網絡結構中加入注意力模塊,使模型可以更加關注待分類圖像中的關鍵信息,抑制不相關的特征信息,促使模型對重要的特征區(qū)域更加敏感,從而有效提升相關任務的性能。本文簡要介紹一種經典的混合注意力模型CBAM。
CBAM[1]是一種結合了通道與空間注意力的混合注意力模塊,通過該模塊可以自適應的強化特征提取過程。
圖1 CBAM結構(引用自文獻[1])
圖1為CBAM的結構。對于輸入特征圖,該模塊會依次推斷出一個通道注意力圖M_c和一個空間注意力圖M_s,如式1和式2所示:
其中,F表示輸入特征圖;M_c表示得到通道注意力圖;F'表示通道注意力模塊的輸出特征圖;M_s表示得到的空間注意力圖;F''表示該模塊的最終輸出;x表示矩陣對應元素相乘。
圖2 通道注意力模塊(引用自文獻[1])
圖2為CBAM的通道注意力模塊結構。對于輸入特征圖,首先利用在空間維度上的平均池化和最大值池化進行壓縮,結合兩種池化是為了對特征權重的學習更加精細,從而提升網絡的特征表示能力,然后將池化后的特征輸入到多層感知機中,為了減少計算參數量,會對隱藏層的大小進行降維,最后經激活函數得到注意力圖,其計算過程如式3所示:
其中,σ表示Sigmoid激活函數;F_avg和F_max分別表示空間維度上的平均池化(AvgPool)和最大值池化(MaxPool);W_0和W_1表示多層感知機(MLP)的共享參數;F表示輸入特征圖。
圖3 空間注意力模塊(引用自文獻[1])
圖3為CBAM的空間注意力模塊。首先利用在通道維度上的平均池化和最大值池化對輸入特征圖進行操作,然后拼接大小均為H×W×1的兩個特征圖,這樣可以得到一個大小為H×W×2的特征圖,最后利用一個卷積操作并經激活函數后得到空間注意力圖,其計算過程如式4所示:
其中,σ表示Sigmoid激活函數;f(7×7)表示尺寸為7 的卷積核;F_avg和F_max分別表示在通道維度上的平均池化(AvgPool)和最大值池化(MaxPool);F表示輸入特征圖。
[1] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 3-19
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。