改進(jìn)的檢測(cè)算法:用于高分辨率光學(xué)遙感圖像目標(biāo)檢測(cè)
前景概要
本文引用地址:http://www.biyoush.com/article/202404/458229.htm目前,難以在檢測(cè)效率和檢測(cè)效果之間獲得適當(dāng)?shù)钠胶?。我們就研究出了一種用于高分辨率光學(xué)遙感圖像中目標(biāo)檢測(cè)的增強(qiáng)YOLOv5算法,利用多層特征金字塔、多檢測(cè)頭策略和混合注意力模塊來(lái)提高光學(xué)遙感圖像的目標(biāo)檢測(cè)網(wǎng)絡(luò)的效果。根據(jù)SIMD數(shù)據(jù)集,新算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在檢測(cè)效果和速度之間實(shí)現(xiàn)了更好的平衡。
背景&動(dòng)機(jī)
隨著遙感技術(shù)的快速發(fā)展,高分辨率光學(xué)遙感圖像已被用于描述地球表面的許多物體,包括飛機(jī)、汽車、建筑物等。目標(biāo)檢測(cè)在遙感圖像的解釋中起著至關(guān)重要的作用,可用于遙感圖像的分割、描述和目標(biāo)跟蹤。然而,由于其相對(duì)較大的視場(chǎng)和高海拔的必要性,航空光學(xué)遙感圖像表現(xiàn)出尺度、視點(diǎn)特異性、隨機(jī)定向和高背景復(fù)雜性的多樣性,而大多數(shù)傳統(tǒng)數(shù)據(jù)集包含地面視圖。因此,用于構(gòu)建人工特征的對(duì)象檢測(cè)技術(shù)傳統(tǒng)上在精度和速度方面具有較差的記錄。基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法明顯比傳統(tǒng)的目標(biāo)檢測(cè)方法更高效。由于社會(huì)的需要和深度學(xué)習(xí)發(fā)展的支持,在光學(xué)遙感圖像中使用神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)是必要的。
目前結(jié)合深度學(xué)習(xí)分析光學(xué)遙感照片的目標(biāo)檢測(cè)算法可以分為有監(jiān)督、監(jiān)督不力或無(wú)監(jiān)督。然而,由于無(wú)監(jiān)督和弱監(jiān)督算法的復(fù)雜性和不穩(wěn)定性,監(jiān)督算法是最常用的算法。此外,監(jiān)督目標(biāo)檢測(cè)算法可以分為單階段或兩階段?;陲w機(jī)通常位于機(jī)場(chǎng),船舶通常位于港口和海洋的假設(shè),在下采樣衛(wèi)星圖像中檢測(cè)機(jī)場(chǎng)和港口,然后將發(fā)現(xiàn)的項(xiàng)目映射回原始的超高分辨率衛(wèi)星圖像,可以成功地同時(shí)檢測(cè)不同大小的物體。有研究者提出了一種基于RCNN的旋轉(zhuǎn)目標(biāo)檢測(cè)方法,通過解決目標(biāo)方向的隨機(jī)化問題,提高遙感圖像中目標(biāo)檢測(cè)的準(zhǔn)確性。
新算法研究
目前的大多數(shù)YOLO系列檢測(cè)頭都是基于FPN和PAFPN的輸出特性,其中基于FPN的網(wǎng)絡(luò),如YOLOv3及其變體如下圖a所示,它們直接利用單向融合特性進(jìn)行輸出,YOLOv4和YOLOv5的基于PAFPN算法在此基礎(chǔ)上增加了一個(gè)低電平到高電平的信道,它直接向上傳輸?shù)图?jí)信息(下圖b)。
如上圖c所示,類似地,在一些研究中,TPH-YOLOv5模型中的特定檢測(cè)任務(wù)添加了一個(gè)檢測(cè)頭。在上圖b,c中,只有PAFPN功能用于輸出,而FPN功能未得到充分利用。因此,YOLOv7將三個(gè)輔助磁頭連接到FPN輸出,如上圖d所示,盡管輔助磁頭僅用于“粗略選擇”,并且重量較低。SSD的檢測(cè)頭是為了改善YOLO網(wǎng)絡(luò)對(duì)錨集過于粗糙的設(shè)計(jì)而提出的,如上圖e所示,設(shè)計(jì)概念主要由多個(gè)尺度上具有多個(gè)縱橫比的密集錨設(shè)計(jì)組成。受圖c–e的啟發(fā),我們研究并提出了一種用于YOLO檢測(cè)頭的多檢測(cè)頭策略,如圖f所示,該策略可以同時(shí)利用PANet和FPN的特征信息。此外,在64倍下采樣處直接添加了輸出頭,這使得網(wǎng)絡(luò)包含先前的全局信息。
多檢測(cè)頭方法可以有效地利用網(wǎng)絡(luò)的輸出特征。改進(jìn)的YOLO是一個(gè)用于高分辨率遙感照片的目標(biāo)探測(cè)網(wǎng)絡(luò)。如下圖所示:
主干網(wǎng)的基本結(jié)構(gòu)是以C3和卷積模塊為核心的CSP密集網(wǎng)。在數(shù)據(jù)增強(qiáng)之后,圖像被饋送到網(wǎng)絡(luò)中,并且在核大小6的Conv模塊進(jìn)行信道混合之后,許多卷積模塊檢索特征。在名為SPPF的特征增強(qiáng)模塊之后,他們連接到Neck的PANet。為了提高網(wǎng)絡(luò)的檢測(cè)能力,進(jìn)行了雙向特征融合。Conv2d用于獨(dú)立縮放融合的特征層,以生成多層輸出。如下圖a所示,NMS算法將所有單層檢測(cè)器的輸出組合在一起,生成最終的檢測(cè)幀。
下圖b描述了改進(jìn)的YOLO網(wǎng)絡(luò)每個(gè)模塊的結(jié)構(gòu)組成。
Conv包括2D卷積層、BN層批量歸一化和Silu激活函數(shù),C3包括兩個(gè)2D卷積層和一個(gè)瓶頸層,Upsample是上采樣層。SPPF模塊是SPP模塊的加速版本,MAB模塊如上面提及的所示,其中ECA如左下角所示。在沒有降維的信道級(jí)全局平均池化之后,考慮到每個(gè)信道與其k個(gè)鄰居的關(guān)系,使用大小為k的快速1D卷積來(lái)捕獲局部跨信道交互信息,從而有效地執(zhí)行ECA。上述兩個(gè)變換沿著兩個(gè)空間方向收集特征,以產(chǎn)生一對(duì)方向感知特征圖,然后將其連接起來(lái),并使用卷積和Sigmoid函數(shù)進(jìn)行修改,以提供注意力輸出。
實(shí)驗(yàn)及可視化
SIMD數(shù)據(jù)集是一個(gè)多類別、開源、高分辨率遙感對(duì)象檢測(cè)數(shù)據(jù)集,共包含15個(gè)類別,如圖4所示。此外,SIMD數(shù)據(jù)集更多地分布在中小型目標(biāo)(w<0.4,h<0.4)中,并且我們提出的改進(jìn)YOLO用于檢測(cè)該區(qū)域的檢測(cè)頭是普通YOLO算法使用的檢測(cè)頭數(shù)量的兩倍,因此改進(jìn)的YOLO在該數(shù)據(jù)集上具有更大的優(yōu)勢(shì)。
可以將SPPF模塊的輸出連接到輸出頭,從而識(shí)別圖像中的大目標(biāo)。然而,SPPF模塊的輸出具有多個(gè)連接,并且涉及多個(gè)尺度的目標(biāo),因此直接將其用于探測(cè)頭來(lái)識(shí)別大型物體將導(dǎo)致較差的模型表示,如上圖所示,顯示了添加MAB模塊前后一些檢測(cè)結(jié)果熱圖的視覺比較。在添加MAB模塊后,該檢測(cè)頭專注于檢測(cè)大目標(biāo),而將小目標(biāo)的預(yù)測(cè)分配給其他預(yù)測(cè)頭,提高了模型的表達(dá)效果,也更符合YOLO算法中基于目標(biāo)大小劃分檢測(cè)頭的要求。
一些檢測(cè)結(jié)果如上圖所示。從各個(gè)檢測(cè)結(jié)果來(lái)看,與其他算法沒有太大差異,但與其他算法相比,我們研究的算法在保證時(shí)間消耗不顯著增加的同時(shí),提高了模型的檢測(cè)效果,并利用注意力機(jī)制增強(qiáng)了模型的表達(dá)效果。
評(píng)論