工業(yè)檢測:基于密集尺度特征融合&像素級不平衡學習框架
論文地址:https://arxiv.org/pdf/2203.09387v1.pdf
計算機視覺研究院專欄
作者:Edison_G
知識蒸餾已成功應用于圖像分類。然而目標檢測要復雜得多,大多數(shù)知識蒸餾方法都失敗了。
01
前言
邊緣檢測是計算機視覺領域的一項基本任務,是視覺場景識別和理解的重要預處理操作。在常規(guī)模型中,生成的邊緣圖像模糊不清,邊緣線也很粗,這通常需要使用非極大值抑制(NMS)和形態(tài)細化操作來生成清晰而細的邊緣圖像。
在今天分享中,研究者旨在提出一種無需后處理即可生成高質量邊緣圖像的單階段神經網絡模型。所提出的模型采用經典的編碼器-****框架,其中使用預訓練的神經模型作為編碼器,并且將每個級別的特征相互融合的多特征融合機制作為可學習的****。
此外,研究者提出了一種新的損失函數(shù),通過抑制真陽性(TP)邊緣和假陰性(FN)非邊緣附近的假陽性(FP)邊緣信息來解決邊緣圖像中的像素級不平衡問題。在幾個基準數(shù)據(jù)集上進行的實驗結果表明,所提出的方法在不使用NMS和形態(tài)細化操作的情況下實現(xiàn)了最先進的結果。
02
背景
在機器視覺檢測設備中,缺陷檢測作用是機器視覺檢測設備使用最普遍的作用的一種,主要是檢驗產品表面的各類信息內容。在當代工業(yè)自動化制造中,連續(xù)性批量生產的每一個工藝都是有相應的缺陷率,單獨看盡管比例不大,但相乘后卻成為了企業(yè)沒法提升良率的難題,而且在經過了完整性制程后再剔除殘品成本費會高許多,所以,及時性檢驗和祛除不良品對質量控制和成本控制十分主要,也是制造產業(yè)更進一步升級的主要根基。
我認為缺陷檢測沒有啥難的,基本上都可以做。那為啥槽點還那么多?我認為很大一部分是AI的槽點,因為目前使用AI來做是主流,或者說只傳統(tǒng)方法搞不定的,沒辦法,只有上AI的方法。AI的槽點有很多,例如:(摘自于知乎皮特潘)
多少人工就有多少智能,太依賴于標注的數(shù)據(jù);
過擬合嚴重,泛化能力差;
容易被攻擊到,沒有提取到真正的特征;
提取特征太多抽象,可解釋性差,大家都是“黑盒子”玩家;
經驗學、嘗試學,沒有建立起方法論,trick太多,很多都是馬后炮強行解釋;
“內卷”嚴重,nlp領域的sota 拿到CV,各種模改就work了?甚至都使用mlp進行返租現(xiàn)象,讓我們一時半會摸不到方向。
當然,學術界和工業(yè)界也有一條巨大的鴻溝。學術界在于新,有創(chuàng)新點,在開源數(shù)據(jù)上各種嘗試。工業(yè)界強調的是精度、成本、落地。再者場景過于分散,沒辦法達成一致的共識,場景、數(shù)據(jù)、需求等均是如此。
單單從工業(yè)界來看,在“缺陷檢測”這一個細分的場景(其實也不是啥細分場景,所有找異常的都可以叫缺陷檢測)。
[Deep crisp boundaries:Fromboundariestohigher-level tasks]針對高級卷積的空間分辨率低和相鄰像素的相似響應提出了CED方法。[Learning to predict crisp boundaries]認為邊緣像素和非邊緣像素之間的高度不平衡是導致較厚邊緣的原因之一,因此提出了LPCB模型。他們將ResNeXt模塊插入到編碼器-****模型中,并引入Dice系數(shù),使CNN無需后處理(NMS)即可產生清晰的邊界。[Deep Structural Contour Detection]提出了一種用于生成高質量邊緣信息的DSCD方法。受SSIM的啟發(fā),他們提出了一種新的損失函數(shù),并在模型中添加了一個超模塊,以生成質量更好的邊緣特征。[Unmixing Convolutional Features for CrispEdge Detection]為CNN中的混合現(xiàn)象提出了上下文感知跟蹤策略,分解邊界特征以解決定位模糊問題。受先前研究的啟發(fā),[Learning Crisp Boundaries Using Deep Refinement Networkand Adaptive Weighting Loss]提出了一種自適應加權損失函數(shù)和一個新的網絡DRNet,以堆疊多個細化模塊并獲得更豐富的特征表示,從而實現(xiàn)清晰的邊界信息。
03
新框架
Model structure diagram
新提出的方法采用卷積編碼器-****框架,廣泛用于邊緣檢測。任何預訓練的 CNN 模型都可以作為編碼器,****由多層特征融合器實現(xiàn),充分利用了低層邊緣圖中更多的位置和細節(jié)信息,以及高層特征中更魯棒的語義信息,使得模型 可以學習到更清晰的邊緣,如上圖(a)所示。
提出的多特征跳過連接不僅有利于編碼器和****之間的互連,而且在****內部也有連接。該模型使用每個模塊的最后一層作為編碼器的輸出層,定義為[b1,b2,...,b5]。對于****部分,采用了多層特征融合機制。
不同的輸出層bi具有可以通過常規(guī)方法更新的各種大小的特征圖。在這里,研究者以o4為例來解釋****部分的構造,如下圖(b)和上公式所示,其中函數(shù)C(.)表示卷積+批量歸一化+ReLU激活操作。D(.)和E(.)分別表示上采樣和下采樣操作,[.]表示連接。B4中的特征圖直接融合到O4中。
從編碼器的較低層開始,首先將最大池化操作應用于B1、B2和B3中的特征圖,然后將它們融合到O4中。隨后,通過雙線性插值獲得來自****部分的O5。為了保持通道不變,研究者采用卷積運算來進一步統(tǒng)一通道數(shù)。為了更好地將低級細節(jié)和空間特征與高級語義特征融合,進一步在五個尺度特征圖上進行特征融合。
Pixel-level Imbalance Learning
權重交叉熵。邊緣圖像生成可以看作是一個像素級的分類任務(邊緣和非邊緣像素)。它在邊緣和非邊緣像素的數(shù)量方面非常不平衡。
采用加權交叉熵(見上公式,其中Gi是標簽,Pi是邊緣預測值)來解決這樣的分類任務并糾正邊緣和非邊緣像素之間的不平衡,可以有效地監(jiān)督網絡區(qū)分邊緣和非邊緣信息。然而,“厚度”問題仍然存在。雖然加權交叉熵可以有效地計算像素級差異,但它不能充分區(qū)分與TP邊緣像素相鄰的FP和FN像素值。
04
實驗
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。