春假返程堵車 | AI“高速”檢測輕而易舉監(jiān)測大家安全
春節(jié)返程大軍開始了!不管是離開小城鎮(zhèn)還是進(jìn)入大城市,每個高速路口都是堵車,現(xiàn)在人工智能愈來愈發(fā)達(dá),不再用通過交警得知高速公路上的案發(fā)事件,現(xiàn)在都是攝像機(jī)覆蓋,AI可以通過鏡頭&算法檢測到行駛的車輛,如果有交通事故都是第一時間傳達(dá)交警來處理。以至于有些路段都是通過無人機(jī)來進(jìn)行交通事故處理!
一、簡要
Single-stage目標(biāo)檢測方法因其具有實(shí)時性強(qiáng)、檢測精度高等特點(diǎn),近年來受到廣泛關(guān)注。通常,大多數(shù)現(xiàn)有的single-stage檢測器遵循兩個常見的實(shí)踐:它們使用在ImageNet上預(yù)先訓(xùn)練的網(wǎng)絡(luò)主干來完成分類任務(wù),并使用自頂向下的特征金字塔表示來處理規(guī)模變化。
好比在返程高速路上,車輛較多,而且車輛的行駛速度不一,大多數(shù)都是高速行駛狀態(tài)中,所以有研究者研究了一個single-stage檢測框架,它結(jié)合了微調(diào)預(yù)訓(xùn)練模型和從零開始訓(xùn)練的優(yōu)點(diǎn)。新框架構(gòu)成了一個標(biāo)準(zhǔn)的網(wǎng)絡(luò),使用一個預(yù)先訓(xùn)練的主干網(wǎng)絡(luò)和一個并行的輕型輔助網(wǎng)絡(luò)從零開始訓(xùn)練。
此外,研究者認(rèn)為通常使用的自頂向下的金字塔表示只關(guān)注于將高級語義從頂層傳遞到底層。然而在新的檢測框架中引入了一個雙向網(wǎng)絡(luò),它可以有效地傳遞中低層次和高層次的語義信息。
二、背景&動機(jī)
研究表明,訓(xùn)練檢測模型從零開始解決這個問題,導(dǎo)致精確定位。但是與基于微調(diào)的對應(yīng)網(wǎng)絡(luò)相比,從零開始訓(xùn)練時間花費(fèi)多。因此研究者引入一個訓(xùn)練模型,將訓(xùn)練前的和從零開始訓(xùn)練的優(yōu)點(diǎn)結(jié)合起來,該框架使用一個虛報臉前的主干和一個從零開始訓(xùn)練的淺輔助網(wǎng)絡(luò)。提出的方法相比baseline在AP指標(biāo)上分別提高了7.4%和4.2%。在COCO測試集上,固定300×300輸入,提出的以ResNet為backbone的檢測器在單級推理方面超過了現(xiàn)有的單級檢測方法,AP達(dá)到了34.3 ,在一個Titan X GPU上時間為19毫秒,同時兼顧了精度和速度。
現(xiàn)在遇到的問題:
小目標(biāo)檢測的難點(diǎn)
小目標(biāo)檢測是一個具有挑戰(zhàn)性的問題,它既需要精確描述對象的低層/中層信息,也需要區(qū)分目標(biāo)對象與背景或其他對象類別的高級語義信息。
近來的one-stage探測器的目標(biāo)是獲得與two-stage相近的檢測精度。 盡管在大中型目標(biāo)上效果較好,但這些探測器在小目標(biāo)上的性能卻低于預(yù)期。 例如: 當(dāng)使用一個500×500的輸入時,使用RetinaNet在COCO數(shù)據(jù)集上, AP為47,但在小目標(biāo)上,AP只有 14。
預(yù)訓(xùn)練網(wǎng)絡(luò)的利弊
主流的one-stage目標(biāo)檢測框架的通用策略是:利用一個經(jīng)過ImageNet預(yù)訓(xùn)練的backbone完成分類任務(wù)。然后利用檢測目標(biāo)的數(shù)據(jù)集進(jìn)行微調(diào),從而達(dá)到快速收斂的效果。但是目標(biāo)檢測中的分類任務(wù)和定位任務(wù)之間仍然存在較大差異,尤其是在目標(biāo)框重疊閾值高的情況下。
在ICCV2019Kaiming He的最新論文中,也對利用ImageNet 進(jìn)行預(yù)訓(xùn)練然后fine-tune這種模式進(jìn)行了思考,并且認(rèn)為從 零開始訓(xùn)練檢測模型,有助于精確定位。但是另一方面,與典 型的基于微調(diào)的網(wǎng)絡(luò)相比,從零開始訓(xùn)練非常深的網(wǎng)絡(luò)需要的 訓(xùn)練時間要長得多。
三、新框架
新框架圖圖顯示了由三個主要組件組成的總體架構(gòu):標(biāo)準(zhǔn)SSD網(wǎng)絡(luò),輕量級暫存網(wǎng)絡(luò)(LSN)和雙向網(wǎng)絡(luò)。
標(biāo)準(zhǔn)SSD使用預(yù)先訓(xùn)練的網(wǎng)絡(luò)主干。因此將來自標(biāo)準(zhǔn)SSD層的功能(conv4_3,F(xiàn)C_7,conv8_2,conv9_2,conv10_2和conv11_2)稱為主干特征,因?yàn)樗鼈冊醋灶A(yù)先訓(xùn)練的網(wǎng)絡(luò)主干。研究者采用VGG-16作為主干網(wǎng)絡(luò)。輕量級暫存網(wǎng)絡(luò)(LSN)產(chǎn)生低/中級特征表示,然后將其注入到后續(xù)標(biāo)準(zhǔn)預(yù)測層的主干特征中以改善其性能。然后,將當(dāng)前層和前一層的結(jié)果特征以自下而上的方式組合到雙向網(wǎng)絡(luò)中。雙向網(wǎng)絡(luò)中的自頂向下方案包含獨(dú)立的并行連接,以將高級語義信息從網(wǎng)絡(luò)的較后一層注入到前一層。
不同之處:
新框架中雙向網(wǎng)絡(luò)與現(xiàn)有的幾個單級檢測器使用的特征金字塔網(wǎng)絡(luò)(FPN)相比有以下不同之處。
首先,F(xiàn)PN的自底向上部分遵循了標(biāo)準(zhǔn)中使用的CNN的金字塔特征層次結(jié)構(gòu)SSD的框架。FPN和SSD的自底向上部分都遵循骨干網(wǎng)的前饋計算,建立了特征層次結(jié)構(gòu)。除了FPN/標(biāo)準(zhǔn)SSD中的自底向上部分外,新框架中的雙向網(wǎng)絡(luò)中的自底向上方案以級聯(lián)的方式將前一層的特性傳播到后一層。此外,F(xiàn)PN中的topdown金字塔通過級聯(lián)操作逐層融合了許多CNN層。在雙向網(wǎng)絡(luò)的自頂向下方案中,預(yù)測層通過獨(dú)立的并行連接進(jìn)行融合,而不是逐層逐層的級聯(lián)/順序融合。
LSN Feature Extraction
在現(xiàn)有檢測框架中常用的特征提取策略包括從網(wǎng)絡(luò)主干,如VGG-16,在多個卷積塊和最大池層的重復(fù)堆棧中提取特征,以產(chǎn)生語義強(qiáng)的特征(見下圖)。
這種特征提取策略有利于偏好平移不變性的圖像分類任務(wù)。與圖像分類不同,目標(biāo)檢測還需要精確的目標(biāo)描述,其中局部低/中水平特征(如紋理)信息也是至關(guān)重要的。為了補(bǔ)償預(yù)先訓(xùn)練的網(wǎng)絡(luò)的主干特征中的信息損失,在新框架的LSN中使用了另一種特征提取方案,如上圖(b)。
首先,通過池化操作將輸入圖像下采樣到第一SSD預(yù)測層的目標(biāo)大小。然后,得到的下采樣圖像通過輕量級串行操作(LSO),包括卷積、batch-norm和ReLU層。請注意,LSN是用隨機(jī)初始化從零開始訓(xùn)練的。它遵循類似的金字塔特征層次,如標(biāo)準(zhǔn)SSD。
四、實(shí)驗(yàn)
[18] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollr. Focal loss for dense object detection. In ICCV, 2017
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。