真正的天網(wǎng):英偉達(dá)推出首個(gè)跨攝像頭汽車跟蹤數(shù)據(jù)集
城市利用交通攝像頭作為全市范圍內(nèi)的傳感器來(lái)優(yōu)化交通流量和管理交通事故潛力巨大。但現(xiàn)有技術(shù)缺乏大范圍跟蹤車輛的能力,這些車輛跨越多個(gè)攝像機(jī),分布在不同的十字路口,天氣條件也各不相同。
本文引用地址:http://www.biyoush.com/article/201903/398907.htm要克服這一難題,必須解決三個(gè)截然不同但又密切相關(guān)的研究問(wèn)題:1)單攝像頭內(nèi)目標(biāo)的檢測(cè)和跟蹤,即多目標(biāo)單攝像頭(MTSC)跟蹤;2)跨多攝像頭目標(biāo)重識(shí)別,即 ReID;3)跨攝像頭網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行檢測(cè)和跟蹤,即多目標(biāo)跨攝像頭跟蹤(MTMC tracking)。MTMC 跟蹤可以看作是相機(jī)內(nèi)部 MTSC 跟蹤與基于圖像的 ReID 的結(jié)合,連接相機(jī)之間的目標(biāo)軌跡。
如圖 1 所示,多目標(biāo)跨攝像頭跟蹤包含三大組成部分:基于圖片的再識(shí)別、單攝像頭內(nèi)的多目標(biāo)跟蹤以及攝像頭之間的時(shí)空分析。
相比于最近發(fā)展火熱的行人再識(shí)別,車輛再識(shí)別主要面臨兩大挑戰(zhàn):一是類內(nèi)部的高變化性(因?yàn)椴煌暯堑能囕v變化比人更大),二是類之間的高相似性(因?yàn)椴煌噺S商生產(chǎn)的車輛模型很相近)。目前已有的車輛再識(shí)別數(shù)據(jù)集(北郵的 VeRi-776、北大的 VehicleID 以及同樣來(lái)自北大的 PKU-VD)都沒(méi)有提供原始視頻和相機(jī)校正信息,所以無(wú)法用它們開(kāi)展基于視頻的跨攝像頭車輛跟蹤研究。
本文作者提出的「流動(dòng)之城」數(shù)據(jù)集包含高清的同步視頻,涵蓋最多的路口(10)和最大數(shù)量的攝像頭(40),收集于一個(gè)中等規(guī)模的美國(guó)城市,場(chǎng)景也很多樣,包括了住宅區(qū)和高速公路等等。本文的主要貢獻(xiàn)有以下三點(diǎn):
在現(xiàn)有數(shù)據(jù)集中,本數(shù)據(jù)集有最大的空間跨度和攝像頭/路口數(shù)量,包括多樣的城市場(chǎng)景和交通流量,為城市規(guī)模的解決方案提供了最佳平臺(tái)。
「流動(dòng)之城」也是第一個(gè)支持(基于視頻的)跨攝像頭多目標(biāo)車輛跟蹤的數(shù)據(jù)集,提供了原始視頻、相機(jī)分布及相機(jī)校正信息,將打開(kāi)一個(gè)全新研究領(lǐng)域的大門(mén)。
分析了各種最先進(jìn)算法在該數(shù)據(jù)集上的表現(xiàn),比較了各種視覺(jué)和時(shí)空分析結(jié)合的算法,證明該數(shù)據(jù)集比現(xiàn)有其他數(shù)據(jù)集更具挑戰(zhàn)性。
論文:CityFlow: A City-Scale Benchmark for Multi-Target Multi-Camera Vehicle Tracking and Re-Identification
論文鏈接:https://arxiv.org/abs/1903.09254
摘要:使用交通攝像頭作為傳感器的城市交通優(yōu)化需要更強(qiáng)大的多目標(biāo)跨攝像頭跟蹤支持。這篇論文介紹了 CityFlow(流動(dòng)之城),是一個(gè)城市規(guī)模的交通攝像頭數(shù)據(jù)集,包括了從 10 個(gè)路口提取的 40 個(gè)攝像頭收集到的超過(guò) 3 個(gè)小時(shí)的同步高清視頻,兩個(gè)同步攝像頭間的最長(zhǎng)距離是 2.5 千米。據(jù)我們所知,從空間跨度和攝像頭/視頻數(shù)量來(lái)看,「流動(dòng)之城」是目前都市環(huán)境中最大規(guī)模的數(shù)據(jù)集。該數(shù)據(jù)集包含超過(guò) 20 萬(wàn)個(gè)目標(biāo)框,并且涵蓋了多樣的場(chǎng)景、視角、車輛模型和城市車流狀況。
我們提供了相機(jī)分布和校正信息來(lái)輔助時(shí)空分析。此外,我們也提供這個(gè)數(shù)據(jù)集的子集用作基于圖像的車輛再識(shí)別。我們進(jìn)行了大量的實(shí)驗(yàn)分析,測(cè)試了各種各樣的跨攝像頭多目標(biāo)跟蹤、單攝像頭多目標(biāo)跟蹤、目標(biāo)檢測(cè)和再識(shí)別的基準(zhǔn)/最先進(jìn)算法,并分析了不同的網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)、時(shí)空模型和它們的結(jié)合。
該數(shù)據(jù)集和線上評(píng)估服務(wù)器都已經(jīng)在 2019 年的 AI 城市大賽發(fā)布(https://www.aicitychallenge.org/),研究者可以在服務(wù)器上測(cè)試自己的最新算法技術(shù)。我們期待這個(gè)數(shù)據(jù)集能促進(jìn)該領(lǐng)域的研究,提升現(xiàn)今算法的效果,并優(yōu)化現(xiàn)實(shí)世界的交通管理。為保護(hù)隱私,數(shù)據(jù)集中的所有車牌及人臉都進(jìn)行過(guò)遮擋處理。
「流動(dòng)之城」與相關(guān)基準(zhǔn)的對(duì)比
可以看出,「流動(dòng)之城」是目前唯一支持跨攝像頭基于車輛跟蹤的數(shù)據(jù)集,而且擁有目前最多的相機(jī)數(shù)量,有超過(guò) 20 萬(wàn)個(gè)目標(biāo)框,并提供原始視頻、相機(jī)分布和多視角分析。
「流動(dòng)之城」基準(zhǔn)數(shù)據(jù)集
整個(gè)數(shù)據(jù)集包括 5 個(gè)不同場(chǎng)景和 40 個(gè)攝像頭,視頻總長(zhǎng)度大概 3 小時(shí) 15 分鐘,標(biāo)注了 666 輛車的跨攝像頭軌跡。以下是這些場(chǎng)景的總結(jié)(部分場(chǎng)景攝像頭有重合)。
下圖是車輛顏色及車型的分布情況。
以下是跟蹤標(biāo)注結(jié)果的示例。研究者首先采用目前先進(jìn)的目標(biāo)檢測(cè)和單攝像頭跟蹤方法得到粗略的目標(biāo)軌跡,并手動(dòng)修復(fù)軌跡中的錯(cuò)誤,在此基礎(chǔ)上進(jìn)行跨攝像頭間的信息標(biāo)注。
同時(shí),他們用谷歌地圖的三維信息和圖像上的二維投影結(jié)果進(jìn)行匹配和優(yōu)化,獲得了較準(zhǔn)確的單應(yīng)性矩陣,提供給參賽隊(duì)伍進(jìn)行三維時(shí)空分析。
他們的實(shí)驗(yàn)分析分為三大部分:基于圖片的車輛再識(shí)別、單攝像頭多目標(biāo)跟蹤和有時(shí)空分析結(jié)合的跨攝像頭跟蹤。
首先是再識(shí)別的部分,研究者比較了去年 AI 城市大賽上的獲獎(jiǎng)方法、行人再識(shí)別的目前最優(yōu)方法(整理于倫敦大學(xué)瑪麗女王學(xué)院的 deep-person-reid 項(xiàng)目)還有車輛再識(shí)別的最優(yōu)方法(來(lái)自英偉達(dá)內(nèi)部,剛被 IJCNN 錄用)。下面是這幾種方法的 CMC 曲線比較(包圍面積越大效果越好),可以看到行人再識(shí)別和車輛再識(shí)別的方法在該數(shù)據(jù)集上不相伯仲,但是這些方法整體的精確度還是很低的,Rank-1 的命中率只有 50% 左右,相比較下目前 VeRi 數(shù)據(jù)集上同樣方法能拿到 90% 以上的 Rank-1 命中率,這說(shuō)明該數(shù)據(jù)集的挑戰(zhàn)還是很大的。
下面是這幾種方法的排名結(jié)果對(duì)比,可以看到相機(jī)的視角非常多樣,也帶來(lái)了更大的難度。
下表對(duì)比了目前比較先進(jìn)的單攝像頭跟蹤算法及目標(biāo)檢測(cè)方法的結(jié)合。其中 DS 代表德國(guó)科布倫茨-蘭道大學(xué)的 Deep SORT,TC 是去年 AI 城市大賽上的獲獎(jiǎng)方法,MO 是目前 MOTChallenge(多目標(biāo)跟蹤大賽)的三維跟蹤數(shù)據(jù)集上的領(lǐng)先方法 MOANA。目標(biāo)檢測(cè)部分比較了 YOLO、SSD 和 Faster R-CNN。目前最好的結(jié)果來(lái)自于 TC 和 SSD 的結(jié)合。
最后,下表加入了時(shí)空分析的比較,對(duì)比跨攝像頭多目標(biāo)跟蹤的最終結(jié)果。其中 PROVID 是 VeRi 數(shù)據(jù)集作者的方法。2WGMMF 是作者實(shí)驗(yàn)室之前提出的方法,用高斯分布來(lái)學(xué)習(xí)攝像頭之間的時(shí)空關(guān)系。最后 FVS 還是作者去年 AI 城市大賽上獲獎(jiǎng)方法的一部分,用手動(dòng)來(lái)設(shè)定跨攝像頭間的高斯分布,所以也更加準(zhǔn)確一些。
作者簡(jiǎn)介
本文的第一作者湯政是華盛頓大學(xué)(西雅圖)電子計(jì)算機(jī)工程學(xué)院的博士生,預(yù)計(jì)今年 6 月畢業(yè)。作者目前在英偉達(dá)實(shí)習(xí),畢業(yè)后將入職亞馬遜,加入無(wú)人商店「購(gòu)」項(xiàng)目。該論文是其在英偉達(dá)實(shí)習(xí)期間的成果。
湯政在 2017 年及 2018 年兩度帶領(lǐng)自己實(shí)驗(yàn)室的團(tuán)隊(duì)參加英偉達(dá)主辦的 AI 城市大賽,他們的隊(duì)伍連續(xù)兩屆成為該項(xiàng)賽事冠軍,擊敗了包括加州大學(xué)伯克利分校、伊利諾伊大學(xué)厄巴納-香檳分校、馬里蘭大學(xué)帕克分校、北京郵電大學(xué)、國(guó)立臺(tái)灣大學(xué)等在內(nèi)的全球近 40 支隊(duì)伍,其中第二屆賽事是 CVPR 2018 的 workshop。因?yàn)閳F(tuán)隊(duì)的出色表現(xiàn),湯政受邀進(jìn)入英偉達(dá)實(shí)習(xí),負(fù)責(zé)協(xié)助籌辦第三屆 AI 城市大賽(同樣是今年 CVPR 2019 的 workshop)并準(zhǔn)備基準(zhǔn)數(shù)據(jù)集,也就是本文介紹到的「流動(dòng)之城」數(shù)據(jù)集。
今年的 AI 城市大賽共有三個(gè)分賽:跨攝像頭多目標(biāo)車輛跟蹤、基于圖片的車輛再識(shí)別以及交通異常檢測(cè)。目前已經(jīng)有全球超過(guò) 200 支參賽隊(duì)伍報(bào)名(合計(jì)超過(guò) 700 名參賽者),是前兩年比賽總和的四倍之多。英偉達(dá)會(huì)在今年加州長(zhǎng)灘的 CVPR 會(huì)議上公布獲獎(jiǎng)隊(duì)伍和頒發(fā)獎(jiǎng)品(一臺(tái) Quadro GV100、三臺(tái) Titan RTX 和兩臺(tái) Jetson AGX Xavier)。目前比賽仍然接受參賽隊(duì)伍報(bào)名和 workshop 投稿,比賽截止時(shí)間是 5 月 10 日。另外,論文的其他作者包括英偉達(dá) AI 城市項(xiàng)目的 CTO - Milind Naphade、英偉達(dá)研究院的 GAN 領(lǐng)域?qū)<?- 劉洺堉、同樣來(lái)自英偉達(dá)研究院的楊曉東(今年有三篇 CVPR oral 中稿)、英偉達(dá)雷蒙德分公司的首席研究員 - Stan Birchfield、湯政的導(dǎo)師黃正能教授等。
評(píng)論