ECCV 2022 Oral｜原來Scene Graph Generation也有精神內(nèi)耗

發(fā)布人：計算機視覺工坊時間：2022-11-19 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

作者丨張傲-NUS@知乎（已授權）

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/544493192編輯丨極市平臺

文章主要介紹我們在ECCV 2022 Oral (2 accept, 1 weak accept)的論文"Fine-Grained Scene Graph Generation with Data Transfer"。主要內(nèi)容包括對于Scene Graph現(xiàn)有問題的介紹 (標題里的精神內(nèi)耗)，我們的方法。最后是關于場景圖生成(SGG)領域的一些感受。

論文：https://arxiv.org/abs/2203.11654

代碼：https://github.com/waxnkw/IETrans-SGG.pytorch

1. Scene Graph Generation介紹

Scene Graph Generation (SGG)旨在檢測圖像中的(主, 謂, 賓)三元組。如下圖:

場景圖生成任務介紹2. 問題

從效果來看，現(xiàn)有的SGG模型生成的場景圖僅僅能在少數(shù)幾個頭部做出正確預測。以最常用的50類謂語分類(Predicate Classification)任務為例子，一個正常訓練的Neural Motif模型僅僅能在21類上面做出正確預測。具體效果:

拉垮的SGG模型

然而，類似于on，under這樣的關系過于簡單，很難為下游任務提供有用的信息。隨便找一個caption模型都能達到類似甚至更好的效果。

所以，為什么效果如此拉垮？在本文中中，我們主要討論了兩個原因。第一個是老生常談的長尾分布問題。在此不多加贅述。第二個則是我們想重點強調的一個問題 “標注沖突”。標注人員為了省力，在很多情況下會把riding on這樣的細粒度關系標注為on這樣的粗粒度關系。也就是說，一大批細粒度類別都被同時標注為了自己+粗粒度版本。

假設某個關系A，有1/2的數(shù)據(jù)被標注為了對應的粗粒度類別B。這就意味著，對于A這個類別在訓練時，會有一半的時間認為A是對的，另一半時間認為B是對的。 這種情況下，即便加了reweighting，rebalancing之類的方法，也無法改變模型在沖突的標注上搞優(yōu)化這一事實。 這也就是我們說的屬于SGG模型的 “精神內(nèi)耗”。

3. 方法

方法簡介

既然所有問題都來源于數(shù)據(jù)，我們的方法就是直接修改標注數(shù)據(jù)。首先對于粗粒度和細粒度的標注沖突，我們會從粗粒度往對應的細粒度轉移數(shù)據(jù)。此外，SGG數(shù)據(jù)集還有一個特點，就是partially labeled。很多無標注的物體對，并不是沒有關系，而是漏標了。所以我們不光可以從粗粒度到細粒度轉移數(shù)據(jù)，還可以從無標注到有標注轉移數(shù)據(jù)來做尾部數(shù)據(jù)的數(shù)據(jù)增強。

3.1 內(nèi)部轉移

我們通過在訓練集上inference一個訓練好的模型發(fā)現(xiàn)：即便在訓練集上，細粒度的關系也會非常容易被對應的粗粒度關系打敗。比如在下圖中，所有被標注為(man, riding, motorcycle)的數(shù)據(jù)預測得分最高的并不是riding，而是on。

訓練集(man, motorcycle)之間常見關系得分的混淆矩陣

這恰好給我們提供了一個切入點。我們會在訓練集上發(fā)現(xiàn)這些易混淆的謂語對，比如riding和on。更嚴謹一點，給定一類關系三元組(比如，man riding motorcycle)，我們會在訓練集上收集所有該類型的數(shù)據(jù)，然后用訓練過的SGG模型打分。如果某些預測關系比Ground-Truth的標注得分還要高，我們則認為這些關系對于我們的Ground-Truth關系來說是易混淆的關系。

內(nèi)部轉移方法示意圖

但是，易混淆并不意味著就是粗粒度-細粒度關系。所以，我們通過定義了一個吸引指數(shù)來進一步判斷他們是否構成一個合格的粗粒度-細粒度關系對。具體細節(jié)可以參照論文。最后，我們簡單粗暴的從粗粒度關系向細粒度關系轉移了 kIk_I%k_I% %的數(shù)據(jù)。

3.2 外部轉移

外部轉移大致上follow了我們之前的Visual Distant Supervision（https://zhuanlan.zhihu.com/p/452391206）的形式?；镜南敕ㄊ菍ξ礃俗?bounding box有重疊的object pair用模型重新打分，選取其中最可能有關系的前 kEk_Ek_E %數(shù)據(jù)轉移為有標注數(shù)據(jù)。同時為了更專注于尾部數(shù)據(jù)，我們僅僅對前15類之外的類別做增強。

最后兩部分增強的數(shù)據(jù)，我們會直接組合起來作為一個增強數(shù)據(jù)集。

4. 新數(shù)據(jù)集

我們總共驗證了兩個benchmark。一個是最常用的50類關系的VG數(shù)據(jù)集，為了方便，我們在論文中簡稱VG-50 (其他論文里也有叫VG-150, VG-200的)。此外，我們還為大規(guī)模的關系檢測專門劃分了一個新的benchmark VG-1800。

更可靠！ VG-1800旨在為大規(guī)模關系檢測的評測服務。我們手動過濾掉了不合理的關系，比如一些拼寫錯誤，名詞，形容詞。此外，通過觀察過之前基于VG的大規(guī)模SGG數(shù)據(jù)集(VG8K，VG8K-LT)，我們發(fā)現(xiàn)很多關系只存在于訓練集，測試集一個也沒有，或者測試集僅僅有一個兩個?？紤]到這一點，我們確保了測試集上每一種關系至少5個sample，訓練集上每種關系至少1個sample。

更豐富！VG1800包含了更加豐富的關系類別:

(car, pulled by, engine)	(car, driving alongside, road)	(horse, possesses, leg)
(train, switching, track)	(wave, breaking in, wave)	(horse, galloping on, beach)
(window, on exterior of, house)	(cloud, floating through, sky)	(window, at top of, tower )

更有挑戰(zhàn)！ 首先，在VG1800中，之前提及的長尾部分和標注問題帶來的優(yōu)化沖突變得更為嚴重。這也導致現(xiàn)有的resampling和reweighting會比較難用。如果有小伙伴仔細看了論文，可能會發(fā)現(xiàn)我們在VG50中應用了reweighting來做方法增強，但在VG1800上面卻沒有采用。這是由于VG1800過于懸殊的頭尾類別數(shù)量導致常規(guī)的reweighting factor難以work。一些常規(guī)的 1/freq1/freq1/freq 或者 1/freq\sqrt{1/freq}\sqrt{1/freq} 會直接導致模型過于關注于標注稀疏且高噪音的尾部類別，從而使得模型的識別能力大幅度下降，嚴重情況下甚至不收斂。但如果猛調reweighting factor的temperature可能又會造成低效。

5. 實驗

在VG-50上，我們驗證了方法的通用性+有效性。

VG-50模型performance

可以看出我們的方法可以比較有效的提升mR指標。

在VG-1800上面，我們進一步驗證了我們方法的效果。

VG1800模型performance

當別人只能做出37個正確預測的時候，我們可以做出467個正確預測。

具體到實際效果，我們的模型可以說出更多樣的關系類型:

原始Motif和我們的IETrans增強版模型在VG1800 PREDCLS任務上的對比6. 展望未來

現(xiàn)在來到了胡扯環(huán)節(jié)。。。

展望一下未來，簡單討論一下我自己覺得比較有意思的一些未來方向。

場景圖生成這個任務作為一個檢測任務，我覺得可以搞的地方無非就是兩點：定位＋分類。我下面會從方法層面和任務層面重點討論一下分類方面。

6.1 方法層面

我覺得數(shù)據(jù)為中心的方法創(chuàng)新是一個非常有前景的方向。我們這里以SGG中存在的標注問題為例子。首先，我們可以把這些標注問題劃分為兩類：一類是partially label，另一類是noisy label。其中partially label指的是標簽標注不全。 比如我們提到的標注沖突，其實就是指在SGG這個多標簽分類任務中只標注了部分單標簽。內(nèi)部轉移也就是為粗粒度標簽標注部分擴展出漏標的細粒度標簽，然后使用更重要的細粒度標簽做監(jiān)督。而我們的外部轉移則是嘗試利用NA數(shù)據(jù)中漏標的部分。Noisy label則主要指標注錯誤。 對于VG這樣一個巨大的數(shù)據(jù)集，其中其實包含了大量的標注噪音。比如錯誤的關系標注；很多物體被重復標注了多個bounding box。

數(shù)據(jù)上的特點(充足+標注問題+長尾)+評價指標(重視mR)選取其實也為我們做research帶來了一點好處：那就是SGG任務難以被預訓練模型直接刷爆。我相信很多做VL多模態(tài)的同學都會發(fā)現(xiàn)，當各種大模型(e.g. BEIT v3)橫空出世之后，似乎VL相關的榜單(e.g. VQA)已經(jīng)沒有非預訓練模型的位置了。但是對于視覺關系檢測來說，預訓練模型(我們試過finetune VinVL)確實可以帶來一定的增益，比如PREDCLS上mR@100從17、18->20。但顯然20這個performance，還不如加一個reweighting來緩解長尾分布管用。

其次，數(shù)據(jù)層面的方法創(chuàng)新和之前方法一定程度上是正交的。數(shù)據(jù)層面的方法創(chuàng)新不光可以輔助不同模型，還可以進一步裝備分布調整的方法，比如reweighting。這極大程度的避免了，別人出了新模型，我就不是SOTA的尷尬狀況。此外，這個方向剛剛還比較稚嫩，會比較容易做出改進。比如，我們的內(nèi)部轉移就是非常粗暴的對所有類別定了一個百分比來做轉移，看起來毫無技術含量。。。

最后，這些數(shù)據(jù)層面的方法創(chuàng)新是可以擴展到其他VL領域的。 就近來說，我們可以探索其他大規(guī)模檢測任務中的partially label+noisy label問題，比如LVIS數(shù)據(jù)集的大規(guī)模Instance Segmentation。往遠了說，VQA當中一樣存在著嚴重的partially label問題。當我們問大海里有多少水。顯然a lot of，lots of，much都是表達一樣的意思，但我們往往只能標注出一小部分。插一個現(xiàn)象，這種高度partially labeled數(shù)據(jù)，我們甚至難以過擬合(VG訓練終止時train set準確率<75%)。再遠一點，我們考可以慮VL預訓練。一個很好的例子就是BLIP，BLIP通過進一步清潔數(shù)據(jù)取得了很好的效果。

6.2 任務層面

我認為一個好的任務起碼需要具備兩個特點，一個是有用，一個是能提供豐富的工作崗位。

首先從有用角度來講， 我覺得現(xiàn)有SGG在兩點上有比較大的欠缺，一個是精準，一個是細粒度。精準指的是精準的定位+正確的分類。以精準的定位為例子，我覺得最近的Panoptic Scene Graph Generation就是一個很好的擴展。這里我們不多加贅述。

我們主要想分析一下細粒度。其實圖像中顯著物體粗粒度的物體+關系，用預訓練模型已經(jīng)可以做的相當好了。我們只要搞個模型生成一下caption很大程度上就足夠cover了。那為什么我們還要繼續(xù)做SGG呢？我認為，SGG必須要做到預訓練模型做不到的東西，而超級細粒度的分類就是一個選項。我們要讓SGG模型去說出預訓練模型說不出的詞匯。當預訓練模型只能說"cloud in the sky"，"toy on the table"，我們可以說出(cloud, floating through, sky)，(teddy bear, sitting on, dining table)。我還要讓SGG模型去檢測被預訓練模型忽視的關系(非顯著區(qū)域) 。比如，當我們面對下圖提問問兔子手里拿的是什么時？預訓練模型(OFA-base)會傾向于回答梳子，但如果我們可以檢測到(兔子，拿著，籃子)這樣的關系，就可以很大程度避免預訓練模型犯錯誤。所以我們本文當中非常認真的搞了一個大規(guī)模SGG的VG-1800 benchmark。

VQA圖片例子

其次，我認為大規(guī)模的細粒度的SGG可以提供很多工作崗位，也就是有很多東西可以(平民化的)做。最簡單的，可以參考6.1中提及的數(shù)據(jù)問題，去搞一些數(shù)據(jù)為中心的方法創(chuàng)新。此外，按照我們6.1中分析的，大規(guī)模細粒度SGG難以被預訓練模型直接替代，但這恰好提供給我們?nèi)プ龆ㄖ苹痑daption的機會。VG-1800當中有大量的關系只有個位數(shù)級別的標注數(shù)據(jù)，無論數(shù)據(jù)如何増廣都難以達到很好的效果。于是，借助預訓練模型去做一些prompt之類的方法就成了一個比較有有意思的搞法。

本文僅做學術分享，如有侵權，請聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

ECCV 2022 Oral｜原來Scene Graph Generation也有精神內(nèi)耗

相關推薦

技術專區(qū)