在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > ECCV 2022 Oral|原來Scene Graph Generation也有精神內(nèi)耗

            ECCV 2022 Oral|原來Scene Graph Generation也有精神內(nèi)耗

            發(fā)布人:計算機視覺工坊 時間:2022-11-19 來源:工程師 發(fā)布文章
            作者丨張傲-NUS@知乎(已授權)

            來源丨h(huán)ttps://zhuanlan.zhihu.com/p/544493192編輯丨極市平臺

            文章主要介紹我們在ECCV 2022 Oral (2 accept, 1 weak accept)的論文"Fine-Grained Scene Graph Generation with Data Transfer"。主要內(nèi)容包括對于Scene Graph現(xiàn)有問題的介紹 (標題里的精神內(nèi)耗),我們的方法。最后是關于場景圖生成(SGG)領域的一些感受

            圖片

            論文:https://arxiv.org/abs/2203.11654

            代碼:https://github.com/waxnkw/IETrans-SGG.pytorch

            1. Scene Graph Generation介紹

            Scene Graph Generation (SGG)旨在檢測圖像中的(主, 謂, 賓)三元組。如下圖:

            圖片場景圖生成任務介紹2. 問題

            從效果來看,現(xiàn)有的SGG模型生成的場景圖僅僅能在少數(shù)幾個頭部做出正確預測。以最常用的50類謂語分類(Predicate Classification)任務為例子,一個正常訓練的Neural Motif模型僅僅能在21類上面做出正確預測。具體效果:

            圖片拉垮的SGG模型

            然而,類似于on,under這樣的關系過于簡單,很難為下游任務提供有用的信息。隨便找一個caption模型都能達到類似甚至更好的效果。

            所以,為什么效果如此拉垮?在本文中中,我們主要討論了兩個原因。第一個是老生常談的長尾分布問題。在此不多加贅述。第二個則是我們想重點強調的一個問題 “標注沖突”。標注人員為了省力,在很多情況下會把riding on這樣的細粒度關系標注為on這樣的粗粒度關系。也就是說,一大批細粒度類別都被同時標注為了自己+粗粒度版本。

            假設某個關系A,有1/2的數(shù)據(jù)被標注為了對應的粗粒度類別B。這就意味著,對于A這個類別在訓練時,會有一半的時間認為A是對的,另一半時間認為B是對的。 這種情況下,即便加了reweighting,rebalancing之類的方法,也無法改變模型在沖突的標注上搞優(yōu)化這一事實。 這也就是我們說的屬于SGG模型的 “精神內(nèi)耗”。

            3. 方法圖片方法簡介

            既然所有問題都來源于數(shù)據(jù),我們的方法就是直接修改標注數(shù)據(jù)。首先對于粗粒度和細粒度的標注沖突,我們會從粗粒度往對應的細粒度轉移數(shù)據(jù)。此外,SGG數(shù)據(jù)集還有一個特點,就是partially labeled。很多無標注的物體對,并不是沒有關系,而是漏標了。所以我們不光可以從粗粒度到細粒度轉移數(shù)據(jù),還可以從無標注到有標注轉移數(shù)據(jù)來做尾部數(shù)據(jù)的數(shù)據(jù)增強。

            3.1 內(nèi)部轉移

            我們通過在訓練集上inference一個訓練好的模型發(fā)現(xiàn):即便在訓練集上,細粒度的關系也會非常容易被對應的粗粒度關系打敗。比如在下圖中,所有被標注為(man, riding, motorcycle)的數(shù)據(jù)預測得分最高的并不是riding,而是on。

            圖片訓練集(man, motorcycle)之間常見關系得分的混淆矩陣

            這恰好給我們提供了一個切入點。我們會在訓練集上發(fā)現(xiàn)這些易混淆的謂語對,比如riding和on。更嚴謹一點,給定一類關系三元組(比如,man riding motorcycle),我們會在訓練集上收集所有該類型的數(shù)據(jù),然后用訓練過的SGG模型打分。如果某些預測關系比Ground-Truth的標注得分還要高,我們則認為這些關系對于我們的Ground-Truth關系來說是易混淆的關系。

            圖片內(nèi)部轉移方法示意圖

            但是,易混淆并不意味著就是粗粒度-細粒度關系。所以,我們通過定義了一個吸引指數(shù)來進一步判斷他們是否構成一個合格的粗粒度-細粒度關系對。具體細節(jié)可以參照論文。最后,我們簡單粗暴的從粗粒度關系向細粒度關系轉移了 kIk_I%k_I% %的數(shù)據(jù)。

            3.2 外部轉移

            外部轉移大致上follow了我們之前的Visual Distant Supervision(https://zhuanlan.zhihu.com/p/452391206)的形式?;镜南敕ㄊ菍ξ礃俗?bounding box有重疊的object pair用模型重新打分,選取其中最可能有關系的前 kEk_Ek_E %數(shù)據(jù)轉移為有標注數(shù)據(jù)。同時為了更專注于尾部數(shù)據(jù),我們僅僅對前15類之外的類別做增強。

            最后兩部分增強的數(shù)據(jù),我們會直接組合起來作為一個增強數(shù)據(jù)集。

            4. 新數(shù)據(jù)集

            我們總共驗證了兩個benchmark。一個是最常用的50類關系的VG數(shù)據(jù)集,為了方便,我們在論文中簡稱VG-50 (其他論文里也有叫VG-150, VG-200的)。此外,我們還為大規(guī)模的關系檢測專門劃分了一個新的benchmark VG-1800。

            更可靠! VG-1800旨在為大規(guī)模關系檢測的評測服務。我們手動過濾掉了不合理的關系,比如一些拼寫錯誤,名詞,形容詞。此外,通過觀察過之前基于VG的大規(guī)模SGG數(shù)據(jù)集(VG8K,VG8K-LT),我們發(fā)現(xiàn)很多關系只存在于訓練集,測試集一個也沒有,或者測試集僅僅有一個兩個??紤]到這一點,我們確保了測試集上每一種關系至少5個sample,訓練集上每種關系至少1個sample。

            更豐富!VG1800包含了更加豐富的關系類別:

            (car, pulled by, engine)(car, driving alongside, road)(horse, possesses, leg)
            (train, switching, track)(wave, breaking in, wave)(horse, galloping on, beach)
            (window, on exterior of, house)(cloud, floating through, sky)(window, at top of, tower )

            更有挑戰(zhàn)! 首先,在VG1800中,之前提及的長尾部分和標注問題帶來的優(yōu)化沖突變得更為嚴重。這也導致現(xiàn)有的resampling和reweighting會比較難用。如果有小伙伴仔細看了論文,可能會發(fā)現(xiàn)我們在VG50中應用了reweighting來做方法增強,但在VG1800上面卻沒有采用。這是由于VG1800過于懸殊的頭尾類別數(shù)量導致常規(guī)的reweighting factor難以work。一些常規(guī)的 1/freq1/freq1/freq 或者 1/freq\sqrt{1/freq}\sqrt{1/freq} 會直接導致模型過于關注于標注稀疏且高噪音的尾部類別,從而使得模型的識別能力大幅度下降,嚴重情況下甚至不收斂。但如果猛調reweighting factor的temperature可能又會造成低效。

            5. 實驗

            在VG-50上,我們驗證了方法的通用性+有效性。

            圖片VG-50模型performance

            可以看出我們的方法可以比較有效的提升mR指標。

            在VG-1800上面,我們進一步驗證了我們方法的效果。

            圖片VG1800模型performance

            當別人只能做出37個正確預測的時候,我們可以做出467個正確預測。

            具體到實際效果,我們的模型可以說出更多樣的關系類型:

            圖片原始Motif和我們的IETrans增強版模型在VG1800 PREDCLS任務上的對比6. 展望未來

            現(xiàn)在來到了胡扯環(huán)節(jié)。。。

            展望一下未來,簡單討論一下我自己覺得比較有意思的一些未來方向。

            場景圖生成這個任務作為一個檢測任務,我覺得可以搞的地方無非就是兩點:定位+分類。我下面會從方法層面和任務層面重點討論一下分類方面。

            6.1 方法層面

            我覺得數(shù)據(jù)為中心的方法創(chuàng)新是一個非常有前景的方向。我們這里以SGG中存在的標注問題為例子。首先,我們可以把這些標注問題劃分為兩類:一類是partially label,另一類是noisy label。其中partially label指的是標簽標注不全。 比如我們提到的標注沖突,其實就是指在SGG這個多標簽分類任務中只標注了部分單標簽。內(nèi)部轉移也就是為粗粒度標簽標注部分擴展出漏標的細粒度標簽,然后使用更重要的細粒度標簽做監(jiān)督。而我們的外部轉移則是嘗試利用NA數(shù)據(jù)中漏標的部分。Noisy label則主要指標注錯誤。 對于VG這樣一個巨大的數(shù)據(jù)集,其中其實包含了大量的標注噪音。比如錯誤的關系標注;很多物體被重復標注了多個bounding box。

            數(shù)據(jù)上的特點(充足+標注問題+長尾)+評價指標(重視mR)選取其實也為我們做research帶來了一點好處:那就是SGG任務難以被預訓練模型直接刷爆。我相信很多做VL多模態(tài)的同學都會發(fā)現(xiàn),當各種大模型(e.g. BEIT v3)橫空出世之后,似乎VL相關的榜單(e.g. VQA)已經(jīng)沒有非預訓練模型的位置了。但是對于視覺關系檢測來說,預訓練模型(我們試過finetune VinVL)確實可以帶來一定的增益,比如PREDCLS上mR@100從17、18->20。但顯然20這個performance,還不如加一個reweighting來緩解長尾分布管用。

            其次,數(shù)據(jù)層面的方法創(chuàng)新和之前方法一定程度上是正交的。數(shù)據(jù)層面的方法創(chuàng)新不光可以輔助不同模型,還可以進一步裝備分布調整的方法,比如reweighting。這極大程度的避免了,別人出了新模型,我就不是SOTA的尷尬狀況。此外,這個方向剛剛還比較稚嫩,會比較容易做出改進。比如,我們的內(nèi)部轉移就是非常粗暴的對所有類別定了一個百分比來做轉移,看起來毫無技術含量。。。

            最后,這些數(shù)據(jù)層面的方法創(chuàng)新是可以擴展到其他VL領域的。 就近來說,我們可以探索其他大規(guī)模檢測任務中的partially label+noisy label問題,比如LVIS數(shù)據(jù)集的大規(guī)模Instance Segmentation。往遠了說,VQA當中一樣存在著嚴重的partially label問題。當我們問大海里有多少水。顯然a lot of,lots of,much都是表達一樣的意思,但我們往往只能標注出一小部分。插一個現(xiàn)象,這種高度partially labeled數(shù)據(jù),我們甚至難以過擬合(VG訓練終止時train set準確率<75%)。再遠一點,我們考可以慮VL預訓練。一個很好的例子就是BLIP,BLIP通過進一步清潔數(shù)據(jù)取得了很好的效果。

            6.2 任務層面

            我認為一個好的任務起碼需要具備兩個特點,一個是有用,一個是能提供豐富的工作崗位。

            首先從有用角度來講, 我覺得現(xiàn)有SGG在兩點上有比較大的欠缺,一個是精準,一個是細粒度。精準指的是精準的定位+正確的分類。以精準的定位為例子,我覺得最近的Panoptic Scene Graph Generation就是一個很好的擴展。這里我們不多加贅述。

            我們主要想分析一下細粒度。其實圖像中顯著物體粗粒度的物體+關系,用預訓練模型已經(jīng)可以做的相當好了。我們只要搞個模型生成一下caption很大程度上就足夠cover了。那為什么我們還要繼續(xù)做SGG呢?我認為,SGG必須要做到預訓練模型做不到的東西,而超級細粒度的分類就是一個選項。我們要讓SGG模型去說出預訓練模型說不出的詞匯。當預訓練模型只能說"cloud in the sky","toy on the table",我們可以說出(cloud, floating through, sky),(teddy bear, sitting on, dining table)。我還要讓SGG模型去檢測被預訓練模型忽視的關系(非顯著區(qū)域) 。比如,當我們面對下圖提問問兔子手里拿的是什么時?預訓練模型(OFA-base)會傾向于回答梳子,但如果我們可以檢測到(兔子,拿著,籃子)這樣的關系,就可以很大程度避免預訓練模型犯錯誤。所以我們本文當中非常認真的搞了一個大規(guī)模SGG的VG-1800 benchmark。

            圖片VQA圖片例子

            其次,我認為大規(guī)模的細粒度的SGG可以提供很多工作崗位,也就是有很多東西可以(平民化的)做。最簡單的,可以參考6.1中提及的數(shù)據(jù)問題,去搞一些數(shù)據(jù)為中心的方法創(chuàng)新。此外,按照我們6.1中分析的,大規(guī)模細粒度SGG難以被預訓練模型直接替代,但這恰好提供給我們?nèi)プ龆ㄖ苹痑daption的機會。VG-1800當中有大量的關系只有個位數(shù)級別的標注數(shù)據(jù),無論數(shù)據(jù)如何増廣都難以達到很好的效果。于是,借助預訓練模型去做一些prompt之類的方法就成了一個比較有有意思的搞法。

            本文僅做學術分享,如有侵權,請聯(lián)系刪文。


            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



            關鍵詞: AI

            相關推薦

            技術專區(qū)

            關閉