在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > NeurIPS'22|Hinton團隊開源:用一個統(tǒng)一的接口處理四大視覺任務

            NeurIPS'22|Hinton團隊開源:用一個統(tǒng)一的接口處理四大視覺任務

            發(fā)布人:AI科技大本營 時間:2023-02-21 來源:工程師 發(fā)布文章

            圖片


            論文鏈接:https://arxiv.org/pdf/2206.07669v2.pdf源碼鏈接:https://github.com/google-research/pix2seq
            簡介


            訓練能夠執(zhí)行無數(shù)個任務的單個神經(jīng)網(wǎng)絡模型是邁向通用人工智能的重要一步。在NLP領域,許多NLP相關任務都可以統(tǒng)一在大型語言模型下進行。主要原因是這些任務可以用相同的界面表示。而相似的方法目前在計算機視覺只能用于圖像描述和圖像問答任務,主要是因為輸出是自然語言形式的,主題的計算機詩句任務有不同的輸出,不能像NLP有類似的表示。
            本文提出了一種將四個看似不同的視覺任務(目標檢測,實例分割,關鍵點檢測,圖像描述)統(tǒng)一在單個像素到序列界面中的方法。本文方法是對在目標檢測任務中使用的Pix2Seq模型到一系列任務的擴展。
            本文框架


            令牌化的統(tǒng)一接口


            一般認為不同的計算機視覺輸出是完全不同的。比如本文關注的四個任務:目標檢測任務需要模型產(chǎn)生對所有物體的包圍框,且沒有重復。實例分割任務需要模型產(chǎn)生對每一個物體的密集像素掩碼。人體關鍵點檢測需要模型生成與人體部位上的標志的特定位置相對應的點。圖像描述需要模型產(chǎn)生與圖像對應的自然語言描述。
            本文方法提出一種對于四個關注任務的序列接口,即所有任務的描述和輸出都表示為若干離散令牌組成的序列。
            • 目標檢測:一個物體由五個離散令牌表示,。每次訓練樣本時多個物體隨機采樣序列化后形成最終令牌。
            • 實例分割:這里預測實例掩碼的多邊形描述,并將多邊形描述為一序列的坐標,并將坐標轉為離散令牌。這里每次采樣訓練圖片對應的開始點的開始令牌是隨機的。如果存在相同實例的多個多邊形,通過一個分割令牌聚集每個多邊形的表示序列。
            • 關鍵點檢測:類似地,這里也是用一系列坐標表示關鍵點檢測結果,。這里為了簡潔省略了關鍵點類別標簽。如果某個關鍵點被遮擋,相應的坐標令牌被一個特別的令牌取代。
            • 圖像描述:直接預測離散的文本令牌。

            統(tǒng)一的架構和損失函數(shù)


            這里使用常用的encoder-decoder架構,包括一個圖像編碼器和一個序列****。圖像編碼器接收像素信息映射到隱藏的表示,一般用CNN,Transformer或組合架構。
            與Pix2Seq方法只關注單一任務不同的是,****以一個任務的prompt為條件,直接為單個目標檢測任務產(chǎn)生輸出token,以便模型可以產(chǎn)生適應于關注任務的輸出。在訓練期間,模型將prompt和期望的輸出連接到單個序列中,利用token加權方案確保****只被訓練來預測期望的輸出,而不是prompt令牌。在推理過程中,prompt是給定的,并且是固定的,所以****只需要產(chǎn)生序列的其余部分。類似于Pix2Seq方法,訓練目標是最大化基于圖像的令牌和之前的令牌的似然性。
            多個任務的訓練


            這里給出兩種不同任務訓練數(shù)據(jù)合并的方法:
            1. 數(shù)據(jù)混合。合并不同任務的圖像和相應輸出序列。優(yōu)點是構建很簡單,但很難加入圖像增廣。
            2. 批混合。采樣不同任務的圖像,經(jīng)適合當前任務的增廣處理,合并令牌化的輸出序列得到圖像-序列對。這種方法可以獨立地為了一個任務計算損失和梯度,并以合適的權重融合不同任務的梯度。

            本文方法考慮使用批混合策略。
            推斷


            在推理階段,在序列的開頭給出一個prompt,然后從模型的似然分布中采樣令牌。令牌得到后就可以為每個任務解碼。
            實驗


            表1給出了實驗結果。比較的模型包括:單一模型:模型用相同的架構和損失函數(shù)在單一任務上訓練,每個任務有自己的網(wǎng)絡權重。多任務模型:單一的網(wǎng)絡權重用于全部四個任務。結果表明本文方法可以在每一個任務上與baseline相比都能取得有競爭力的結果(甚至是較小圖像尺寸輸入條件下)。
            圖片
            圖4給出了如何選擇合適的各任務損失函數(shù)加權系數(shù)。這里使用貪心策略。圖4(a)給出了搜素目標檢測與實例分割間權重比例的搜索結果??梢钥闯鲈谝粋€較廣的范圍內,兩個任務的性能都接近峰值。之后實驗簡單選擇2:8的權重比例。加入圖像描述任務后,在9:1的權重比例下是對當前任務是較合適的。加入關鍵點檢測后發(fā)現(xiàn)權重能設置的較小,這里選擇為0.01。
            圖片
            部分圖片可視化結果:
            圖片圖片圖片


            *博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



            關鍵詞: AI

            相關推薦

            技術專區(qū)

            關閉