在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<abbr id="27omo"></abbr>

<menu id="27omo"><dl id="27omo"></dl></menu>
    • <label id="27omo"><tt id="27omo"></tt></label>

      博客專欄

      EEPW首頁 > 博客 > CVPR2021:單目實時全身動作捕捉(清華大學)

      CVPR2021:單目實時全身動作捕捉(清華大學)

      發(fā)布人:計算機視覺工坊 時間:2021-05-14 來源:工程師 發(fā)布文章

      1.png

      摘要:

      本文提出了第一種實時全身捕捉的方法,該方法通過單一顏色圖像的動態(tài)3D人臉模型來估計身體和手的形狀和運動。研究人員使用了一種新的神經網絡框架,考慮了身體和手部之間的相關性,并能夠以高效率進行內部運算。與以往的研究不同的是,該研究方法是在多個數據集上聯合訓練,分別關注手部、身體或面部,不需要同時標注所有的數據。這種通過多數據集進行訓練的方法,使得該框架具有優(yōu)越的泛化能力。與早期的單目全身方法相比,本文中的方法通過估算統(tǒng)計人臉模型的形狀、表情、反照率和光照參數等捕捉更具有表現力的3D人臉的幾何形狀和顏色。該方法在公共數據集基準上測試獲得較高的精度,同時能夠提供更完整的面部重建。 

      研究貢獻:

      (1)   第一種實時方法,可以從單一顏色圖像中共同捕獲人的3D身體,手部和臉部。

      (2)   一種新穎的網絡結構,并利用人體內部的相關性進行手部關鍵點檢測,從而提高了計算效率和準確性。

      (3)   利用解耦模塊,注意機制和二級主體關鍵點檢測結構等,提高了該框架的通用性。 

      研究方法:

      2.png

      如上圖所示,研究人員將單目彩色圖像作為輸入,并輸出2D和3D關鍵點位置,關節(jié)角度以及身體和手部的形狀參數,以及面部表情,形狀,反照率和光照參數。然后,研究人員對新的參數模型進行動畫處理,以恢復致密的人體表面。整個網絡框架主要被劃分為四個獨立的模塊:DetNet,是根據人體圖像估算人體和手部關鍵點的位置,其中嵌有新的交互特征,注意力機制和二級人體關鍵點檢測結構。BodyIKNet和HandIKNet,是根據人體和手部的關鍵點坐標估計形狀參數和關節(jié)角度;FaceNet,是用于從人臉圖像裁剪中回歸獲取人臉的參數。

      (1) DetNet

      關鍵點檢測網絡DetNet的目標是根據輸入圖像估算3D身體和手部關鍵點坐標。因為身體和手部在圖像中的比例不同,因此單個網絡無法同時處理兩項任務。簡單常用的解決方案是使用兩個單獨的網絡,但是這意味著將需要更長的運行時間,從而難以滿足實時性。該項研究中,研究人員觀察發(fā)現:利用身體關鍵點估計提取的手部區(qū)域的全局特征可以與手部構建分支共享。通過將它們與從手部區(qū)域中單獨提取的高頻局部特征相結合,可以避免對手部高級特征的計算,并且可以提供用于手部關鍵點檢測的身體信息,更有利于獲得更高的精度。

      (2) IKNet

      稀疏的3D關鍵點位置不足以驅動CG角色模型,如果想要對人體網格模型進行動畫處理,并且獲得密集的人體表面,需要從稀疏的關鍵點中估計人體的關節(jié)角度。這種計算任務稱為逆運動學(IK)。通常,IK任務是通過迭代優(yōu)化方法解決的,這種方法運算時間較長。但是,在這項研究中,研究人員使用稱為IKNet的完全連接的神經網絡模塊從關鍵點坐標回歸關節(jié)角度,借助附加的MoCap數據進行訓練,IKNet會從數據中隱式地先獲取一個姿勢,從而進一步減少了關鍵點位置誤差。由于采用了端到端的體系結構,IKNet獲得了卓越的運行性能,有利于提高實時性。

      IKNet是一個完全連接的網絡,它輸入關鍵點坐標,輸出身體和手的關節(jié)旋轉。與其他方法相比,研究人員使用相對6D旋轉作為輸出公式,并且在神經網絡中另外估算了形狀參數和比例因子。由于幾乎沒有同時包含身體和手部關節(jié)旋轉的MoCap數據,因此研究人員訓練BodyIKNet和HandIKNet分別估計身體和手部的關節(jié)旋轉,而不是訓練一個將所有關節(jié)角度都回歸的網絡。損失定義為:

      3.jpg

      (3) FaceNet

      研究人員采用了FaceNet卷積模塊,從一個面部中心為中心的圖像估計3DMM統(tǒng)計人臉模型的形狀,表情,反照率和光照參數。通過根據DetNet估計的面部裁剪圖像來獲得面部圖像。與之前僅僅估計面部表情的全身捕捉的研究相比,利用這種方法,研究人員對形狀,反照率和光照參數的回歸可提供更為個性化和逼真的效果。由于原始的FaceNet中的原始模型對圖像中人臉的大小和位置很敏感,因此研究人員使用DetNet產生的人臉對其進行微調,能夠實現更好的泛化。 

      實驗:

      研究人員利用AMASS,HUMBI和SPIN數據集訓練BodyIKNet,并按照已有方法使用MoCap數據訓練HandIKNet。對HandIKNet和BodyIKNet的訓練數據進行增強。FaceNet在VoxCeleb2數據集上進行預訓練,并使用來自MTC的面部圖像進行微調。研究人員使用與MTC,HM36M和MPII3D中相同的評價標準評估MTC,HM36M,MPII3D和HUMBI在人體運動預測的結果。在HUMBI數據集上,研究人員選擇15個評估的關鍵點,從而與其他數據集保持一致,同時忽略圖像外部的關鍵點。對于手部評估,研究人員使用MTC數據集和FreiHand數據集。由于并非所有MTC中的測試圖像都帶有雙手的標注,因此研究人員僅對帶有雙手標記的樣本進行評估,稱為MTC-Hand。研究人員使用以毫米為單位的平均關節(jié)位置誤差作為身體和手部姿勢估計的度量。

      4.png

      研究人員在上圖中給出定性結果,并與Choutas等人的最新方法進行了比較。盡管實驗結果顯示該種方法的速度更快,但是可以提供具有質量的預測結果。在第一行中,顯示了該模型捕獲的詳細的手勢,而Choutas等人給出了過度平滑的估計。這是因為研究人員利用了從高分辨率手形圖像中提取的高頻局部特征。在第二行中,證明了該研究中手部姿勢與手腕和手臂的姿勢一致,而Choutas等人的結果在人體解剖學上是不正確的。這是由于該研究利用身體信息進行手勢估計。研究人員在第三行中證明,隨著面部形狀和顏色的變化,研究人員的方法可提供高度個性化的捕獲結果,而Choutas等人則缺少身份信息。

      5.png

      在上圖中,研究人員比較了兩種不同的面部裁剪捕捉結果。由于研究人員的方法不估計相機姿態(tài),為了疊加可視化,研究人員采用PnP-RANSAC和PA來對齊研究人員的3D和2D預測。

      6.png

      研究人員在上表中報告了實驗中手部姿態(tài)估計的結果。IK后的結果是基于handknet估計的形狀參數。在MTCHand測試集上,研究人員的平均誤差只有9.3毫米。研究人員認為IK后誤差增加1.1mm是因為SMPLH和MTC手部模型在關鍵點上存在定義的差異,因為骨長度的差異平均為25%。在FreiHand,研究結果的差異增加了,這是因為FreiHand是一個只有手部姿態(tài)的數據集,而在本文的研究方法中,人體姿態(tài)依賴于身體信息。由于研究方法中沒有特定應用于手部的網絡,為了對手部運動進行評估,研究人員必須將手的圖像填充到完整的尺寸,并將其輸入到模型中,如下圖所示,就像呈現身體一樣。即使這種方法存在很多的不足,但是通過這種方法后,實驗結果與Choutas等人的研究結果依舊旗鼓相當。

      7.png

      總結:

      研究人員提出了第一種實時方法,可以從單個RGB圖像中捕獲身體,手部和臉?;谟^察到的身體和手部運動是內部相關的這一特性,研究人員利用這種關鍵部位之間的相關性設計網絡,從而獲得較高的運算效率和運算準確性。

      通過將網絡訓練為獨立的模塊,引入注意機制和二階段人體關鍵點檢測,研究人員利用了多個不同的數據集并取得了較好的實驗結果。此外,該種方法不僅可以捕捉表情,還可以捕捉與身份相關的形狀和反照率等參數,從而獲得更具個性化的面部表情。接下來,研究的方向可能涉及身體紋理部分,以獲得彩色的人體跟蹤或人體表面的變形。

      本文僅做學術分享,如有侵權,請聯系刪文。

      *博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



      關鍵詞: AI

      相關推薦

      技術專區(qū)

      關閉