CVPR 2022 Oral | 創(chuàng)建一個屬于你的高保真數(shù)字人,一段單目自轉(zhuǎn)視頻就夠了
來自中科大的張舉勇教授課題組聯(lián)合杭州像衍科技有限公司與浙江大學,于近期一同提出一種基于單目 RGB 視頻的高保真三維人體重建算法SelfRecon,該算法僅需輸入目標對象一段十幾秒的自轉(zhuǎn)視頻,即可恢復重建對象的高保真數(shù)字化身。
近年來,隨著圖形技術(shù)的快速發(fā)展,各類虛擬數(shù)字人開始走入我們的日常,如數(shù)字航天員小諍、百度智能云 AI 手語主播、騰訊 3D 手語數(shù)智人 “聆語” 等紛紛亮相。實際上,三維數(shù)字人技術(shù)于我們的日常生活早有應(yīng)用,如早在 2015 年上映的電影《速度與激情 7》中,就曾使用三維數(shù)字人技術(shù)幫助復活已故演員保羅沃克。
在去年的 GTC 大會上,英偉達更是基于高保真虛擬數(shù)字人技術(shù)舉辦了一場以假亂真的產(chǎn)品發(fā)布會,一時引發(fā)廣泛關(guān)社會關(guān)注與討論。同樣地, 英偉達的數(shù)字人生成與建模同樣也需要高昂的人力成本和高端的硬件支持。據(jù)悉,英偉達為保證報告視頻中的老黃足夠真實,期間調(diào)配了 34 個 3D 美術(shù)師、15 個軟件研究人員,實現(xiàn)了 21 個不同版本的假老黃,最終展示給我們的則是從中選擇的最為理想的一個。在該版本中,英偉達可以說整合了各種建模、編輯、驅(qū)動以及渲染技術(shù),更是借助工業(yè)級高規(guī)格采集設(shè)備來保證重建的三維人體的幾何材質(zhì)精度,在耗時良久的情況下才達到如下所示的難辨真假的視覺效果。
然而,如此高昂的人力成本與時間成本、以及技術(shù)上的復雜性和專業(yè)性要求不可避免地導致相關(guān)方法難以推廣至一般消費市場。另一方面,隨著移動端手機設(shè)備的普及,單目 RGB 數(shù)據(jù)開始變得唾手可得,因此若僅僅依靠單目 RGB 視頻數(shù)據(jù)就能高效便捷地獲取普通對象的高質(zhì)量可驅(qū)動數(shù)字化身,將切實地推動虛擬數(shù)字人及其相關(guān)技術(shù)應(yīng)用與發(fā)展,而這也是三維視覺以及圖形學領(lǐng)域一直致力于的研究目標。
為此,中科大張舉勇教授課題組聯(lián)合杭州像衍科技有限公司與浙江大學,于近期一同提出一種基于單目 RGB 視頻的高保真三維人體重建算法SelfRecon,該算法僅需輸入目標對象一段十幾秒的自轉(zhuǎn)視頻,即可恢復重建對象的高保真數(shù)字化身。該研究工作已被 CVPR 2022 接收,并將于 CVPR 會議期間進行口頭報告。
論文鏈接: https://arxiv.org/abs/2201.12792
項目主頁: https://jby1993.github.io/SelfRecon/
代碼鏈接: https://github.com/jby1993/SelfReconCode
基于 SelfRecon 生成的紋理模型
SelfRecon 的重建效果如下所示。基于普通智能手機拍攝的自轉(zhuǎn)視頻,SelfRecon 可準確跟蹤三維動態(tài)幾何,并有效還原寬松衣服的動態(tài)效果。得益于輸入的簡易性,基于 SelfRecon 將有望大幅度降低人們獲取個人高保真數(shù)字化身的成本與難度。
SelfRecon 的算法流程如下所示,SelfRecon 創(chuàng)新地整合了三維顯式表示與三維隱式表示,并利用神經(jīng)可微渲染來自動化地構(gòu)建目標對象的三維數(shù)字表示。具體地,SelfRecon 一方面使用基于 MLP 的隱式函數(shù)來表示基準空間的符號距離場。同時,在優(yōu)化該 MLP 網(wǎng)絡(luò)參數(shù)的過程中,SelfRecon 會周期性地從隱式表示的符號距離場中提取顯式網(wǎng)格,接著 SelfRecon 會利用該顯式表示相關(guān)的可微遮罩 Loss 來保證顯式網(wǎng)格能夠維持和真值相近的幾何形狀。另一方面,SelfRecon 精巧地設(shè)計了一種非剛性射線投射算法來求解射線與隱式基準表面的精準交點。進一步地,SelfRecon 利用隱式神經(jīng)渲染以及交點處的相關(guān)信息來生成該射線的渲染顏色,并將渲染結(jié)果與采集到的顏色真值進行比對,從而自監(jiān)督地逐漸優(yōu)化出目標對象的隱式幾何表示。在該過程中,SelfRecon 也提出并應(yīng)用匹配損失來保證三維顯式表示與隱式表示的一致性,進而有效提升優(yōu)化過程的魯棒性。
SelfRecon 的算法流程圖
如下所示,SelfRecon 通過前向變形來建立基準幀與當前幀的聯(lián)系。首先,SelfRecon 會通過另一個隱式神經(jīng)網(wǎng)絡(luò)來建模人體運動帶動的衣物的非剛性變形。接著,SelfRecon 會使用預(yù)生成的蒙皮變形場和當前幀的人體 Pose 信息對目標人體進行鉸鏈變形。
在計算射線和隱式基準曲面交點的過程中,SelfRecon 首先計算射線與當前幀顯式網(wǎng)格的交點,接著 SelfRecon 利用當前幀顯式網(wǎng)格和基準顯式網(wǎng)格的拓撲一致性來獲得該交點在基準顯式網(wǎng)格上的對應(yīng)點。同時,由于顯式網(wǎng)格理論上是隱式曲面的分片線性估計,因此該交點應(yīng)接近于射線與隱式曲面的準確交點?;诖?,SelfRecon 將射線與基準顯式網(wǎng)格的交點作為射線與基準隱式表示交點的初值,并迭代求解相關(guān)能量來快速生成射線和基準隱式曲面的準確交點 P。此外,SelfRecon 通過推導隱式表示關(guān)于 P 的隱式微分公式來生成 P 關(guān)于各優(yōu)化變量的一階導數(shù),進而使得整個渲染過程可以有效反向傳播梯度,并端到端地優(yōu)化整個渲染過程。相關(guān)過程如下所示:
下圖展示了 SelfRecon 各個損失能量項的有效性。如下所示,雖然僅使用遮罩損失也能夠恢復整體的人體形狀,但相關(guān)結(jié)果并無法重建目標對象正確的凹凸形狀。而在添加使用了神經(jīng)渲染損失之后,可以發(fā)現(xiàn)重建結(jié)果得到明顯改進,這也證明了顏色信息的重要作用。進一步,SelfRecon 也支持利用預(yù)測的法向?qū)?yōu)化過程進行額外監(jiān)督,從而進一步提高 SelfRecon 的重建質(zhì)量。
SelfRecon 各損失的作用
下圖展示了 SelfRecon 與當前最優(yōu)方法的定性對比。如下所示,SelfRecon 獲得了 state-of-the-art 的重建效果。效果上,SelfRecon 可以對寬松衣物進行準確建模,在得到光滑曲面的同時,還能較好地恢復一些幾何細節(jié),包括衣物的褶皺,手指和面部特征等。
SelfRecon 與其他方法的比較
另外,SelfRecon 的重建結(jié)果天然地支持高清紋理提取和姿態(tài)驅(qū)動,以下視頻展示了相關(guān)驅(qū)動效果。
關(guān)于 SelfRecon 的更多算法細節(jié)與實驗結(jié)果,請參考項目主頁與論文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。