CVPR 2022 | 實時渲染、可直接編輯,中科大提出高保真人頭參數(shù)化模型HeadNeRF
《黑客帝國: 覺醒》演示中的靈魂發(fā)問:當我們打造出的世界和我們自己的世界同等真實時,那現(xiàn)實到底意味著什么?
還記得去年 12 月,美國電子游戲與軟件開發(fā)公司 Epic 發(fā)布的基于自家虛幻 5 打造的《黑客帝國: 覺醒》的演示嗎?Demo 中所展示的主演人物的毛孔毛發(fā)級高真實感建模,著實讓人驚嘆 Epic 的強大技術(shù)能力。
據(jù)悉,以上演示 Demo 中的人物形象是由 Epic 名下的 MetaHuman Creator 創(chuàng)建生成,該應(yīng)用可以讓用戶自由編輯調(diào)整目標數(shù)字形象的各種面部特征和皮膚細節(jié),甚至于精確編輯調(diào)整發(fā)型、眼型、妝容等各個局部語義屬性,且調(diào)整結(jié)果具有超逼真的顯示渲染效果。
可以說,MetaHumane Creator 在高保真數(shù)字人創(chuàng)建與渲染效果方面確立了一個新的標桿。
不過略有瑕疵的是,盡管 MetaHuman 構(gòu)建的虛擬數(shù)字人呈現(xiàn)了超逼真的成像渲染效果,但當我們刻意去觀察其合成結(jié)果時,卻總能發(fā)現(xiàn)結(jié)果有不夠真實的地方。如下圖所示。
上述所談到的不真實感可能是由 MetaHuman 的渲染假設(shè)導(dǎo)致的。具體來說,隨著圖形相關(guān)研究技術(shù)的發(fā)展,該領(lǐng)域其實是在不斷修正三維模型的光照渲染模型的,在該過程中也是提出多種三維光照類型,如朗伯光照模型,Phong 光照模型以及 BRDF 光照模型等。然而,由于真實世界的復(fù)雜性,這些假設(shè)的渲染模型仍是不可避免的會與真實物理世界的渲染存在差異,從而導(dǎo)致相關(guān)渲染結(jié)果不夠真實。
近期,一種新的渲染模型,即最近廣為關(guān)注的神經(jīng)輻射場體渲染模型(Neural Radiance Field,縮寫 NeRF),有打破上述各種假設(shè)枷鎖的趨勢,以下為一些 NeRF 相關(guān)工作的渲染效果??梢园l(fā)現(xiàn) NeRF 具有照片級的渲染精度,渲染結(jié)果亦具有 GAN 等二維生成模型所不具備的多視角一致性,更是能對玻璃、火焰、液體等進行統(tǒng)一表示。
NeRF 通過神經(jīng)渲染與神經(jīng)隱式表示來自適應(yīng)地學(xué)習(xí)適合目標渲染對象的渲染方式,這使得 NeRF 相關(guān)的渲染假設(shè)少于上述傳統(tǒng)的渲染方法,從而使得 NeRF 的渲染邏輯與真實世界的渲染更加貼合。
高保真人頭參數(shù)化模型 HeadNeRF,可創(chuàng)建與編輯高保真數(shù)字人
基于上述觀察,來自中科大張舉勇教授課題組提出了 HeadNeRF,一種基于 NeRF 的高效全息人臉頭部參數(shù)化模型,該工作發(fā)表于 CVPR 2022,相關(guān)代碼已開源。
論文地址:https://arxiv.org/pdf/2112.05637.pdf
項目主頁: https://crishy1995.github.io/HeadNeRF-Project/
代碼鏈接: https://github.com/CrisHY1995/headnerf
HeadNeRF
效果上,HeadNeRF 可以實時地渲染高清圖像級別的人臉頭部,且支持直接編輯調(diào)整渲染結(jié)果的多種語義屬性,如身份、表情以及顏色外觀等。得益于 NeRF 結(jié)構(gòu)的引入,HeadNeRF 也支持直接編輯調(diào)整渲染對象的渲染視角,同時不同視角的渲染結(jié)果具有優(yōu)秀的渲染一致性。相關(guān)編輯效果如下所示:
HeadNeRF: 高幀率版
HeadNeRF: 高質(zhì)量版
方法介紹
HeadNeRF 的 Motivation 在于,NeRF 本身可看作一種三維表示,盡管 NeRF 沒有顯式地重建目標場景的幾何信息,但其本身通過預(yù)測場景的輻射場其實隱式地編碼了目標場景的幾何結(jié)構(gòu)。進而使得,針對渲染任務(wù),NeRF 一定程度上可以等價甚至優(yōu)于傳統(tǒng)的紋理材質(zhì)網(wǎng)格。且由于 NeRF 是完全基于神經(jīng)網(wǎng)絡(luò)的,因此 NeRF 的渲染過程是天然可微的,而其他傳統(tǒng)的幾何表示,如三維網(wǎng)格,點云,體素等則往往需要各種近似策略來緩解相關(guān)表示的渲染不可微問題,與之對應(yīng)的參數(shù)化表示工作往往則需要收集并處理大量的三維掃描數(shù)據(jù)。相對的,HeadNeRF 的構(gòu)建過程只需要二維人臉圖片。
HeadNeRF 的表示可概述如下:
這里P表示相機參數(shù),z_{*}分別表示身份、表情、反照率和光照相關(guān)的語義向量。R表示HeadNeRF的渲染成像過程,I則為HeadNeRF根據(jù)上述輸入?yún)?shù)渲染生成的人臉頭部圖片。HeadNeRF的算法流程圖如下所示:
HeadNeRF-Pipeline
HeadNeRF 的表示過程整體上通過 conditional-NeRF 實現(xiàn)。訓(xùn)練方面,該研究則通過收集了三個大規(guī)模人臉頭部圖片數(shù)據(jù)集,并基于這些數(shù)據(jù)設(shè)計有效的 Loss 函數(shù)來使得 HeadNeRF 可以語義解耦地編輯渲染結(jié)果的各種語義屬性。此外,該研究也將 NeRF 體渲染與 2D 神經(jīng)渲染相結(jié)合,以加速 NeRF 渲染速度。
具體而言,代替直接渲染高分辨的人臉頭部圖片,HeadNeRF先是基于 NeRF 的體渲染管線生成低分辨率、高通道數(shù)的特征圖(Feature Map),接著使用特殊設(shè)計的 2D 神經(jīng)渲染網(wǎng)絡(luò)層,逐步對上述特征圖進行神經(jīng)上采樣,進而輸出最終的預(yù)測結(jié)果。該 2D 神經(jīng)渲染模塊的引入大幅度提升了原始 NeRF 體渲染的渲染速度,且同時很好地保持了 NeRF 隱式編碼的幾何結(jié)構(gòu)。如下圖所示,針對給定的語義參數(shù)組合,連續(xù)地編輯調(diào)整 HeadNeRF 的渲染視角、相機距離以及相機視野(FoV),其相應(yīng)地生成結(jié)果保持了優(yōu)秀的渲染一致性,這進一步驗證了 HeadNeRF 中 2D 神經(jīng)渲染模塊的有效性。
編輯渲染視角
編輯相機距離和 FoV
此外,2D 神經(jīng)渲染模塊的引入也有效改善了 NeRF 的渲染效率,從而讓 HeadNeRF 可以在一般的顯卡設(shè)備上單次前饋計算獲得目標渲染圖片的所有像素預(yù)測結(jié)果。因此,HeadNeRF在 NeRF 的 Photometric Loss 的基礎(chǔ)上,額外地使用 Perceptual Loss來監(jiān)督模型訓(xùn)練。如下圖所示,Perceptual Loss 這種全局Instance類型的監(jiān)督Loss有效提升了 HeadNeRF 渲染結(jié)果的渲染細節(jié)。
關(guān)于 Perceptual Loss 的消融實驗
在訓(xùn)練 HeadNeRF 的過程中,該研究也借助 In-the-wild 的單視角數(shù)據(jù)集 (FFHQ) 來進一步增強 HeadNeRF 的表示能力和泛化能力。得益于所設(shè)計的訓(xùn)練策略,HeadNeRF 可以同時使用來自不同渠道、不同類型的人臉數(shù)據(jù)來訓(xùn)練參數(shù)化模型。其中,多人多表情 (多光照) 多視角的人臉頭部數(shù)據(jù)使得 HeadNeRF 可以學(xué)習(xí)人臉頭部的幾何形狀先驗、視角一致先驗以及語義解耦先驗。另一方面,In-the-wild 的單視角數(shù)據(jù)則讓 HeadNeRF 在訓(xùn)練過程中感知更多的身份、表情以及渲染風(fēng)格類別,從而有效增強其表示、泛化能力。如下圖所示,單視角數(shù)據(jù)集的引入有效提升了 HeadNeRF 的擬合能力,多人多表情多視角 (多光照) 數(shù)據(jù)集提供的相關(guān)先驗則使 HeadNeRF 可以進一步解耦地編輯調(diào)整擬合結(jié)果的各個語義屬性和渲染視角。
FFHQ 單視角數(shù)據(jù)的引入有效增強了 HeadNeRF 的泛化擬合能力
以下展示了 HeadNeRF 關(guān)于更多人臉頭部圖片的擬合結(jié)果,這些圖片均來自 In-the-wild 的采集環(huán)境,且完全沒有參與 HeadNeRF 模型的訓(xùn)練構(gòu)建??梢园l(fā)現(xiàn) HeadNeRF 對于圖中展示的多類型數(shù)據(jù)均可進行有效擬合。這一定程度也驗證了 HeadNeRF 的表達能力和泛化能力。
得益于 HeadNeRF 高質(zhì)量的渲染精度、優(yōu)秀的解耦能力以及實時的渲染速度, 研究者可以基于 HeadNeRF 設(shè)計多種相關(guān)應(yīng)用。如通過訓(xùn)練所獲得的 HeadNeRF 模型,可提取輸入視頻的 HeadNeRF 表情參數(shù)序列以及目標圖像的 HeadNeRF 表示參數(shù),并進一步的將目標圖像的表情參數(shù)替換為視頻的表情參數(shù),從而實現(xiàn)用視頻中的表情來驅(qū)動目標圖像。相關(guān)結(jié)果如下所示
基于 HeadNeRF 的表情遷移應(yīng)用
更多結(jié)果和介紹,請參考 HeadNeRF 的項目主頁與文章 。
該研究相信,基于 NeRF 的數(shù)字人技術(shù)還將進一步演化,在不遠的將來,關(guān)于《黑客帝國: 覺醒》演示中的靈魂發(fā)問將變成現(xiàn)實。
參考鏈接 :https://github.com/CrisHY1995/HeadNeRFonDigitalHuman
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。