逼真到恐怖!小姐姐擠眼挑眉五官亂飛,3D化身全新算法秒殺谷歌

新智元報道

編輯:編輯部

【新智元導讀】誰能想到,某天和你聊天的那個人竟是一個AI。來自TUM等研究人員提出了一種全新算法NPGA,能夠生成高保真3D頭像,表情逼真到讓你懷疑自己的眼睛。

真正的恐怖谷效應是什麼?

快看,下面這個女生做出了各種生動豐富的表情,擠眼,挑眉,嘟嘴....

再來看這個男孩,不停地變化嘴型,再加上細微的眼神動作,絲毫看不出來和我們有何區別。

然而,誰能想到,他們竟不是真人!

網友紛紛稱其爲AGI,簡直逼真到可怕。

如此厲害的3D頭像生成,完全不輸小扎此前帶着Quest 3 Pro做客「元宇宙」播客的逼真數字化身。

那麼,這項研究竟出自哪位民間高手?

最近,來自德國慕尼黑工業大學、倫敦大學學院等研究團隊提出了全新算法——NPGA,可生成高質量3D頭像。

論文地址:https://arxiv.org/pdf/2405.19331

這是一種基於數據驅動的方法,從多視角的視頻中創建出高保真、可控的虛擬化身。

傳統上,往往會用網格3DMM去生成渲染的頭像,但效果一般。

而NPGA的創新在於,採用了高斯點雲的方式,即通過無數個點組成3D人像形狀,讓渲染更加高效、逼真。

另外,研究的另一個創新在於,利用了神經網絡模型——「神經參數化頭模型」(NPHM)來捕捉人臉細微表情的變化,由此3D數字化身可以更真實模擬人類表情。

最後,爲了增強數字化身的表現力,研究人員還對潛在特徵和預測動態提出了「拉普拉斯項」(Laplacian terms)。

實驗評估結果顯示,NPGA比起之前SOTA模型,在自我重現任務中,大約有2.6PSNR提升。

有人驚呼,這簡直離詐騙又近了一步。

此時的網友還不忘調侃,谷歌最近放出的一個不可思議的視頻。

看這奇怪的畫風,再加上虛擬化身不穩定性,簡直無法和NPGA競爭。

這是谷歌團隊新提出的ChatDirector算法,按谷歌宣傳的話稱,3D虛擬頭像可以讓在線會議更具「沉浸感」

NPGA:神經參數高斯化身

這項技術可以應用在很多場景,比如電影、遊戲、AR/VR遠程會議,以及小扎心心念唸的元宇宙。

雖然視頻的效果看起來如此逼真,但其實,從現實世界捕獲圖像並重建3D頭像是一個極具挑戰性的課題。既需要計算機視覺(CV)準確的識別功能,也需要計算機圖形學(CG)的高保真和實時渲染性能。

近年來這兩項技術的交叉,讓虛擬世界的3D化身越來越逼真。然而,有一個核心問題還沒被解決——如何實現控制性。

谷歌ChatDirector的視頻之所以十分奇怪,主要原因不在畫面渲染,而在面部動作和表情的控制性差,說話時嘴動了但其他部位沒有動,有「皮笑肉不笑」的感覺。

Reddit評論區有網友發問,「我什麼時候能看到這個模型的開源版本,這樣只需要幾張照片就能生成類似的3D化身了?」

很遺憾,目前的技術應該還做不到通過幾張圖片就能進行3D重建。

團隊使用的訓練集NeRSemble是一個視頻數據集,用16個機位拍攝了220多個人體頭部的4700多個高分辨率、高幀率的多視圖視頻,包含了各種豐富頭部運動、情緒、表情和口語。

這個數據集同樣由NPGA的作者團隊發表於2023年,並被SIGGRAPH 2023和ACM TOG接收。

論文地址:https://tobias-kirschstein.github.io/nersemble/

溫馨提示,想點進去看示例視頻的話可能需要比較強大的心理素質,裡面收錄的各種誇張表情可以稱之爲人類抽象行爲大賞。

去年剛發表數據集時,重建出來的動作和表情還比較僵硬,也沒有豐富的面部細節。

短短一年時間就做到了如此逼真的效果,源於團隊在方法上做出的改進。

方法概述

a) 以MonoNPHM模型爲基礎,在NeRSemble數據集上使用COLMAP計算的點雲追蹤MonoNPHM,從而實現幾何精確的模型追蹤。

b) 提出循環一致性目標來反轉MonoNPHM的後向變形場,由此產生的前向變形場可以直接兼容基於光柵化的渲染。

c) NPGA由規範高斯點雲和MLP組成,包含蒸餾過的先驗網絡F進行前向變形,以及網絡G學習細粒度的動態細節。

d) 通過爲每個基元(primitive)附加潛在特徵,將變形場的輸入提升到一個更高維的空間,從而可以更準確地描述每個基元的變形行爲。

具體算法細節

之前的頭部重建工作大多會使用3D可形變模型(3D Morphable Model),使用主成分分析(PCA)學習人體幾何圖形的表示,將面部識別和表情變化的參數空間分開。

儘管3DMM的參數空間足夠緊湊,但論文作者認爲,其底層的線性本質限制了表達空間能夠實現的保真度。

論文同時表示,底層表達空間對於虛擬人的質量有至關重要的作用,不僅影響可控性,而且決定細節清晰度的上限。如果底層的表達不充分,很有可能在優化模型時導致過擬合。

因此,團隊使用了3DMM的改進版——NPHM(Neural Parametric Head Models,神經參數化頭部模型),從多視角的圖像序列中追蹤並提取身份識別的隱向量z_id和表情代碼z_exp。

之後,就可以用一個後向變形場B,將姿勢空間中的點x_p轉換爲規範空間中的座標x_c:

比較遺憾的是,這項研究只專注於重建頭部,屏蔽了數據集中的軀幹部分,因爲沒有包含在NPHM提取出的z_exp的表達空間內。

基於3DGS中的爲每個基元定義的場景表示,作者額外添加了高斯特徵,雖然它本身是一個靜態特徵,但可以爲每個基元的動態行爲提供語義信息,起到了一種類似於位置編碼的作用。

進行參數化表達後,論文提出的用於建模面部表情的動態模塊D由2個多層感知器(MLP)組成:

- 基於粗略先驗的網絡F

- 超越先驗知識、負責建模剩餘細節的網絡G

其中,模型F的訓練和使用是這篇文章的核心創新之一。首先讓F在NeRSemble數據集中20個人的圖像序列上進行訓練,之後會將這個網絡運用在所有虛擬化身的重建中。

F的先驗知識,則通過「循環一致性蒸餾」的方法,從後向變形場B中提取(實質上是B的逆元).

之後使用動態模型D,就可以得到重建的姿勢空間中的高斯點雲表示A_p:

基於A_p完成屏幕空間的渲染後,團隊還提出使用一個CNN網絡提升潛在圖像的細節表達,取代了用超分辨率處理。之後的消融實驗也證明了CNN對性能提升的有效性。

除了算法和架構的設計,團隊也在優化策略上做了兩處改進。

其一是對規範空間A_c與動態模型D進行基於KNN圖算法的拉普拉斯平滑。

其二是自適應密度控制(Adaptive Density Control),這是3DGS成功的核心因素。使用啓發式的方法,在靜態場景下,對可能冗餘的高斯點雲密度進行剪枝處理。

實驗評估

研究人員通過自我重現(Self-Reenactment)任務來評估NPGA算法的保真度。

自我重現會更準確地描繪出看不見的表情,並在頭髮區域等相對靜態區域中,包含更清晰的細節。

有趣的是,GHA_NPHM的性能比GHA稍差,這表明僅使用MonoNPHM表達代碼,並不能立即提升性能。

相反,研究人員假設如果沒有NPHM的運動作爲初始化,NPHM的潛在表達分佈可能會,提供比BFM的線性混合形狀更復雜的訓練信號。

如下是,不同方法對保留序列的定性比較。

這些方法的定量結果如下。

再來看,在交叉重現(cross-reenactment)任務中,全新算法的表現又如何?

交叉重現是指,將另一個人的表情轉移到虛擬化身上。

如下圖所示,所有的方法都成功將身份和表達信息分裂出來,從而實現了有效的交叉重現。

不過,NPGA的化身保留了更多驅動表情的大部分細節。

爲了證明算法的現實世界適用性,圖6顯示了,研究人員利用MonoNPHM的單目RGB,來追蹤高保真化身動畫。

消融研究

在最後的消融實驗中,爲了驗證NPGA的幾個重要組成部分,研究人員通過使用三個受試者進行了消融實驗。消融的定量和定性結果分別見表2和圖5。

如果不利用全高斯特徵(Vanilla),3D頭像就無法呈現出非常精細的表情,包括眼睛和下齒等複雜區域。

不過,在添加全高斯特徵(p.G.F.)後,重建效果明顯更清晰,但在極端表情下容易產生僞影。

當研究人員添加了拉普拉斯正則化和屏幕空間CNN,最終解決這一僞影問題。

此外,實驗還證明了,默認的點雲密集化策略,會抑制細節的重建,因此使用自適應密度控制(ADC)的策略非常必要。

下表說明了,使用正則化策略可以顯著縮小訓練序列(NVS)和測試序列(自我重現任務)之間的泛化差距。

侷限性

研究人員表示,NPGA創建的虛擬化身的可控性、重建質量,從根本上講,會受到底層3DMM表達空間的限制。

因此,包括頸部、軀幹、舌頭、眼珠旋轉這些區域,無法用NPHM的表情代碼來完全解釋。

由此,算法無法可靠地進行動畫處理,甚至可能因爲過擬合而帶來僞影。

目前可能的解決方案是,將底層3DMM擴展,提供對人類狀態更詳細的描述。

此外,NPGA作爲一種數據驅動的頭像創建方法,在一定程度上受限於可用的數據。

參考資料:

https://simongiebenhain.github.io/NPGA/

https://www.reddit.com/r/singularity/comments/1d41fgr/ngpa_new_high_quality_real_time_3d_avatar_from/