李飛飛團隊實現“隔空建模”,透過遮擋物還原完整3D人體模型
注意看,這個男人搬着一個長長的櫃子,畫面中半個人都被遮擋住了。
但即使有這樣的遮擋,男人的整個身體在AI面前依然是無所遁形。
哪怕是蹲在椅子背後只露出頭,依然可以被模型完整還原。
從遮擋物背後把人“揪”出來的,是李飛飛團隊推出的人體建模新工具Wild2Avatar(本文簡稱W2A)。
只要一段4秒左右的的單角度視頻,就能構建出完整的3D模型,有遮擋也不怕。
相比此前的SOTA方法,Wild2Avatar在人體建模上可謂是實現了質的飛躍。
從下面的對比圖中(從左到右依次爲帶遮擋原圖、Vid2Avatar提取結果和W2A提取結果)可以看到,作爲baseline的Vid2Avatar方法只能大概描繪出人的輪廓,遮擋物直接被“拍扁”到了人物身上,而且輪廓看上去也不夠準確。
而W2A提取出的人物不僅輪廓更加精確,看上去也更具立體感,關鍵是遮擋物被完美地去除,顯現出了完整的人物結構。
對遮擋物的去除,W2A操作得也更爲徹底,沒有留下多餘的痕跡。
而baseline中部分結構缺失的現象,在W2A中也沒有發生,人物的結構十分完整。
而且,W2A的人物建模是動態的,視頻畫面中,就算整個人都藏在椅子後面,依然可以輸出人物模型。
和另一baseline OccNeRF相比,W2A只需100幀的訓練視頻就能復原出完整乾淨的結構,但後者用了500幀的系列視頻後不僅結構缺陷極大,還存在許多“鬼影”。
測試數據也表明,對於陌生場景,W2A的提取質量和完整性(comp.)都比V2A有所提升,特別是對遮擋(llm)部分,合成質量得分接近翻番。
和OccNeRF相比,W2A與500幀訓練數據的OccNeRF整體成績接近,但遮擋部分仍然是有明顯增強。
那麼,Wild2Avatar是如何實現的呢?
工作過程中,W2A將整個場景分成了遮擋物、人物本體和背景三部分。
這三個部分由獨立的NeRF網絡分別預測特徵,渲染圖像時再將三個部分的輸出拼合。
這種做法的主要目的是爲了避免遮擋被誤當成人體的一部分,出現Video2Avatar那樣把遮擋物合成進人物的情況。
具體來說,李飛飛團隊將圖像映射到一個球空間,背景位於球外,人物和遮擋物則分別位於球空間內部的不同位置。
遮擋空間是通過內部採樣點的座標和距離來構造的。用於遮擋部分的生成網絡與背景共享,可以預測遮擋空間樣本點的顏色和密度值。
而人體部分的處理則是使用SMPL的參數化方式,通過正向和反向皮膚擬合,先將人體變形到一個姿態不變的座標空間,再輸入神經網絡進行學習。
爲了增強任務模型的完整性,李飛飛團隊還設計了新的損失計算方式。
首先利用現成的分割模型輸出人體的二值分割掩碼,並掩碼取反得到“非人體”區域的掩碼,即爲可能的遮擋區域。
同時,從W2A渲染的三個部分中遮擋部分的密度圖,然後根據提取結果再分離出人體部分。
其中人體部分與前面得到的“非人體”掩碼進行與非運算,得到的結果再和遮擋部分的密度圖做二值交叉熵運算,就得到了遮擋解耦損失Locc。
Locc會與像素重構損失、場景分解損失等其他損失參數一併納入到整個網絡的端到端訓練過程,用於優化更新網絡參數。
論文地址:https://arxiv.org/abs/2401.00431