“3D視頻版Sora”來了!

智東西(公衆號:zhidxcom)作者香草編輯李水青

輸入單個物體視頻,就能獲取任意拍攝視角的全視圖3D動態視頻了!

智東西7月25日消息,昨日晚間,AI獨角獸Stability AI推出其首個視頻生視頻(video-to-video)模型Stable Video 4D(SV4D),該模型能夠將單個物體的視頻輸入,轉換爲8個不同視角的多個新視頻,用戶可任意指定攝像機角度。

▲輸出全視圖視頻演示

目前,SV4D可以通過一次推理,在約40秒內生成8個視圖的各5幀視頻,整個4D優化需要20-25分鐘。該模型已在Hugging Face上開源,適用於遊戲開發、視頻編輯、虛擬現實(VR)等場景的應用,可免費用於研究、非商業用途。

SV4D技術論文也同步發表,研究團隊由Stability AI和東北大學學者組成,其中詳細解讀了該模型的框架結構、優化策略、測評結果等。

▲SV4D論文

Stability AI從2019年成立起,就致力於研發文字、圖像、音頻、視頻等多個領域的開源模型,其在2022年躋身獨角獸行列。雖然從去年以來它就陷入尋求賣身、核心技術團隊離職、CEO卸任等困境,但即便如此也沒能打斷其不斷開源新模型的腳步。

今年6月,Stability AI在債臺高築的情況下獲得前Facebook總裁Sean Parker等投資者的8000萬美元注資,並迎來了新任CEO——前Weta FX(維塔數碼)負責人Prem Akkaraju。自Akkaraju上任以來,Stability AI在一個月內又接連發布聊天機器人Stable Assistant、音頻生成模型Stable Audio Open以及此次發佈的SV4D。

論文地址:

https://arxiv.org/abs/2407.17470

Hugging Face開源地址:

https://huggingface.co/stabilityai/sv4d

一、基於SVD升級4D框架,40秒生成視角視頻

SV4D主要用在3D模型的多視角視頻生成。其輸入爲單個物體的單視角視頻,輸出爲同一物體8個不同角度的多視角視頻。

據介紹,該模型以圖生視頻模型Stable Video Diffusion(SVD)爲基礎,實現了從圖生視頻到視頻生視頻的能力飛躍。

具體運行時,用戶首先上傳一段視頻並指定所需的攝像機角度,SV4D會根據指定的攝像機視角生成8個新視角視頻,從而提供拍攝對象的全面、多角度視頻。生成的視頻可用於優化拍攝對象的動態表示,適用於遊戲開發、視頻編輯、VR等場景的應用。

▲SV4D輸入輸出

目前,SV4D仍處於研究階段,可在40秒左右的時間內生成8個視角各5幀視頻,整個4D優化流程約耗時20-25分鐘。

以往用於多視角視頻生成的方法,通常需要從圖像擴散模型、視頻擴散模型和多視圖擴散模型的組合中進行採樣,而SV4D能夠同時生成多個新視圖視頻,大大提高了空間和時間軸的一致性。此外,該方法還可以實現更輕量的4D優化框架,而無需使用多個擴散模型進行繁瑣的分數蒸餾採樣。

▲SV4D與其他方法對比

與其他方法相比,SV4D能夠生成更多樣的多視圖視頻,且更加細緻、忠實於輸入視頻,在幀和視圖之間保持一致。

SV4D是Stability AI推出的首個視頻到視頻生成模型,已在Hugging Face上開源發佈。Stability AI稱,團隊仍在積極完善該模型,使其能夠處理更廣泛的現實世界視頻,而不僅僅是用於訓練的合成數據集。

二、混合採樣保持時間一致,4D生成全面超基準線

SV4D的技術論文也同步發表,其中詳細解讀了該模型的框架結構。

總的來說,SV4D是一個用來生成動態3D對象新視圖視頻的統一擴散模型。給定一個單目參考視頻,SV4D爲每個視頻幀生成在時間上一致的新視圖,然後使用生成的新視圖視頻來有效地優化隱式4D表示,而不需要基於分數蒸餾採樣的優化。

▲SV4D框架概述及生成的4D資產

SV4D的模型結構如下圖。基於相機條件,SV4D將相機視點的正弦嵌入傳遞給UNet中的卷積塊,並在空間和視圖注意力塊中,使用輸入視頻進行交叉注意力條件設定。爲了提高時間一致性,SV4D引入了一個額外的運動注意力塊,並以第一幀的相應視圖爲交叉注意力條件。

▲SV4D模型結構

爲了在保持時間一致性的同時,擴展生成的多視圖視頻,研發團隊在推理過程中提出了一種新穎的混合採樣策略。

首先,SV4D採樣一組稀疏的錨定幀,然後將錨定幀作爲新的條件圖像,對中間幀進行密集採樣/插值。爲了確保連續生成之間的平滑過渡,SV4D在密集採樣期間,交替使用時間窗口內的第一幀前向幀或最後一幀後向幀進行條件設置。

▲SV4D模型採樣

在框架的優化上,SV4D使用參考多視圖圖像的第一幀,優化由多分辨率哈希網格以及密度和顏色多層感知機(MLP)表示的靜態NeRF,然後解凍時間變形MLP,並使用隨機採樣的視圖和幀來優化動態NeRF。

▲優化框架概述

爲了訓練統一的新視圖視頻生成模型,SV4D研發團隊從現有的Objaverse數據集中整理了一個動態3D對象數據集。在多個數據集上的實驗結果和用戶研究表明,與之前的工作相比,SV4D在新視圖視頻合成以及4D生成方面具有最先進的性能。

▲ObjaverseDy數據集上4D輸出的評估

在ObjaverseDy數據集上的4D輸出評估中,SV4D在所有指標方面優於基線,在視覺質量(LPIPS和CLIP-S)、視頻幀一致性(FVD-F)、多視圖一致性(FVD-V)和多視圖視頻一致性(FVD-Diag和FV4D)方面都擊敗了此前的模型。

結語:Stability AI多模態再添新佈局

Stability AI以文生圖開源模型起家,在文本、視頻、3D等多個模態上都有所佈局。此次開源SV4D,是其在3D+視頻生成兩個方向上的共同進展。

儘管該模型目前仍處於前期研究階段,但它在各指標表現出的優秀能力和模型架構上的創新思路,爲未來的發展開闢了廣闊的前景。隨着模型的迭代和優化,SV4D有望在遊戲、VR等更多領域的應用發揮重要作用。