僅次於Hailuo和Kling~日本初創公司Rhymes AI開源視頻生成大模型Allegro

最近,視頻生成領域取得了顯著進展,開源社區貢獻了大量研究論文和工具,用於訓練高質量的模型。 然而,儘管有這些努力,現有的信息和資源仍不足以達到商業級的性能。日本初創公司Rhymes開源了文生視頻模型 Allegro,這是一種在質量和時間一致性方面表現出色的先進視頻生成模型。 Allegro在性能上超越了現有的大多數開源模型和商業模型,僅次於Hailuo和Kling。

Allegro使用戶能夠從簡單的文字提示生成高質量的6秒視頻,視頻的幀率爲15幀每秒,分辨率爲720p。這樣的質量水平可以高效地創造出各種電影主題,從詳細的特寫鏡頭到不同場景中動物的動態表現,幾乎可以根據文字描述想象出任何場景。(鏈接在文章底部)

01 技術原理

該模型的能力基於核心技術,這些技術用於處理視頻數據、壓縮原始視頻和生成視頻幀,使得文字提示能夠轉化爲短視頻片段。

1. 大規模視頻數據處理:爲了創建一個能夠生成多樣化和逼真視頻的模型,需要一個系統來處理大量的視頻數據。 爲此,Allegro設計了系統化的數據處理和過濾流程,從原始數據中提取訓練視頻。 這個過程是按步驟進行的,包括以下幾個階段:

接下來,基於處理過程中獲得的指標,Allegro開發了一個結構化數據系統,可以對數據進行多維分類和聚類,從而方便模型的訓練和調整,以適應不同的階段和目的。

2. 將視頻壓縮爲視覺標記:視頻生成中的一個關鍵挑戰是處理大量的數據。爲了解決這個問題,Allegro將原始視頻壓縮成更小的視覺標記,同時保留重要細節,從而實現更流暢、更高效的視頻生成。

具體來說,Allegro設計了一個視頻變分自編碼器(VideoVAE),它將原始視頻編碼爲時空潛在空間。VideoVAE基於預訓練的圖像VAE,並擴展了時空建模層,以有效利用空間壓縮能力。

3. 擴展視頻擴散Transformer:Allegro視頻生成能力的核心在於其擴展的擴散Transformer架構,這種架構利用擴散模型生成高分辨率的視頻幀,確保視頻運動的質量和流暢性。 Allegro的主幹網絡基於DiT(擴散Transformer)架構,採用了3D RoPE位置嵌入和3D全注意力機制。 這種架構能夠高效捕捉視頻數據中的空間和時間關係。

02 標題內容2

歡迎交流~,帶你學習AI,瞭解AI