☰

僅次於Hailuo和Kling～日本初創公司Rhymes AI開源視頻生成大模型Allegro

最近，視頻生成領域取得了顯著進展，開源社區貢獻了大量研究論文和工具，用於訓練高質量的模型。然而，儘管有這些努力，現有的信息和資源仍不足以達到商業級的性能。日本初創公司Rhymes開源了文生視頻模型 Allegro，這是一種在質量和時間一致性方面表現出色的先進視頻生成模型。 Allegro在性能上超越了現有的大多數開源模型和商業模型，僅次於Hailuo和Kling。

Allegro使用戶能夠從簡單的文字提示生成高質量的6秒視頻，視頻的幀率爲15幀每秒，分辨率爲720p。這樣的質量水平可以高效地創造出各種電影主題，從詳細的特寫鏡頭到不同場景中動物的動態表現，幾乎可以根據文字描述想象出任何場景。（鏈接在文章底部）

01 技術原理

該模型的能力基於核心技術，這些技術用於處理視頻數據、壓縮原始視頻和生成視頻幀，使得文字提示能夠轉化爲短視頻片段。

1. 大規模視頻數據處理：爲了創建一個能夠生成多樣化和逼真視頻的模型，需要一個系統來處理大量的視頻數據。爲此，Allegro設計了系統化的數據處理和過濾流程，從原始數據中提取訓練視頻。這個過程是按步驟進行的，包括以下幾個階段：

接下來，基於處理過程中獲得的指標，Allegro開發了一個結構化數據系統，可以對數據進行多維分類和聚類，從而方便模型的訓練和調整，以適應不同的階段和目的。

2. 將視頻壓縮爲視覺標記：視頻生成中的一個關鍵挑戰是處理大量的數據。爲了解決這個問題，Allegro將原始視頻壓縮成更小的視覺標記，同時保留重要細節，從而實現更流暢、更高效的視頻生成。

具體來說，Allegro設計了一個視頻變分自編碼器（VideoVAE），它將原始視頻編碼爲時空潛在空間。VideoVAE基於預訓練的圖像VAE，並擴展了時空建模層，以有效利用空間壓縮能力。

3. 擴展視頻擴散Transformer：Allegro視頻生成能力的核心在於其擴展的擴散Transformer架構，這種架構利用擴散模型生成高分辨率的視頻幀，確保視頻運動的質量和流暢性。 Allegro的主幹網絡基於DiT（擴散Transformer）架構，採用了3D RoPE位置嵌入和3D全注意力機制。這種架構能夠高效捕捉視頻數據中的空間和時間關係。

02 標題內容2

歡迎交流～，帶你學習AI，瞭解AI

僅次於Hailuo和Kling～日本初創公司Rhymes AI開源視頻生成大模型Allegro

相關資訊