☰

視頻生成模型百花齊放：騰訊混元正式入局，但行業仍處於早期

21世紀經濟報道記者白楊北京報道

今年2月，OpenAI發佈了視頻生成模型Sora。儘管直到今天，Sora都未向公衆開放使用，但它的出現，正式拉開了視頻生成時代的大幕。

自Sora問世以來，視頻生成模型開始百花齊放，從上半年的快手可靈、Runway Gen-3、Luma Dream Machine，到下半年的生數科技Vidu、智譜清影、字節跳動PixelDance、MiniMax海螺等，這些產品的出現，都引起了市場的廣泛關注。

12月3日，騰訊混元大模型宣佈上線視頻生成能力，正式加入競爭激烈的視頻生成賽道。騰訊的入局，不僅爲市場注入了新的活力，也意味着這一技術有望在更廣泛的應用場景中得到驗證。

騰訊混元相關負責人向 21 世紀經濟報道記者表示，混元視頻生成模型支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度，相比市面上其他視頻生成模型，混元在文本視頻一致性、運動質量和畫面質量等方面，表現會更加出色。

值得一提的是，在發佈混元視頻生成模型的同時，騰訊也宣佈將其開源，包含模型權重、推理代碼、模型算法等完整模型，參數量爲130億，是當前最大的視頻開源模型。

此前，騰訊混元已經開源了旗下文生文、文生圖和3D生成大模型。至此，騰訊混元系列大模型已實現全面開源。

DiT架構成爲主流

在Sora的啓發下，DiT（Diffusion Transformer）架構，一種基於Transformer架構的擴散模型，正成爲視頻生成模型採用的主流技術方案，騰訊混元視頻生成模型也是基於該架構。

在業內，用於理解擴散模型最常聽見的比喻，是來自意大利文藝復興雕塑家米開朗琪羅的一句話：“塑像本來就在石頭裡，我只是把不需要的部分去掉。”

擴散模型的工作原理，就是去除不需要的部分。而如何判斷該去掉哪些石頭以及怎麼去掉這些石頭，這個思考框架就是“U-Net架構”和“Transformer架構”的核心區別。

擴散模型過去最常用的U-Net架構，它的思路是逐步縮小圖像，然後計算圖像的相似性。但是，隨着模型參數量的增加，U-Net模型容易陷入性能瓶頸，並且難以靈活適配多模態任務需求。

而Transformer架構則是將一張大圖切割成無數個小圖片，然後通盤計算整幅圖像中各個圖像塊之間的關聯，從而計算出與目標指令最接近的圖。

這種機制的優點是不會忽略圖片中的任何細節，但需要更多的計算資源。所以，只要算力與數據量足夠，Transformer架構就可以無限擴展，這也是爲什麼，DiT架構會成爲文生圖、生視頻、生3D等多模態視覺生成的首選架構。

在DiT架構的基礎上，混元視頻生成模型也進行了許多升級。

比如混元視頻生成模型適配最新一代大語言模型MLLM （Multimodal Large Language Model）作爲文本編碼器，因此具備了更強大的語義跟隨能力，可以更好地應對多個主體描繪，實現更加細緻的指令和畫面呈現。

另外，混元視頻生成模型採用了統一的全注意力（full attention）機制，使得每幀視頻的銜接更爲流暢，並能實現主體一致的多視角鏡頭切換。而通過先進的圖像視頻混合VAE（3D 變分編碼器），混元讓模型在細節表現有明顯提升，特別是小人臉、高速鏡頭等場景。

視頻生成尚處於早期

雖然市場上已經有許多視頻生成模型，但從用戶的感知來看，視頻生成模型的發展進度遠不及大語言模型。

騰訊研究院近期發佈的一份研究報告，便指出了視頻生成模型現階段的多個不足之處。

首先是視頻生成的成本過高。受底層擴散過程的制約，生成一次視頻需要多步迭代才能完成，對於動輒超百億參數的視頻生成模型，這可能意味着尖端顯卡數十秒甚至數分鐘的運轉。

數據顯示，目前，Runway Gen-3 Alpha Turbo生成一條10秒的768x1280分辨率的視頻價格爲0.5美元，可靈AI生成一條10秒的高品質模式視頻價格爲7元人民幣。

而同樣的價格若用於大語言模型的調用，大致可以生成百萬量級的token。因此，視頻生成的成本遠未達到人人可用的階段。

除此之外，報告認爲“模態不全，缺少聲音”，以及“尚未攻克穩定的長視頻”都是視頻生成模型未來亟需解決的問題。

目前，絕大多數視頻生成模型僅支持生成5-10秒的視頻，混元視頻生成模型的最大長度也是5秒。大家都不做長視頻的生成，一方面有算力成本的考慮，但另一方面，也是受到訓練數據的掣肘。

騰訊研究院認爲，網絡公開視頻和版權影視作品基本都是經原始拍攝素材剪輯而來，成片中單鏡頭時長往往也就3秒左右，遠不足以讓視頻模型充分觀察到物體的長期運動，更不要說底層物理規律的學習。

當然，這些問題也是整個行業在努力改善的方向。騰訊混元相關負責人向記者透露，混元視頻生成模型很快會進行迭代，推出包括視頻配音以及圖生視頻等在內的能力。

而長期看來，隨着技術的迭代、訓練數據的豐富以及模型開源化帶來的生態效應，視頻生成模型也將逐步成熟。當AI能夠創作出更加複雜且細膩的視頻內容時，相信很多行業也將因此迎來變革。

相關資訊