☰

進軍AI視頻生成領域！這家互聯網巨頭最新宣佈

數據是個寶

數據寶

炒股少煩惱

在視頻生成大模型賽道，又有“新玩家”強勢入局。

9月24日，字節跳動同一天發佈兩款視頻生成大模型，這也是該公司正式宣告進軍AI視頻生成領域。從現場演示的效果來看，只需輸入簡單的提示詞或圖片，一條接近實拍的影視級的AI視頻就可自動生成，並且能實現自然連貫的多拍動作和多主體複雜交互。

今年2月，OpenAI推出的視頻生成大模型Sora引發市場轟動，然而Sora發佈至今7個月仍未正式上線。在Sora正式開放前的窗口期，國內外廠商紛紛加快推出文生視頻類的模型產品。據券商中國記者不完全統計，截至目前，快手可靈、生數科技Vidu、智譜清影、阿里通義萬相視覺模型作爲國產AI視頻模型，逐步落地面向C端用戶開放。

分析人士認爲，數據、場景和用戶是核心競爭要素，數據是訓練高質量模型的關鍵，場景決定了產品的市場適應性和商業潛力。在當前視頻生成大模型領域，互聯網大廠或將扮演引領者的角色。

字節跳動正式進軍AI視頻生成領域

9月24日，字節跳動旗下火山引擎在深圳一舉發布了兩款視頻生成大模型：豆包視頻生成-PixelDance和豆包視頻生成-Seaweed。同時，字節跳動還發布了豆包音樂大模型、同聲傳譯模型等產品。

在現場，最受關注的產品莫過於兩款視頻生成模型。從現場展示的視頻生成效果來看，無論是語義理解能力、多個主體運動的複雜交互畫面，還是多鏡頭切換的內容一致性，豆包視頻生成大模型均表現不俗。

此前視頻生成模型大多隻能完成簡單指令，豆包視頻生成模型則能實現自然連貫的多拍動作與多主體複雜交互。有創作者在體驗豆包視頻生成模型時發現，其生成的視頻不僅能夠遵循複雜指令，讓不同人物完成多個動作指令的互動，人物樣貌、服裝細節甚至頭飾在不同運鏡下也保持一致，接近實拍效果。

據火山引擎介紹，豆包視頻生成模型基於DiT架構，通過高效的DiT融合計算單元，讓視頻在大動態與運鏡中自由切換，擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。此外，豆包視頻生成模型在鏡頭切換時能同時保持主體、風格、氛圍的一致性。

事實上，今年5月，字節跳動旗下的剪輯軟件剪映APP低調上線AI作圖和AI視頻生成功能並官宣其品牌爲“即夢”，其核心功能就包括AI視頻生成，但彼時其視頻生成功能仍較Sora有一定差距。

今年8月，字節跳動在蘋果、安卓等應用商店上架“即夢AI”APP，面向用戶下載使用，並上線付費會員服務。如今，字節正式宣佈兩款AI視頻生成模型的推出，並面向企業市場開啓邀測。

字節跳動有關負責人表示，目前新款豆包視頻生成模型正在即夢AI內測版小範圍測試，未來將逐步開放給所有用戶。

豆包大模型調用量增長10倍

值得一提的是，在字節跳動發佈上述多款模型產品當日，豆包大模型最新的調用量數據也一同被公佈。

據火山引擎總裁譚待透露，自5月火山引擎正式發佈豆包大模型以來，其日均調用量整體呈現爆發式增長。截至今年9月，豆包大模型的日均Tokens（表示和傳遞信息的標識符）調用量已經超過1.3萬億，在4個月的時間裡Tokens整體增長超過了10倍。

除了語言模型，譚待表示豆包大模型在多模態方面也取得進展，目前豆包文生圖模型日均生成圖片5000萬張，此外，豆包目前還日均處理語音85萬小時，相當於7萬天的廣播節目播出時長的總和。

今年5月，字節跳動發佈豆包大模型後，掀起了國內大模型領域的降價潮。爲了吸引更多的企業用戶，降低大模型使用門檻，阿里、百度、騰訊等大模型廠商紛紛宣佈對主力模型進行降價，部分廠商甚至表示輕量級模型免費對用戶開放。

目前，此輪大模型價格戰仍有持續之勢。繼5月份首次大幅降價之後，9月19日，阿里宣佈阿里雲百鍊平臺上的三款通義千問主力模型再次降價。產品的降價幅度在50%至85%之間不等。

儘管價格戰激烈，阿里雲智能集團首席技術官周靖人此前在接受媒體採訪時認爲，今天大模型的運用以及基於大模型的各種各樣創新，現在還在早期的階段，“（大模型）今天的價格不存在說已經足夠低了，相對未來龐大的應用來說還是太貴了。”他表示。

在火山引擎發佈會當天，譚待談及價格戰時也表示：“這樣大幅的降價背後，其實大量的創新應用隨之不斷涌現，這也是幾個行業裡面模型調用量在突飛猛進的關鍵。其他廠商也在跟隨我們的步伐，不斷把模型進行降價，大家共同努力讓應用的生態更加繁榮。”

在譚待看來，Tokens價格已經不再是妨礙創新的阻力。反過來，隨着應用的不斷增多，模型性能又成爲應用上量的關鍵。

AI視頻賽道掀起熱潮

近段時間以來，國內外AI大模型廠商密集推出迭代產品。

9月13日，OpenAI正式發佈新一代大模型“o1”。據介紹，“o1”大模型具備更強大的推理能力，能夠解決多步驟問題，在複雜的科學、數學和編程任務方面，“能夠像人類一樣思考”。

而在AI視頻生成大模型領域，今年2月以來，OpenAI推出的Sora引發了市場的轟動，然而截至目前Sora仍未面向公衆開放。自Sora公佈以來，國內外已有十多家公司發佈或更新視頻生成模型。

今年6月6日，快手發佈可靈大模型，系國內首個對標Sora的視頻生成大模型產品，支持通過文生視頻、圖生視頻、視頻續寫功能，生成最長2分鐘、30幀的1080P高分辨率視頻。

9月19日，可靈再次發佈迭代的1.5模型，在畫面質量、動態質量、文本響應度等方面均有大幅提升。據披露，目前已有超260萬人使用過可靈AI，並累計生成超2700萬個視頻、5300萬張圖片。

同樣是在9月19日，阿里宣佈通義萬相視頻生成功能上線。據介紹，通義萬相視頻模型支持最長5秒、每秒30幀、分辨率爲720P的視頻生成，並生成與畫面匹配的音效，目前已開放文生視頻、圖生視頻兩個創作入口。

9月23日，美圖公司宣佈美圖奇想大模型完成視頻生成能力的升級。相關數據顯示，美圖奇想大模型的單次文生視頻時長、單次圖生視頻時長均達5秒，已支持1分鐘、幀率24FPS、分辨率1080P的超長視頻生成，支持任意視頻尺寸輸出。

對於當前激烈競爭的AI視頻生成領域，東吳證券分析師張良衛團隊此前在研報中認爲，在當前的視頻生成技術競賽中，互聯網大廠很可能將扮演引領者的角色。該團隊認爲核心競爭要素在於數據、場景和用戶。數據是訓練高質量模型的關鍵，而場景決定了產品的市場適應性和商業潛力，互聯網大廠在這三個維度均佔優勢。

上述研報認爲，AI視頻生成技術的快速發展正在重塑視頻製作行業，具有巨大的市場潛力。隨着技術的迭代和應用的普及，預計AI視頻生成大模型將迎來用戶的大規模匯聚和數據飛輪的運轉，推動產業進一步發展。

來源：券商中國

聲明：數據寶所有資訊內容不構成投資建議，股市有風險，投資需謹慎。

責編：何予

校對：廖勝超

數據寶

進軍AI視頻生成領域！這家互聯網巨頭最新宣佈

相關資訊