進軍AI視頻生成領域!這家互聯網巨頭最新宣佈

數據是個寶

數據寶

炒股少煩惱

在視頻生成大模型賽道,又有“新玩家”強勢入局。

9月24日,字節跳動同一天發佈兩款視頻生成大模型,這也是該公司正式宣告進軍AI視頻生成領域。從現場演示的效果來看,只需輸入簡單的提示詞或圖片,一條接近實拍的影視級的AI視頻就可自動生成,並且能實現自然連貫的多拍動作和多主體複雜交互。

今年2月,OpenAI推出的視頻生成大模型Sora引發市場轟動,然而Sora發佈至今7個月仍未正式上線。在Sora正式開放前的窗口期,國內外廠商紛紛加快推出文生視頻類的模型產品。據券商中國記者不完全統計,截至目前,快手可靈、生數科技Vidu、智譜清影、阿里通義萬相視覺模型作爲國產AI視頻模型,逐步落地面向C端用戶開放。

分析人士認爲,數據、場景和用戶是核心競爭要素,數據是訓練高質量模型的關鍵,場景決定了產品的市場適應性和商業潛力。在當前視頻生成大模型領域,互聯網大廠或將扮演引領者的角色。

字節跳動正式進軍AI視頻生成領域

9月24日,字節跳動旗下火山引擎在深圳一舉發布了兩款視頻生成大模型:豆包視頻生成-PixelDance和豆包視頻生成-Seaweed。同時,字節跳動還發布了豆包音樂大模型、同聲傳譯模型等產品。

在現場,最受關注的產品莫過於兩款視頻生成模型。從現場展示的視頻生成效果來看,無論是語義理解能力、多個主體運動的複雜交互畫面,還是多鏡頭切換的內容一致性,豆包視頻生成大模型均表現不俗。

此前視頻生成模型大多隻能完成簡單指令,豆包視頻生成模型則能實現自然連貫的多拍動作與多主體複雜交互。有創作者在體驗豆包視頻生成模型時發現,其生成的視頻不僅能夠遵循複雜指令,讓不同人物完成多個動作指令的互動,人物樣貌、服裝細節甚至頭飾在不同運鏡下也保持一致,接近實拍效果。

據火山引擎介紹,豆包視頻生成模型基於DiT架構,通過高效的DiT融合計算單元,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。此外,豆包視頻生成模型在鏡頭切換時能同時保持主體、風格、氛圍的一致性。

事實上,今年5月,字節跳動旗下的剪輯軟件剪映APP低調上線AI作圖和AI視頻生成功能並官宣其品牌爲“即夢”,其核心功能就包括AI視頻生成,但彼時其視頻生成功能仍較Sora有一定差距。

今年8月,字節跳動在蘋果、安卓等應用商店上架“即夢AI”APP,面向用戶下載使用,並上線付費會員服務。如今,字節正式宣佈兩款AI視頻生成模型的推出,並面向企業市場開啓邀測。

字節跳動有關負責人表示,目前新款豆包視頻生成模型正在即夢AI內測版小範圍測試,未來將逐步開放給所有用戶。

豆包大模型調用量增長10倍

值得一提的是,在字節跳動發佈上述多款模型產品當日,豆包大模型最新的調用量數據也一同被公佈。

據火山引擎總裁譚待透露,自5月火山引擎正式發佈豆包大模型以來,其日均調用量整體呈現爆發式增長。截至今年9月,豆包大模型的日均Tokens(表示和傳遞信息的標識符)調用量已經超過1.3萬億,在4個月的時間裡Tokens整體增長超過了10倍。

除了語言模型,譚待表示豆包大模型在多模態方面也取得進展,目前豆包文生圖模型日均生成圖片5000萬張,此外,豆包目前還日均處理語音85萬小時,相當於7萬天的廣播節目播出時長的總和。

今年5月,字節跳動發佈豆包大模型後,掀起了國內大模型領域的降價潮。爲了吸引更多的企業用戶,降低大模型使用門檻,阿里、百度、騰訊等大模型廠商紛紛宣佈對主力模型進行降價,部分廠商甚至表示輕量級模型免費對用戶開放。

目前,此輪大模型價格戰仍有持續之勢。繼5月份首次大幅降價之後,9月19日,阿里宣佈阿里雲百鍊平臺上的三款通義千問主力模型再次降價。產品的降價幅度在50%至85%之間不等。

儘管價格戰激烈,阿里雲智能集團首席技術官周靖人此前在接受媒體採訪時認爲,今天大模型的運用以及基於大模型的各種各樣創新,現在還在早期的階段,“(大模型)今天的價格不存在說已經足夠低了,相對未來龐大的應用來說還是太貴了。”他表示。

在火山引擎發佈會當天,譚待談及價格戰時也表示:“這樣大幅的降價背後,其實大量的創新應用隨之不斷涌現,這也是幾個行業裡面模型調用量在突飛猛進的關鍵。其他廠商也在跟隨我們的步伐,不斷把模型進行降價,大家共同努力讓應用的生態更加繁榮。”

在譚待看來,Tokens價格已經不再是妨礙創新的阻力。反過來,隨着應用的不斷增多,模型性能又成爲應用上量的關鍵。

AI視頻賽道掀起熱潮

近段時間以來,國內外AI大模型廠商密集推出迭代產品。

9月13日,OpenAI正式發佈新一代大模型“o1”。據介紹,“o1”大模型具備更強大的推理能力,能夠解決多步驟問題,在複雜的科學、數學和編程任務方面,“能夠像人類一樣思考”。

而在AI視頻生成大模型領域,今年2月以來,OpenAI推出的Sora引發了市場的轟動,然而截至目前Sora仍未面向公衆開放。自Sora公佈以來,國內外已有十多家公司發佈或更新視頻生成模型。

今年6月6日,快手發佈可靈大模型,系國內首個對標Sora的視頻生成大模型產品,支持通過文生視頻、圖生視頻、視頻續寫功能,生成最長2分鐘、30幀的1080P高分辨率視頻。

9月19日,可靈再次發佈迭代的1.5模型,在畫面質量、動態質量、文本響應度等方面均有大幅提升。據披露,目前已有超260萬人使用過可靈AI,並累計生成超2700萬個視頻、5300萬張圖片。

同樣是在9月19日,阿里宣佈通義萬相視頻生成功能上線。據介紹,通義萬相視頻模型支持最長5秒、每秒30幀、分辨率爲720P的視頻生成,並生成與畫面匹配的音效,目前已開放文生視頻、圖生視頻兩個創作入口。

9月23日,美圖公司宣佈美圖奇想大模型完成視頻生成能力的升級。相關數據顯示,美圖奇想大模型的單次文生視頻時長、單次圖生視頻時長均達5秒,已支持1分鐘、幀率24FPS、分辨率1080P的超長視頻生成,支持任意視頻尺寸輸出。

對於當前激烈競爭的AI視頻生成領域,東吳證券分析師張良衛團隊此前在研報中認爲,在當前的視頻生成技術競賽中,互聯網大廠很可能將扮演引領者的角色。該團隊認爲核心競爭要素在於數據、場景和用戶。數據是訓練高質量模型的關鍵,而場景決定了產品的市場適應性和商業潛力,互聯網大廠在這三個維度均佔優勢。

上述研報認爲,AI視頻生成技術的快速發展正在重塑視頻製作行業,具有巨大的市場潛力。隨着技術的迭代和應用的普及,預計AI視頻生成大模型將迎來用戶的大規模匯聚和數據飛輪的運轉,推動產業進一步發展。

來源:券商中國

聲明:數據寶所有資訊內容不構成投資建議,股市有風險,投資需謹慎。

責編:何予

校對:廖勝超

數據寶