豆包進擊,字節版Sora“雖遲但到” 火山引擎總裁譚待:一落地就開始考慮商業化

“字節大模型的發展路徑是,先to C打磨產品,等模型能力具備競爭優勢後,再to B拓展市場。”9月25日,火山引擎總裁譚待在接受包含《每日經濟新聞》記者在內的媒體羣訪時表示。

基於這一發展路徑,在早期版本今年5月應用於剪映團隊研發的AI創作平臺“即夢”後,豆包視頻生成模型在9月24日的2024火山引擎AI創新巡展上正式亮相,並面向企業市場開啓邀測。

自Sora開啓了“視頻的ChatGPT時代”後,國內快手、智譜AI、MiniMax和阿里等大模型玩家相繼推出了同類產品,如今字節跳動入局,能否改變視頻大模型的現有競爭格局?

通過發佈會現場對兩款視頻生成模型的效果演示,譚待認爲,無論是語義理解能力、多個主體運動的複雜交互畫面,還是多鏡頭切換的內容一致性,豆包視頻生成大模型均已達到業界領先水平。

與此同時,“音樂生成模型”和“同聲傳譯模型”一併在會上發佈,再擴字節AI版圖。

作爲業內率先進行大模型降價的選手,火山引擎在商業化上加速明顯。譚待向《每日經濟新聞》記者表示,to B調用量增長迅速。“對to C業務沒那麼清楚,但感覺也很順利。我認爲AI能實現端到端地解決問題,to B、to C業務邊界沒有那麼明顯。”

《每日經濟新聞》記者從發佈會瞭解到,截至今年9月,豆包大模型日均Tokens使用量已超1.3萬億,日均生成圖片5000萬張,日均處理語音85萬小時。

字節進軍AI視頻,“一落地就開始考慮商業化”

8月31日,“AI六小龍”之一的MiniMax發佈了視頻生成模型video-1;9月19日,可靈AI完成第9次迭代,發佈“可靈1.5模型”,同天的雲棲大會上,阿里雲再推全新的視頻生成模型——不到一個月的時間裡,本就硝煙四起的視頻生成模型領域又迎來了新玩家。

在9月24日的火山引擎AI創新巡展上,豆包視頻生成-PixelDance和豆包視頻生成-Seaweed兩款大模型一併發佈。

《每日經濟新聞》記者注意到,這兩款大模型支持的視頻內容生成最長時長暫未公佈,即夢App顯示支持3秒、6秒、9秒和12秒的視頻內容生成。與之相比的是,可靈在6月21日上線了視頻續寫功能,可讓視頻延續約5秒,最長可生成約3分鐘視頻。

發佈會現場 圖片來源:每經記者 楊昕怡 攝

“不同場景對視頻時長要求不同,我們更關注針對不同行業的解決方案。”譚待在接受《每日經濟新聞》記者採訪時表示,豆包視頻生成大模型在行業中的優勢主要在於指令遵循能力、多鏡頭切換的一致性以及視頻生成的泛化能力等方面。

發佈會現場,多條官方視頻的演示體現了上述能力:例如,在一條一男一女騎馬馳騁的演示視頻中,在長達10秒的畫面裡,兩人表情、動作各異,但都表現得自然流暢。

值得關注的是,豆包視頻生成大模型支持生成黑白、3D動畫、2D動畫、國畫、厚塗等多種風格的內容。

“對於視頻生成模型來說,(生產內容的)不同風格是很難做的。技術之外,主要看數據源的豐富程度。”一位大模型技術人員向《每日經濟新聞》記者表示。譚待將其歸因於“全棧能力的優勢、技術突破以及抖音和剪映對視頻的理解”。

秉持實用主義原則,譚待表示,新款豆包視頻生成模型“從一落地就開始考慮商業化”,使用領域包括電商營銷、動畫教育、城市文旅和微劇本。

在商業化上同樣“着急”的還有可靈。在8月20日晚間的二季度業績電話會上,快手聯合創始人、董事長兼CEO程一笑將可靈的商業化視作當務之急,“力爭儘快實現可觀的商業化變現規模”。

談及定價策略,譚待透露,豆包視頻生成模型的價格未定。“視頻模型和語言模型應用場景不同,定價邏輯也不同,要通過新體驗、遷移成本等來衡量產品價值,(產品)最終能否廣泛應用也取決於它是否比以前的生產力ROI(投資回報率)提升了很多。”

“價格已不是創新門檻”,雲廠商來到AI時代新戰場?

除了全新的視頻生成模型,本次活動還發布了豆包音樂模型和同聲傳譯模型。截至目前,豆包全模態大模型家族已涵蓋大語言模型、視覺大模型和語音大模型三大品類,共發佈了13個大模型。

但光有模型是不夠的,不乏業內人士稱,目前大模型廠商落地應用是“拿着錘子找釘子”。那麼,如何發現釘子、如何更省力地用合適的錘子釘釘子,這些都可能成爲雲廠商在AI時代的新挑戰。

首先是橫亙在大模型廠商和企業之間的成本問題。

在5月的發佈會上,譚待宣佈,豆包主力模型的推理輸入價格僅爲0.0008元/千Tokens,比行業便宜99.3%,打響了大模型領域的價格戰。

“成本是關鍵,價格降十分之一,量就可能漲十倍。”在譚待看來,模型調用量和應用覆蓋是當前關注重點,“我們主要關注應用覆蓋,而不是收入,我們認爲新場景的解鎖更有價值,例如聊天、陪伴、生產力等方面的場景升級和企業應用場景的拓展。”

不過,他也堅持,面向B端市場的業務前提一定是要可持續,“不能像to C業務一樣考慮靠廣告盈利”,“to B產品要實現正毛利,我們有能力也有信心做到。”

在豆包大模型率先降價後,阿里通義千問、百度文心一言等模型也都陸續降價。今年雲棲大會上,阿里雲百鍊平臺上的三款通義千問主力模型再次降價,阿里雲CTO周靖人甚至表示“相比未來龐大的應用,還太貴了。”

對於這一行業現狀,譚待表示,降價後,從調用量來看,成本已不再是創新的阻礙,“接下來要做的是在這個價格基礎上,提高模型的質量和性能,質量指的是讓模型能力更強、更多元。”

經過一輪“普降”後,大模型行業將不再一味只“卷”價格,現階段要比拼的是模型性能,這一點也在客戶端的需求上得到了佐證。

據譚待觀察,對於大模型的落地,to B市場的需求變化緩慢,核心需求是降本增效。“企業應用AI時,以前是自上而下規劃,失敗概率大,現在需要自下而上創新。”

《每日經濟新聞》記者注意到,在輔助企業進行數字化轉型的過程中,火山引擎今年聯合各方成立了智能終端大模型聯盟、汽車大模型生態聯盟、零售大模型生態聯盟,且外部客戶已覆蓋手機、汽車、金融、消費、互娛等30多個行業。

如今,字節手中又多了幾把稱手的“錘子”,怎樣找到各行各業中與之匹配的更多“釘子”,就是接下來對火山引擎的考驗了。