到處都能刷到的 AI 視頻,真沒你想的那麼簡單。
“疑似使用了AI生成技術,請謹慎甄別”
大家有沒有發現,這行小字有點像 “ 廣告僅供參考, 請以實物爲準 ” ,已經幾乎在生活中越來越常見了。
特別是現在的短視頻平臺。
刷到個小貓視頻,口型是 AI 合成的。
內容來自抖音用戶@墩墩吃不飽
刷個西遊記,也能看到 AI 妖精真身。
甚至看一個動畫片,畫面還總是 AI 合成的。
AI視頻越來越多了。
雖然掀起 AI 視頻浪潮的 Sora 還在難產,但 AI 視頻時代或許已經悄然而至。
東吳證券的一份研報裡就預測,中國 AI 視頻生成的潛在行業空間,可能擁有超過 5800 億元的市場。
但隨着市場不斷火熱,行業的一些問題也逐漸暴露到公衆視野:
視頻化和 AI 確實都是未來,但像是成本問題、質量問題、協同問題和性能問題,都縈繞在所有初創企業,大廠們的心頭。
就拿成本問題和質量問題爲例。
大家都知道,目前的生成式大模型特別是視頻,就是一個力大飛磚的過程,需要用海量數據進行訓練。
而超大規模視頻訓練數據,又會對計算和處理數據、以及數據本身有着天量需求,隨之而來的成本增加是一個天文數字。
GPT-4o 作爲一個老款 AI ,開發成本“ 僅 ” 爲 1 億美元,訓練成本大概在 7800 萬美元左右。
而視頻模型的訓練成本就更高了,以年初推出的視頻模型 Sora 爲例,其訓練和推理所需的算力需求,分別就達到了GPT-4 的 4.5 倍和近 400 倍。。。
除了天價訓練成本外,大模型訓練樣本質量、處理鏈路複雜,涉及多個環節,需要多團隊協作;自研 / 第三方, GPU 、 CPU 、 ARM 等多種異構算力資源,又需要靈活調度部署。。。
所以,對不少準備擁抱 AI 視頻的公司們來說,當務之急就是想盡辦法,解決這些問題,才能更快地進化。
要論玩視頻的高手,抖音和火山引擎可就有話說了。
上個月底字節推出的爆火的 PixelDance ,效果那是槓槓的。
我們當時還寫了篇文章專門給大家嘮了遍,就看我們簡單試用生成的視頻效果,就知道還真有點東西喔。
而在 15 號結束的火山引擎視頻雲技術大會上,開場用了定製數字人譚待來和大家溝通。
結果效果好到,現場參會者們,不少都以爲這是視頻摳圖。
而這些高質量 AI 產出背後,其實離不開一個叫BMF 的智能框架。
火山引擎通過和自家大模型團隊在內部合作,一起把海量的視頻數據進行預處理。
最後基於火山引擎音視頻處理平臺和 BMF 框架,在短時間內生產了足夠多高質量的視頻素材,用於模型的訓練,纔有了 PixelDance 。
功臣之一的 BMF ,爲什麼能夠做到這些呢?
我們用個生活中常見的例子來解釋:
一個公司開發大模型就好比你家做年夜飯。
爲了吃上一頓豐盛的年夜飯,你爸爸負責買菜、媽媽燒飯、奶奶包餃子、你搬桌椅板凳。。。
所有人都得有分工,從頭忙到尾,可能還得時不時打個電話發個微信互幫互助,最後一算,好傢伙,原來吃頓年夜飯還得花這麼多錢。
而BMF 就是火山引擎推出的一個 “ 年夜飯一鍵全流程套餐 ”,它提供了一系列的工具和服務,幫你輕鬆、快捷地準備好年夜飯。
這個套餐重點針對性地解決了我們前面說到的 4 個行業痛點,進行了相應的調整。
比如爲了解決視頻訓練數據質量問題,他們掏出了多種算法對視頻進行多維度的分析和篩選,做到了充分精細化的過濾;
應對性能難題,他們又利用 BMF 框架的靈活調度,提前調配好了性能。
這就相當於準備年夜飯一早就做好了攻略,買菜交給了多多買菜送貨上門、燒飯找了五星級大廚專門掌勺、桌椅板凳安排了專門的小工打雜。。。
反正就是用了 BMF 這套框架,又便捷又省心又省錢。
搞定了企業這邊的需求,火山引擎也沒忘了大傢伙。
如今,大家設備的算力不斷上漲,與之而來的就是對視頻畫質提升的強烈需求。
火山引擎通過得天獨厚的優勢,每天在抖音 / 西瓜等 app ,面對上億用戶,處理海量視頻圖片。
獲得了這麼豐富的經驗之後,火山引擎在 BMF 基礎上,沉澱出了一個更適合普通用戶體質的“BMF lite”,實現了更輕量、更高效、更通用的進化。
比如相較於雲端,在用戶端側,對於功耗,內存非常敏感,而場景又涉及 Android 、 ios 、 PC 等多平臺。
於是 BMF-Lite 就重點建設基於跨平臺,資源複用的算法包的框架設計。
簡單說就是統一了各個平臺的接口形式,方便集成部署。
再用算法控制器來複用相同的算法實例,在抖音播放場景,點播跟直播播放大部分都是隻會生效一個,可以最大程度地複用資源。
而除了 BMF 爲代表的智能框架,火山引擎還提出了智能算力和智能編解碼。
火山引擎直接在去年掏出了一款自研視頻轉碼芯片,將自研的視頻編解碼技術融入到了裡面。
好處就是,針對視頻點播、直播等特定場景,這款轉碼芯片有着更高的計算密度。
就這麼說吧,一套視頻編解碼芯片服務器的轉碼能力,相當於上百臺 CPU 服務器。
今天視頻轉碼芯片上線抖音後,通過實踐數據表明,在同等視頻壓縮效率下,成本能節省 95% 以上。
而針對編解碼層,火山引擎推出了基於自研視頻轉碼芯片構建的“BVE1.2 編碼器 ”。
這個編碼器大膽融合了深度學習技術,推出了革命性的智能混合編解碼解決方案,將傳統壓縮技術與深度學習壓縮技術有機融合成爲一個整體,極大地提升了編解碼的效率,提升了編碼性能。
在前不久結束的的第六屆深度學習圖像壓縮挑戰賽( CLIC 大賽 )中, “BVE1.2 編碼器 ” 拿到兩個冠軍足以說明實力。
這一套小組合拳下來,感覺有興趣的廠商們,估計滿腦子都是 “ 付款碼掃哪兒 ” ?
你還別說,火山引擎也的確沒打算藏着掖着。
像前面說的 BMF 框架,早在去年就已經開源了,更新完的 BMF lite ,也是直接開源。
總的來說,目前,大模型的進化還在持續,視頻 AI 公司之間的競爭也只會日益激烈。
但如果大家只是閉門造車,互相拿成果比拼,用產品說話,可能會顯得競爭有餘、合作不足。
而作爲可能是全中國短視頻玩得最熟練的字節跳動,他們旗下的火山引擎一次次地將內部技術、框架開源。
特別帶來的 BMF 框架以及它和智能算力和智能編解碼組成的一整套智能底座,的確能夠幫助企業們節約了大量時間和成本,更好地幫助 AI 項目落地發展。
這種競爭和合作共存的態度,纔是中國 AI 最樂意見到的場面。
一枝獨秀難成林,萬紫千紅纔是春。
撰文:八戒
編輯:江江
美編:煥妍
圖片、資料來源:
火山引擎