字節視頻生成模型:不鳴則已,一出手就是王炸

Sora在今年初橫空出世,以極強的仿真能力驚豔四座,也讓外界開始探討AI對物理世界的理解可以達到何種程度。

而在過去一段時間裡,外界除了在等待Sora的真正到來,更是紛紛自研自家的視頻生成大模型。先是在5月,字節旗下即夢AI低調上線,對公衆開放視頻生成能力;6月初,快手上線可靈,採用與Sora相似路線;7月智譜AI推出視頻模型智譜清言……

至此,競逐中國版Sora的戰線幾乎已全面拉響。

在9月24日舉辦的火山引擎AI創新巡展活動上,豆包視頻生成模型以最新版本開啓正式邀測,其也是即夢AI與剪映等產品背後模型的升級版。

值得一提的是,本次大會字節方面一口氣推出了兩個模型。其一,是豆包視頻生成模型-Seaweed,目前已在即夢AI內測版上線;另一個則是豆包視頻生成模型-PixelDance,火山引擎也發佈了該模型的多個Demo。

和首次開啓測試不同,最新的豆包視頻生成模型的生成效果已經顯著擺脫了視頻模型常見的AI味,在多拍動作與多主體複雜交互,以及切鏡一致性方面都體現出驚豔效果。

嚐鮮豆包視頻生成模型,逼真、流暢與審美進階

在火山引擎官宣本次視頻生成模型發佈之前,以剪映和即夢爲代表的AI視頻功能實際已經在字節體系內悄悄測試了。

不少創作者已經在使用其中的AI視頻功能,這一次火山引擎面向企業客戶正式發出邀測,也意味着其達到了階段性的成績,已做好讓外界審視的準備。

因此,鳳凰網科技通過即夢AI內測版做了深度測試,體驗當前豆包視頻生成模型-Seaweed的成果。

目前,即夢AI內測版的視頻生成可支持“圖片生視頻”“文本生視頻”以及對口型,本次測試重點針對文本生視頻功能。

我們先在文字輸入框裡輸入了這樣一句提示詞:“一隻很胖的貓咪走了過來,它的毛髮根根分明,肚子肥肥大大,表情憨憨的,陽光在它的身後閃耀”。同時選擇隨機運鏡模式,運動速度適中。

可以看到生成的貓咪走路畫面層次比較豐富,光影審美在線。尤其是貓咪走路動態很接近物理還原,大大的減少了AI生成的味道。

我們又輸入了新的提示詞:“一隻大熊貓正在用筷子吃熱騰騰的火鍋,毛髮分明”。

雖然是超現實作品,但大熊貓的毛髮很擬真,而且吃東西的樣子非常自然,基本上實現了視頻生產內容既真實又荒誕的基調。

前面兩個提示詞測試更接近於日常視頻的生成,爲了測試豆包視頻生成模型在廣告片中應用的可能性,我們特別輸入了這樣一段提示詞進行嘗試:一瓶顏色鮮豔的香水,墜到了水面上,濺起了水花,體現高級感與質感。

更神秘的pixeldance,專業鏡頭語言初體驗

如果說豆包視頻生成模型-Seaweed在擺脫AI味上邁出了關鍵一步,那麼另一款豆包視頻生成模型pixeldance已經初具專業影視人的運鏡能力,在鏡頭語言上有了更高階的應用。

如火山引擎這一次在大會現場展示的幾款demo,可以看到切換鏡頭的一致性特色已經很鮮明。

如一個男人衝浪的視頻,明顯運用了一鏡到底的拍攝邏輯。

下面這個視頻中的女孩喝完咖啡,從咖啡廳走出,在運鏡上做了一個轉場的處理,拍攝機位也相對豐富起來。

視頻中女人轉頭看向遠處的視頻,景深從近拉至遠,變焦運用自然,在鏡頭一致性上已經有了非常不錯的表現。而色調方面,也表現出了一定的高級感,視覺審美度提升。

從這些鏡頭語言表現上不難看出,豆包視頻生成模型pixeldance有潛力成爲專業影視人的輔助工具,進一步降低了創作者的創意實現門檻。

會成爲Sora的新對手嗎?

據瞭解,目前豆包視頻生成模型已在火山引擎官網面向企業客戶開放邀測。個人用戶可通過即夢AI測試版體驗豆包視頻生成模型的最新能力,目前正處於小範圍邀測階段。

此前不少創作者坦言,首次通過即夢AI體驗豆包視頻生成功能的感受是更貼近“動畫風”。但此次升級版豆包視頻生成模型發佈後,相關內容產出更加接近於對物理世界的還原,人機感則越來越淡了。

過去,多數AI生成視頻只能完成簡單提示詞和單一動作,而豆包視頻生成模型可以執行更復雜的“prompt”,解鎖多拍動作指令與多個主體間的交互能力。

據透露,全新設計的擴散模型訓練方法,也成功攻克了多鏡頭切換時難以保持一致性的困擾,在鏡頭語言起承轉合上更加的絲滑。可以實現變焦、環繞、縮放等多種鏡頭語言切換,靈活控制,去除生成視頻的AI味。

不難看出,和sora追求終極AGI的目標不同,以豆包視頻生成模型爲代表的新模型仍舊以新生產力爲核心目標,重點是對視頻創作做進一步的提升:提高效率、降低成本、創意實現以及版權合規等。其應用場景也十分廣泛,如當下火熱的短劇、動畫教育、營銷廣告等。

一位短視頻賽道從業者向鳳凰網科技表示,“工具的進步速度遠比我們想象的快,這意味着我們在創作時不用再受限於想象力,極大的打開了創作空間”。

本文源自:鳳凰網科技