挑戰Sora!陸發布首款國產文字描述生成影片AI模型

大陸清華大學聯合北京生數科技有限公司27日首次大陸自行研發的文字描述生成影片的人工智慧模型「Vidu」,能理解中國元素並生成視頻(圖/取自新浪財經)

大陸清華大學聯合北京生數科技有限公司27日發佈文字描述生成影片的人工智慧模型「Vidu」,這款由大陸自行研發的產品以美國人工智慧研究單位Open AI今年2月發表的「Sora」爲競爭標竿,目前Vidu能夠一鍵生成長達16秒、畫質1080P的高清影片內容。

央視新聞報導,清華大學教授、生數科技首席科學家朱軍在中關村未來人工智能先鋒論壇上進行現場展示,Vidu模型採用團隊原創的Diffusion與Transformer融合的架構U-ViT,能夠模擬真實物理世界,具有長時長、高一致性、高動態性的特性。

朱軍表示,「Vidu與Sora一樣,都抓住了視頻生成的精髓——對現實世界物理規律的模擬,並且從文本到視頻的轉換是直接且連續的。」

朱軍告訴央視新聞記者,Vidu團隊在今年1月已實現4秒影片的生成,過去兩個月,團隊的原創技術路線已經走通,產品正以更快的速度迭代,「Vidu還能理解中國元素並生成視頻,例如熊貓和龍等。」

雖然與Sora對外發布的可一鍵生成1分鐘視頻時長有差距,但德國漢堡大學多模態智能系統技術研究所所長張建偉評論稱,「在Sora之後,這支團隊可以在短時間內打造出這麼明亮的產品,做出了可以說跟國際上平行的一些結果,非常令人鼓舞。」

央視新聞引述張建偉的觀察,「更令人鼓舞的是自己研發的算法,這些人才的積累,這個是最珍貴的財富,而不是這個產品本身。」