智源發佈原生多模態世界模型Emu3,實現圖像、文本、視頻大一統

智源研究院正式發佈原生多模態世界模型Emu3。該模型只基於下一個token預測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成。據瞭解,Emu3在圖像生成、視頻生成、視覺語言理解等任務中超過了SDXL 、LLaVA、OpenSora等知名開源模型。

本文源自:金融界AI電報