全球首款AI遊戲誕生!無需遊戲引擎,視頻模型直出「我的世界」
新智元報道
編輯:喬楊 十二
【新智元導讀】無需遊戲引擎,視頻基座模型直出實時交互可玩的Minecraft,初創公司Decart和Etched打造的Oasis已經做到了這一點。
現在,不用遊戲引擎,AI就可以自動生成遊戲了?
今天,兩家初創公司Decart和Etched宣佈,他們打造了一款世界上首個實時、可玩、可交互的世界模型——Oasis。
Oasis經過了數百萬小時遊戲視頻的訓練,僅接收用戶的鍵盤輸入即可實時生成開放世界遊戲,但其中並不包含任何遊戲引擎,只有一個AI基座模型。
遊戲允許玩家進行移動、跳躍、拾取物品、打破磚塊等操作,生成的視頻內容中不僅包含圖形學的渲染,也能體現出對物理原則和遊戲規則的理解。
在沒有任何延遲的情況下,Oasis在H100上運行時能以360p的分辨率實現每秒20幀的渲染,並實時生成視頻交互內容。
此前,雖然,但並沒有在發佈論文後開源。
然而,此次兩家初創聯手研發的Oasis不僅開源了代碼,還公開了500M參數版本的模型權重。
https://github.com/etched-ai/open-oasis
https://huggingface.co/Etched/oasis-500m/tree/main
此外,官網上已經放出了遊戲demo,感興趣的玩家從項目官網進入即可在網頁端試玩,體會一下復刻Minecraft的畫風。
項目網址:https://oasis.decart.ai/
雖然全AI生成是一大亮點,但在動輒4K HDR的的今天,360p的分辨率顯得相當復古,可能對2024年的人類雙眼不太友好。
幸好,如果在上運行100B+參數的優化模型,就能達到4K級別的實時渲染,併發用戶數量也將提升超過10x。
就在模型發佈的今天,紅杉資本也宣佈以2100萬美金投資Oasis背後的其中一家初創公司Decart。
雖然Oasis看起來是一個遊戲,但事實上,真正的技術重點卻是「視頻」和「交互」。
OpenAI今年發佈的Sora可以說是視頻模型的「第一槍」。隨着視頻模型開始擴展,它們正在學習代表整個物理世界和遊戲,從而賦能一個全新的產品類別。
從短視頻社交媒體到視頻通話,再到流媒體,目前超過70%的互聯網流量來自視頻;但另一方面,視頻的數據密集程度相當高,AI生成視頻所需的FLOPs比文本或圖像多出10×。
因此,大部分人工智能推理工作負載將來自視頻。無論是遊戲、教育還是生成式內容,大型、低延遲、交互式的視頻模型將成爲下一波人工智能產品的核心。
Oasis是如何煉成的
之前谷歌推出的GameNGen本質上仍是一個由AI驅動的遊戲引擎,但Oasis的底層機制並不是遊戲引擎,而是單一的視頻生成模型,相當於一個能交互、可玩的Sora。
那麼,Oasis究竟是如何做到的?
根據博客介紹,技術團隊進行了數百次架構和數據實驗,以確定用於快速生成自迴歸交互式視頻的最佳架構。
Oasis模型均基於Transformer架構,由基ViT的變分自動編碼器(VAE)和基於DiT的潛在擴散主幹組成,使用了加速過的軸向、時空和因果注意力機制來克服長序列中的模型發散(divergence)。
Oasis的ViT+DiT架構
你可以簡單把它理解一個分工明確的工廠,各個組件各司其職。
VAE就像是工廠裡負責整理和識別原材料(遊戲裡的各種信息)的車間,它基於ViT(Vision Transformer)架構,能夠對看到的遊戲畫面的相關信息進行加工整理。
主幹即工廠的核心生產線,基於DiT(Diffusion Transformer)架構,負責將加工處理好的信息產出遊戲內容,比如遊戲場景、物體等。
同時,利用Decart的推理引擎,結合Etched公司的Sohu(Transformer架構的ASIC)芯片,實現了實時視頻生成。
這種架構選擇保證了在Sohu芯片上的穩定擴展和快速推理,並且以自迴歸方式生成幀,能夠根據遊戲輸入實時交互。
Sora這類模型根據用戶輸入的文本內容直出視頻,但Oasis使用Diffusion Forcing進行訓練,每次只生成一幀,根據遊戲輸入在token級別調節每個幀,因此可操縱性很高。
之所以能夠被稱爲「世界模型」,是因爲Oasis已經能夠了解複雜的遊戲機制,例如理解物體和建築、照明的物理規律等等。
模型理解照明的物理原理
放置立方體磚塊
不過,在生成遊戲畫面的時候,還有一個問題就是如何保證時間穩定性。因爲在自迴歸模型中,一個畫面出錯了,後面可能就會越來越亂,如同多米諾骨牌一樣。
解決這個問題需要長上下文生成方面的創新,Oasis的方案是部署動態噪聲(dynamic noising)。
Decart團隊也表示,未來將針對部分遠處物體出現模糊、不確定對象的時間一致性等問題進行研究,逐步提升Oasis的遊戲體驗。
兩家初創,強強聯手
生成式交互體驗新紀元這就來了嗎?這兩家初創公司又是什麼來頭?
據公開報道,Oasis模型是由Decart和Etched兩家初創公司共同推出的。
Decart成立於2023年9月,一直致力於提高AI模型的效率和降低運行成本,提供更快、更可靠的訓練以及實時推理,成立三個月後便與一家GPU雲服務商達成了數百萬美元的交易。
Decart聯合創始人Moshe Shalev和Dean Leitersdorf
今天,紅杉資本更是豪擲2100萬美金對其進行了投資,合夥人Shaun Maguire更是大力稱讚Decart的團隊,認爲他們是「超精英的AI工程師」、「合作過的技術最有天賦的團隊之一」,正在將生成式體驗推向極致。
目前推出的Oasis只是一個實時推理方面的熱身實驗,接下來的幾個月,他們還將發佈更具有顛覆性的成果。
他們最耀眼的成績,就是推出了Sohu——世界上第一個基於Transformer架構的ASIC芯片,專爲LLM推理加速打造,不僅快過Groq,也能碾壓英偉達最新的B200。
以Llama 70B模型的推理性能爲例,1張Sohu≈20張H100≈10張B200。
令人咂舌的性能背後,是Etched的一場豪賭般的權衡。
打造針對特定算法的AI芯片,將模型架構直接燒錄到芯片的硬件結構中,這意味着無法運行其他模型,比如CNN、RNN或LSTM,但對Transformer來說,就能得到有史以來最快的芯片。
2022年,創始團隊大膽預言——Transformer將佔領世界,於是投入花了兩年時間研發,得到了今天的Sohu。
Etched創始人之一Gavin Uberti表示,「我們正在押注人工智能領域最大的賭注——一種只能運行Transformer模型的芯片,但其運行速度比GPU快幾個數量級。也許注意力確實是你所需要的全部...」
能高效推理的AI芯片,對於極耗算力的視頻生成而言,可以說是類似於Scaling Law的福音。
雖然文生視頻模型已經達到了很好的生成效果,但速度非常慢,成本也很高。
視頻中的每個幀包含數百甚至數千個token,必須並行處理多次才能完全去噪。最好的模型平均每秒生成不到一幀,而且每個用戶每分鐘的費用可能高達1美元。
這種低效高成本的推理,不得不說是視頻生成模型用於實際應用的一大障礙,而這正是Sohu芯片期望解決的問題。
今年6月,Etched宣佈已經籌集了1.2億美元的資金用於擴大生產,並與臺積電合作,以35人的精幹團隊直接放話挑戰市值3萬億的英偉達。
參考資料:
https://x.com/shaunmmaguire/status/1852092981022794128
https://www.decart.ai/articles/oasis-interactive-ai-video-game-model
https://www.etched.com/blog-posts/oasis