全球首款AI遊戲誕生!無需遊戲引擎,視頻模型直出「我的世界」

新智元報道

編輯:喬楊 十二

【新智元導讀】無需遊戲引擎,視頻基座模型直出實時交互可玩的Minecraft,初創公司Decart和Etched打造的Oasis已經做到了這一點。

現在,不用遊戲引擎,AI就可以自動生成遊戲了?

今天,兩家初創公司Decart和Etched宣佈,他們打造了一款世界上首個實時、可玩、可交互的世界模型——Oasis。

Oasis經過了數百萬小時遊戲視頻的訓練,僅接收用戶的鍵盤輸入即可實時生成開放世界遊戲,但其中並不包含任何遊戲引擎,只有一個AI基座模型。

遊戲允許玩家進行移動、跳躍、拾取物品、打破磚塊等操作,生成的視頻內容中不僅包含圖形學的渲染,也能體現出對物理原則和遊戲規則的理解。

在沒有任何延遲的情況下,Oasis在H100上運行時能以360p的分辨率實現每秒20幀的渲染,並實時生成視頻交互內容。

此前,雖然,但並沒有在發佈論文後開源。

然而,此次兩家初創聯手研發的Oasis不僅開源了代碼,還公開了500M參數版本的模型權重。

https://github.com/etched-ai/open-oasis

https://huggingface.co/Etched/oasis-500m/tree/main

此外,官網上已經放出了遊戲demo,感興趣的玩家從項目官網進入即可在網頁端試玩,體會一下復刻Minecraft的畫風。

項目網址:https://oasis.decart.ai/

雖然全AI生成是一大亮點,但在動輒4K HDR的的今天,360p的分辨率顯得相當復古,可能對2024年的人類雙眼不太友好。

幸好,如果在上運行100B+參數的優化模型,就能達到4K級別的實時渲染,併發用戶數量也將提升超過10x。

就在模型發佈的今天,紅杉資本也宣佈以2100萬美金投資Oasis背後的其中一家初創公司Decart。

雖然Oasis看起來是一個遊戲,但事實上,真正的技術重點卻是「視頻」和「交互」。

OpenAI今年發佈的Sora可以說是視頻模型的「第一槍」。隨着視頻模型開始擴展,它們正在學習代表整個物理世界和遊戲,從而賦能一個全新的產品類別。

從短視頻社交媒體到視頻通話,再到流媒體,目前超過70%的互聯網流量來自視頻;但另一方面,視頻的數據密集程度相當高,AI生成視頻所需的FLOPs比文本或圖像多出10×。

因此,大部分人工智能推理工作負載將來自視頻。無論是遊戲、教育還是生成式內容,大型、低延遲、交互式的視頻模型將成爲下一波人工智能產品的核心。

Oasis是如何煉成的

之前谷歌推出的GameNGen本質上仍是一個由AI驅動的遊戲引擎,但Oasis的底層機制並不是遊戲引擎,而是單一的視頻生成模型,相當於一個能交互、可玩的Sora。

那麼,Oasis究竟是如何做到的?

根據博客介紹,技術團隊進行了數百次架構和數據實驗,以確定用於快速生成自迴歸交互式視頻的最佳架構。

Oasis模型均基於Transformer架構,由基ViT的變分自動編碼器(VAE)和基於DiT的潛在擴散主幹組成,使用了加速過的軸向、時空和因果注意力機制來克服長序列中的模型發散(divergence)。

Oasis的ViT+DiT架構

你可以簡單把它理解一個分工明確的工廠,各個組件各司其職。

VAE就像是工廠裡負責整理和識別原材料(遊戲裡的各種信息)的車間,它基於ViT(Vision Transformer)架構,能夠對看到的遊戲畫面的相關信息進行加工整理。

主幹即工廠的核心生產線,基於DiT(Diffusion Transformer)架構,負責將加工處理好的信息產出遊戲內容,比如遊戲場景、物體等。

同時,利用Decart的推理引擎,結合Etched公司的Sohu(Transformer架構的ASIC)芯片,實現了實時視頻生成。

這種架構選擇保證了在Sohu芯片上的穩定擴展和快速推理,並且以自迴歸方式生成幀,能夠根據遊戲輸入實時交互。

Sora這類模型根據用戶輸入的文本內容直出視頻,但Oasis使用Diffusion Forcing進行訓練,每次只生成一幀,根據遊戲輸入在token級別調節每個幀,因此可操縱性很高。

之所以能夠被稱爲「世界模型」,是因爲Oasis已經能夠了解複雜的遊戲機制,例如理解物體和建築、照明的物理規律等等。

模型理解照明的物理原理

放置立方體磚塊

不過,在生成遊戲畫面的時候,還有一個問題就是如何保證時間穩定性。因爲在自迴歸模型中,一個畫面出錯了,後面可能就會越來越亂,如同多米諾骨牌一樣。

解決這個問題需要長上下文生成方面的創新,Oasis的方案是部署動態噪聲(dynamic noising)。

Decart團隊也表示,未來將針對部分遠處物體出現模糊、不確定對象的時間一致性等問題進行研究,逐步提升Oasis的遊戲體驗。

兩家初創,強強聯手

生成式交互體驗新紀元這就來了嗎?這兩家初創公司又是什麼來頭?

據公開報道,Oasis模型是由Decart和Etched兩家初創公司共同推出的。

Decart成立於2023年9月,一直致力於提高AI模型的效率和降低運行成本,提供更快、更可靠的訓練以及實時推理,成立三個月後便與一家GPU雲服務商達成了數百萬美元的交易。

Decart聯合創始人Moshe Shalev和Dean Leitersdorf

今天,紅杉資本更是豪擲2100萬美金對其進行了投資,合夥人Shaun Maguire更是大力稱讚Decart的團隊,認爲他們是「超精英的AI工程師」、「合作過的技術最有天賦的團隊之一」,正在將生成式體驗推向極致。

目前推出的Oasis只是一個實時推理方面的熱身實驗,接下來的幾個月,他們還將發佈更具有顛覆性的成果。

他們最耀眼的成績,就是推出了Sohu——世界上第一個基於Transformer架構的ASIC芯片,專爲LLM推理加速打造,不僅快過Groq,也能碾壓英偉達最新的B200。

以Llama 70B模型的推理性能爲例,1張Sohu≈20張H100≈10張B200。

令人咂舌的性能背後,是Etched的一場豪賭般的權衡。

打造針對特定算法的AI芯片,將模型架構直接燒錄到芯片的硬件結構中,這意味着無法運行其他模型,比如CNN、RNN或LSTM,但對Transformer來說,就能得到有史以來最快的芯片。

2022年,創始團隊大膽預言——Transformer將佔領世界,於是投入花了兩年時間研發,得到了今天的Sohu。

Etched創始人之一Gavin Uberti表示,「我們正在押注人工智能領域最大的賭注——一種只能運行Transformer模型的芯片,但其運行速度比GPU快幾個數量級。也許注意力確實是你所需要的全部...」

能高效推理的AI芯片,對於極耗算力的視頻生成而言,可以說是類似於Scaling Law的福音。

雖然文生視頻模型已經達到了很好的生成效果,但速度非常慢,成本也很高。

視頻中的每個幀包含數百甚至數千個token,必須並行處理多次才能完全去噪。最好的模型平均每秒生成不到一幀,而且每個用戶每分鐘的費用可能高達1美元。

這種低效高成本的推理,不得不說是視頻生成模型用於實際應用的一大障礙,而這正是Sohu芯片期望解決的問題。

今年6月,Etched宣佈已經籌集了1.2億美元的資金用於擴大生產,並與臺積電合作,以35人的精幹團隊直接放話挑戰市值3萬億的英偉達。

參考資料:

https://x.com/shaunmmaguire/status/1852092981022794128

https://www.decart.ai/articles/oasis-interactive-ai-video-game-model

https://www.etched.com/blog-posts/oasis