☰

全球首款AI遊戲誕生！無需遊戲引擎，視頻模型直出「我的世界」

新智元報道

編輯：喬楊十二

【新智元導讀】無需遊戲引擎，視頻基座模型直出實時交互可玩的Minecraft，初創公司Decart和Etched打造的Oasis已經做到了這一點。

現在，不用遊戲引擎，AI就可以自動生成遊戲了？

今天，兩家初創公司Decart和Etched宣佈，他們打造了一款世界上首個實時、可玩、可交互的世界模型——Oasis。

Oasis經過了數百萬小時遊戲視頻的訓練，僅接收用戶的鍵盤輸入即可實時生成開放世界遊戲，但其中並不包含任何遊戲引擎，只有一個AI基座模型。

遊戲允許玩家進行移動、跳躍、拾取物品、打破磚塊等操作，生成的視頻內容中不僅包含圖形學的渲染，也能體現出對物理原則和遊戲規則的理解。

在沒有任何延遲的情況下，Oasis在H100上運行時能以360p的分辨率實現每秒20幀的渲染，並實時生成視頻交互內容。

此前，雖然，但並沒有在發佈論文後開源。

然而，此次兩家初創聯手研發的Oasis不僅開源了代碼，還公開了500M參數版本的模型權重。

https://github.com/etched-ai/open-oasis

https://huggingface.co/Etched/oasis-500m/tree/main

此外，官網上已經放出了遊戲demo，感興趣的玩家從項目官網進入即可在網頁端試玩，體會一下復刻Minecraft的畫風。

項目網址：https://oasis.decart.ai/

雖然全AI生成是一大亮點，但在動輒4K HDR的的今天，360p的分辨率顯得相當復古，可能對2024年的人類雙眼不太友好。

幸好，如果在上運行100B+參數的優化模型，就能達到4K級別的實時渲染，併發用戶數量也將提升超過10x。

就在模型發佈的今天，紅杉資本也宣佈以2100萬美金投資Oasis背後的其中一家初創公司Decart。

雖然Oasis看起來是一個遊戲，但事實上，真正的技術重點卻是「視頻」和「交互」。

OpenAI今年發佈的Sora可以說是視頻模型的「第一槍」。隨着視頻模型開始擴展，它們正在學習代表整個物理世界和遊戲，從而賦能一個全新的產品類別。

從短視頻社交媒體到視頻通話，再到流媒體，目前超過70%的互聯網流量來自視頻；但另一方面，視頻的數據密集程度相當高，AI生成視頻所需的FLOPs比文本或圖像多出10×。

因此，大部分人工智能推理工作負載將來自視頻。無論是遊戲、教育還是生成式內容，大型、低延遲、交互式的視頻模型將成爲下一波人工智能產品的核心。

Oasis是如何煉成的

之前谷歌推出的GameNGen本質上仍是一個由AI驅動的遊戲引擎，但Oasis的底層機制並不是遊戲引擎，而是單一的視頻生成模型，相當於一個能交互、可玩的Sora。

那麼，Oasis究竟是如何做到的？

根據博客介紹，技術團隊進行了數百次架構和數據實驗，以確定用於快速生成自迴歸交互式視頻的最佳架構。

Oasis模型均基於Transformer架構，由基ViT的變分自動編碼器（VAE）和基於DiT的潛在擴散主幹組成，使用了加速過的軸向、時空和因果注意力機制來克服長序列中的模型發散（divergence）。

Oasis的ViT+DiT架構

你可以簡單把它理解一個分工明確的工廠，各個組件各司其職。

VAE就像是工廠裡負責整理和識別原材料（遊戲裡的各種信息）的車間，它基於ViT（Vision Transformer）架構，能夠對看到的遊戲畫面的相關信息進行加工整理。

主幹即工廠的核心生產線，基於DiT（Diffusion Transformer）架構，負責將加工處理好的信息產出遊戲內容，比如遊戲場景、物體等。

同時，利用Decart的推理引擎，結合Etched公司的Sohu（Transformer架構的ASIC）芯片，實現了實時視頻生成。

這種架構選擇保證了在Sohu芯片上的穩定擴展和快速推理，並且以自迴歸方式生成幀，能夠根據遊戲輸入實時交互。

Sora這類模型根據用戶輸入的文本內容直出視頻，但Oasis使用Diffusion Forcing進行訓練，每次只生成一幀，根據遊戲輸入在token級別調節每個幀，因此可操縱性很高。

之所以能夠被稱爲「世界模型」，是因爲Oasis已經能夠了解複雜的遊戲機制，例如理解物體和建築、照明的物理規律等等。

模型理解照明的物理原理

放置立方體磚塊

不過，在生成遊戲畫面的時候，還有一個問題就是如何保證時間穩定性。因爲在自迴歸模型中，一個畫面出錯了，後面可能就會越來越亂，如同多米諾骨牌一樣。

解決這個問題需要長上下文生成方面的創新，Oasis的方案是部署動態噪聲（dynamic noising）。

Decart團隊也表示，未來將針對部分遠處物體出現模糊、不確定對象的時間一致性等問題進行研究，逐步提升Oasis的遊戲體驗。

兩家初創，強強聯手

生成式交互體驗新紀元這就來了嗎？這兩家初創公司又是什麼來頭？

據公開報道，Oasis模型是由Decart和Etched兩家初創公司共同推出的。

Decart成立於2023年9月，一直致力於提高AI模型的效率和降低運行成本，提供更快、更可靠的訓練以及實時推理，成立三個月後便與一家GPU雲服務商達成了數百萬美元的交易。

Decart聯合創始人Moshe Shalev和Dean Leitersdorf

今天，紅杉資本更是豪擲2100萬美金對其進行了投資，合夥人Shaun Maguire更是大力稱讚Decart的團隊，認爲他們是「超精英的AI工程師」、「合作過的技術最有天賦的團隊之一」，正在將生成式體驗推向極致。

目前推出的Oasis只是一個實時推理方面的熱身實驗，接下來的幾個月，他們還將發佈更具有顛覆性的成果。

他們最耀眼的成績，就是推出了Sohu——世界上第一個基於Transformer架構的ASIC芯片，專爲LLM推理加速打造，不僅快過Groq，也能碾壓英偉達最新的B200。

以Llama 70B模型的推理性能爲例，1張Sohu≈20張H100≈10張B200。

令人咂舌的性能背後，是Etched的一場豪賭般的權衡。

打造針對特定算法的AI芯片，將模型架構直接燒錄到芯片的硬件結構中，這意味着無法運行其他模型，比如CNN、RNN或LSTM，但對Transformer來說，就能得到有史以來最快的芯片。

2022年，創始團隊大膽預言——Transformer將佔領世界，於是投入花了兩年時間研發，得到了今天的Sohu。

Etched創始人之一Gavin Uberti表示，「我們正在押注人工智能領域最大的賭注——一種只能運行Transformer模型的芯片，但其運行速度比GPU快幾個數量級。也許注意力確實是你所需要的全部...」

能高效推理的AI芯片，對於極耗算力的視頻生成而言，可以說是類似於Scaling Law的福音。

雖然文生視頻模型已經達到了很好的生成效果，但速度非常慢，成本也很高。

視頻中的每個幀包含數百甚至數千個token，必須並行處理多次才能完全去噪。最好的模型平均每秒生成不到一幀，而且每個用戶每分鐘的費用可能高達1美元。

這種低效高成本的推理，不得不說是視頻生成模型用於實際應用的一大障礙，而這正是Sohu芯片期望解決的問題。

今年6月，Etched宣佈已經籌集了1.2億美元的資金用於擴大生產，並與臺積電合作，以35人的精幹團隊直接放話挑戰市值3萬億的英偉達。

參考資料：

https://x.com/shaunmmaguire/status/1852092981022794128

https://www.decart.ai/articles/oasis-interactive-ai-video-game-model

https://www.etched.com/blog-posts/oasis

全球首款AI遊戲誕生！無需遊戲引擎，視頻模型直出「我的世界」

相關資訊