虛幻5加持,清華髮布首個「真實開放環境具身智能平臺」與基準測試集EmbodiedCity!

新智元報道

編輯:LRST 好睏

【新智元導讀】基於虛幻引擎5,清華大學構建了一個真實、動態、開放的具身智能平臺EmbodiedCity,用於評估和研究具身智能在複雜城市場景中的應用;該平臺提供在線接入和離線運行兩種使用方式,支持多模態場景理解、問答、對話、導航和任務規劃等一系列具身智能任務。

具身智能被視爲當前人工智能領域最具潛力的方向之一,重點關注智能體感知、學習和與環境動態交互的能力。

近年來,具身智能發展迅猛,在多個領域取得突破進展。然而,當前大多數具身智能研究聚焦於有限環境如室內場景中,針對城市級別開放真實世界場景的探索較爲匱乏,急需構建相應的模擬平臺和基準測試集。

近日,清華大學城市科學與計算研究中心開放發佈基於虛幻引擎5的城市具身智能模擬環境EmbodiedCity,基於真實城市開放場景打造3D城市環境,並進一步針對不同維度和水平的開放空間具身智能能力,構建相應的任務集和數據集,可支撐真實開放空間具身智能的多類研究任務。

官方網站:https://embodied-city.fiblab.net/

開發文檔:https://github.com/tsinghua-fib-lab/EmbodiedCity

該平臺提供離線運行和在線接入兩種方式,既可以下載在不同操作系統本地環境運行,也可以訪問智能體在線平臺,基於Python SDK調用開發智能體,在平臺網頁直接編程使用。

EmbodiedCity模擬環境

EmbodiedCity以北京市國貿區域的真實道路和建築佈局爲基礎,結合人流和車流的真實數據與模擬算法,基於虛幻引擎5(Unreal Engine 5)構建了一個真實、動態、開放的城市具身環境。

環境中主要包含以下元素:

(1)街道:機動車/非機動車道、十字路口、交通信號燈和人行道,街道佈局合理多樣。

(2)建築物:辦公樓、購物中心、住宅小區等,細粒度建模還原真實建築。

(3)其他元素:長椅、路燈、植被以及動態的車輛和行人,城市場景充滿活力。

城市具身智能任務基準測試集

爲充分探索開放環境具身智能體的感知、推理和決策能力,EmbodiedCity構建了一系列評測任務,既包括代表性的具身任務,涵蓋行人模擬、車流模擬、場景理解、問答、對話、導航和規劃,也支撐傳統的感知、預測、決策等任務。

其中,針對開放空間具身智能構建的任務集如下:

1. 跨模態場景理解:智能體觀察環境元素並給出準確描述,通過在同一位置從不同角度觀察,生成一組RGB圖像作爲輸入,得到相應的文本描述。

2. 跨模態問答:在具身場景理解的基礎上,智能體接收有關環境語義和空間信息的自然語言問詢,例如,「場景中有多少個建築?」以及「在當前視角下A建築是否在B建築的左邊?」輸入包括第一視角的RGB圖像和有關環境的問題,對問題進行直接文本回答。

3. 多輪對話:具身對話涉及智能體與用戶之間的持續互動,需要維持上下文和理解對話流。例如,「後方中有多少棵樹?-> 它們分別是什麼顏色的?」任務的輸入包括具身觀察和多輪查詢,得到多輪響應。

4. 具身導航/搜索:智能體根據自然語言指令在環境中進行具身導航,輸入結合了視覺感知和自然語言指令,以引導智能體通過複雜環境進行實時感知、推理、決策。任務輸出是環境中的行動序列。

5. 任務規劃:智能體需要能夠將複雜且長期的具身任務目標拆分爲多個子任務,例如,「我需要去便利店購物,但我不知道怎麼走,應該怎麼做?」輸入包括第一視角的觀察和自然語言描述的任務目標,輸出是智能體所規劃、拆解的一系列子任務。

6. 個體行爲模擬:對於行人、車輛、無人機等不同類型的智能體,需要基於第一視角的觀察和當前任務規劃,生成與真實個體類似、符合真實個體規律和模式的行爲與動作,該任務依賴於上述任務所體現的開放世界中的感知、規劃、決策等具身智能能力。

平臺使用方法

EmbodiedCity同時提供在線使用和離線運行兩種智能體部署方式。

1. 在線使用

用戶可以通過在平臺官方網站(embodied-city.fiblab.net)申請API Key,獲得授權後即可控制接管已經實時在線部署的智能體。在線平臺提供鍵盤控制和指令控制等多種智能體操作方式,用戶可以在網頁以第一視角遊覽城市環境。平臺還提供了完善的智能體控制Python SDK以供調用開發,用戶可以在平臺網頁直接編程使用。

2. 離線運行

用戶可以下載離線模擬環境,在本地部署後進行智能體的訓練和測試,平臺提供適用於Windows、Linux、macOS等不同類型操作系統的相應版本,方便模擬環境的快速部署和測試。

參考資料:

https://embodied-city.fiblab.net/