自動駕駛界秋名山車神!CoRL傑出論文讓自駕車學會漂移,整出新活

機器之心報道

機器之心編輯部、

今年的機器人頂會 CoRL 傑出論文,竟然幫自動駕駛車穩穩地完成了漂移。

先來個甜甜圈漂移熱個身,然後,上點難度,來個「8 字」。

最後來個蛇形繞樁(Slalom,這次沒有實體的樁)。可以聽見,在繞到一半的時候,工作人員忍不住歡呼了一下。

即使地面溼滑,自動駕駛汽車的發揮也不受影響。

這些動作都是由一個安裝了自動駕駛系統的雷克薩斯 LC 500 汽車來完成的,同樣一套系統安裝到豐田 Supra 上也可以安全運行。這得益於研究者們在 CoRL 一篇傑出論文中提出的方法,該方法可以提高自動駕駛在極限操控(如漂移)條件下的安全性和可靠性。

另外一篇獲獎論文則有關機器人導航。作者藉助強化學習對導航智能體進行了端到端大規模訓練,結果可以很好地泛化到現實世界。其中,論文一作 Kuo-Hao Zeng 是一位華人學者,目前就職於艾倫人工智能研究院。他本科畢業於中山大學,在清華大學拿到了碩士學位,去年在美國華盛頓大學拿到了博士學位。

在頒獎典禮現場,獲獎者拿到了一個神秘的大盒子。據透露,裡面裝的是看起來很美味的零食:

CoRL 是面向機器人學習研究的會議,涵蓋機器人學、機器學習和控制等多個主題,包括理論與應用。自 2017 年首次舉辦以來,CoRL 已經成爲了機器人學與機器學習交叉領域的全球頂級學術會議之一。

除了兩篇傑出論文,還有四篇論文拿到了今年的傑出論文提名,比如只需要學習 5 分鐘人類演示,就能輕鬆泛化到新的物體和場景的機器人策略 EquiBot、ALOHA 團隊主要成員的新工作 —— 人形機器人 HumanPlus,斯坦福提出的首個開源視覺語言動作大模型 OpenVLA 等。

以下是關於獲獎論文和提名論文的詳細介紹。

傑出論文獎獲獎論文

論文一:One Model to Drift Them All

讓自動駕駛汽車在極限操控狀態下 —— 也就是輪胎抓地力達到最大時 —— 安全運行是一個非常重要的問題,尤其是在緊急避障或惡劣天氣等情況下。不過,要實現這樣的能力並不容易,因爲這項任務本身變化多端,而且對道路、車輛特性以及它們之間的相互作用的不確定性非常敏感。

爲了克服這些難題,作者提出了一個新的方案:利用一個包含多種車輛在多樣環境下行駛軌跡的未標記數據集,來訓練一個高性能車輛控制的條件擴散模型。他們設計的這個擴散模型能夠通過一個基於物理信息的數據驅動動態模型的參數多模態分佈,來捕捉複雜數據集中的軌跡分佈。

通過將在線測量數據作爲生成過程的條件,作者將這個擴散模型融入到實時模型預測控制框架中,用於極限駕駛。

在豐田 Supra 和雷克薩斯 LC 500 上進行的大量實驗表明,在不同路況下使用不同輪胎時,單一擴散模型可使兩輛車實現可靠的自動漂移。該模型與特定任務專家模型的性能相匹配,同時在對未知條件的泛化方面優於專家模型,爲在極限操控條件下采用通用、可靠的自動駕駛方法鋪平了道路。

左:條件擴散模型在兩輛車上執行漂移軌跡的示例。右:控制器結構概述和在線模型參數生成過程。

論文二:PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

PoliFormer 是 Policy Transformer 的縮寫。這是一種純 RGB 室內導航智能體,它通過強化學習進行端到端大規模訓練。儘管純粹是在模擬中訓練,但訓練結果無需調整即可泛化到現實世界。

PoliFormer 使用基礎視覺 transformer 編碼器和因果 transformer 解碼器來實現長期記憶和推理。它在不同的環境中進行了數億次交互訓練,利用並行化、多機擴展實現了高吞吐量的高效訓練。

PoliFormer 是一個優秀的導航器,在 LoCoBot 和 Stretch RE-1 機器人這兩種不同的具身智能方案和四項導航基準測試中均取得了 SOTA 成績。它突破了以往工作的瓶頸,在 CHORES-S 基準上實現了前所未有的 85.5% 的目標導航成功率,絕對值提高了 28.5%。

PoliFormer 還可輕鬆擴展到各種下游應用,如目標跟蹤、多目標導航和開放詞彙導航,無需進行微調。

以下是一些利用 PoliFormer 進行導航的機器人示例:

1、穿過佈滿障礙的長走廊找到蘋果(LoCoBot):

2、找到一本名爲「人類」的書(Stretch RE-1)

3、一次尋找多個物品 —— 沙發、書本、廁所和室內植物(Stretch RE-1)

傑出論文提名

論文 1:Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning

爲了訓練機器人基礎模型,研究領域正在構建越來越多的模仿學習(imitation learning)數據集。然而,數據選擇在視覺和自然語言處理中已經被認爲是至關重要的,但在機器人技術領域,模型實際上應該使用哪些數據進行訓練還是個懸而未決的問題。

基於此,該研究探索瞭如何權衡機器人數據集的不同子集或「域」以進行機器人基礎模型預訓練。

具體來說,該研究使用分佈式魯棒優化(DRO)來最大化所有可能的下游域最壞情況性能,提出方法 Re-Mix。Re-Mix 解決了將 DRO 應用於機器人數據集時出現的廣泛挑戰。Re-Mix 採用提前終止訓練(Early Stopping)、動作歸一化和離散化來解決這些問題。

通過在最大的開源機器人操作數據集 Open X-Embodiment 上進行廣泛的實驗,該研究證明數據管理可以對下游性能產生巨大的影響。

論文 2:Equivariant Diffusion Policy

在機器人學習領域,如何構建有效的模仿學習方法,讓機器人能從有限數據中的學習泛化到多樣的現實環境中,一直是一個挑戰。

爲此,該團隊結合了 SIM (3) 等神經網絡架構與擴散模型,提出了 EquiBot。機器人在學習過程中,不會受到物體大小、位置或方向變化的影響,從而提高了其在不同環境中的適應能力。

同時,擴散模型的多模態和魯棒性優勢,進一步增強了 EquiBot 策略在未知環境中的適用性。

實驗結果表明, EquiBot 顯著減少了機器人對訓練數據的需求,對新場景的泛化能力也大幅提升。比如下面這個收拾行李的任務,被 EquiBot 策略點化的機器人只需要學習 5 分鐘的人類演示,就能輕鬆泛化到新的物體和場景。

論文 3:HumanPlus: Humanoid Shadowing and Imitation from Humans

說起斯坦福開源的 Mobile ALOHA 全能家務機器人,大家肯定印象深刻,ALOHA 做起家務活來那是有模有樣:滑蛋蝦仁、蠔油生菜、乾貝燒雞,一會兒功夫速成大餐:

這款人形 HumanPlus,也是 ALOHA 團隊主要成員的工作。HumanPlus 和 ALOHA 都在探索模仿學習對機器人帶來怎樣的增益。HumanPlus 更關注設計一套數據處理流程,讓人形機器人可以自主學習技能。

該研究首先基於 40 小時的人體運動數據集,通過強化學習在模擬環境中訓練低級策略。然後將這一策略遷移到現實世界中,使人形機器人僅使用 RGB 相機即可實時跟蹤人體和手部運動,形成 Shadowing 系統。

人類操作員可以通過 Shadowing 系統遠程控制人形機器人,收集其全身運動數據,以便在現實環境中學習各種任務。基於這些數據,研究人員採用有監督的行爲克隆方法,再對機器人進行訓練。

只需 40 次演示,搭載 Shadowing 系統的機器人就可以可以自主完成諸如穿鞋站立和行走,從倉庫貨架上卸載物品,疊衣服,重新排列物品,打字以及與另一個機器人打招呼等任務,成功率爲 60-100%。

更多詳情,請參看機器之心之前的報道:《從 ALOHA 邁向 Humanplus,斯坦福開源人形機器人,「高配版人類」上線》

論文 4:OpenVLA: An Open-Source Vision-Language-Action Model

機器人技術視覺語言動作(VLA)的廣泛採用一直面臨挑戰,因爲:

爲了解決上述挑戰,斯坦福提出首個開源 VLA 大模型 ——OpenVLA(7B 參數),經過 97 萬個真實機器人演示的多樣化數據集進行訓練。OpenVLA 以 Llama 2 語言模型爲基礎,結合視覺編碼器,融合了 DINOv2 和 SigLIP 的預訓練特徵。

作爲增加數據多樣性和新模型組件的產物,OpenVLA 在通用操作方面展示了強大的結果,在 29 個任務上任務成功率比 RT-2-X (55B) 等封閉模型高出 16.5%,參數減少爲 1/7。

該研究進一步表明,可以針對新設置有效地微調 OpenVLA,在涉及多個對象和強大語言基礎能力的多任務環境中具有特別強的泛化結果。

在計算效率方面,該研究表明 OpenVLA 可以通過低秩適應(LoRA)方法在消費級 GPU 上進行微調,並通過量化有效地提供服務,而不會影響下游的成功率。

參考鏈接:https://www.corl.org/program/awards