玩轉「智能體魔方」!清華推出AgentSquare模塊化搜索框架,開啓AI智能體高速進化時代

新智元報道

編輯:LRST 好睏

【新智元導讀】AI智能體能像有機生命一樣自適應演化嗎?最近清華大學團隊提出了AgentSquare模塊化智能體設計框架,通過標準化的模塊接口抽象,讓AI智能體可以通過模塊演化和重組高速進化,實現針對不同任務場景的自適應演進,賦能超越人類設計的智能體系統在多種評測數據集上廣泛自我涌現。

優秀基因的演化和重組,是生命體適應環境、永葆活力的自然法則。AI智能體能否像有機生命一樣,實現適應任務環境的高效自我演化?

大模型智能體的快速發展在數學、醫療、個人助手等各領域產生了突破性應用,但依賴專家知識的手工設計方法制約了它們的任務自適應能力。如何實現AI智能體針對不同任務場景的高速自我演進一直是一個棘手的難題。

圖1 AI智能體的自適應演進

爲了解決這一問題,清華大學數據科學與智能實驗室提出了「AgentSquare-智能體魔方」,推出了模塊化的智能體系統設計與搜索新範式。

標準化的模塊接口抽象,使得任務規劃、常識推理、工具使用等經典智能體模塊的重組如同「擰魔方」一般輕鬆。同時,演化產生的新穎模塊也可被直接組裝應用於其他智能體系統。

在網頁、具身、工具、遊戲等不同場景的六個基準數據集上測試,顯示AgentSquare均能高效發現顯著優於已知人類設計的新穎智能體系統。「AgentSquare-智能體魔方」開啓了模塊化智能體設計搜索的「變形金剛」時代。

項目代碼、模塊庫已進行全面開源,簡潔指令便可開啓AI智能體的高速進化。

論文標題:AgentSquare: Automatic LLM Agent Search In Modular Design Space

論文地址:https://arxiv.org/abs/2410.06153

項目地址:https://tsinghua-fib-lab.github.io/AgentSquare_website/

代碼倉庫:https://github.com/tsinghua-fib-lab/AgentSquare

「AgentSquare-智能體魔方」——模塊化智能體設計的新範式

AgentSquare的關鍵創新來自於模塊化設計空間的提出。研究團隊系統梳理了AI頂會的大量智能體研究,提煉出了16種經典智能體設計,並將其歸納爲一個模塊化智能體設計空間。

在這個設計框架中,LLM智能體被簡化爲四個核心模塊有機協作:任務規劃(Planning)、常識推理(Reasoning)、工具使用(Tool Use)和記憶學習(Memory)。

研究團隊還對不同代碼框架進行了標準化整合,抽象出了標準化的模塊接口,讓每個模塊可以像擰魔方一樣輕鬆替換。 這 樣,AgentSquare既能支持現有經典設計的組合創新,也能加速新智能體模塊的高效探索。

圖2 模塊化設計空間(左)與標準IO接口(右)

這四個核心模塊各有分工:

任務規劃(Planning):將任務指令拆解爲一系列子任務,提供清晰的行動指南

常識推理(Reasoning):引導智能體進行有條理的結構化推理,如「思維鏈」,提高推理準確度

工具使用(Tool Use):當內部知識不夠時,選擇合適的外部工具輔助任務完成

記憶學習(Memory):記錄和管理智能體的經驗,支持後續決策更高效

基於這四大模塊,研究團隊設計了一個智能體工作流程模板(Agentic Workflow)。

如圖2所示,智能體會先用任務規劃模塊將複雜任務指令分解成小步驟,逐步由常識推理模塊執行子任務。

當遇到知識盲區時,智能體就會藉助工具使用模塊調用外部工 具,同時記憶學習模塊保存相關經驗,爲後續任務提供支持。

最終,子任務推理結果會轉化爲實際行動,並在環境反饋的幫助下不斷優化計劃,直到任務完成或達到嘗試上限爲止。

模塊化設計空間中的智能體搜索問題

基於模塊化設計空間,AgentSquare帶來了一個新的研究課題——模塊化智能體搜索(MoLAS)。

MoLAS的主要技術問題在於(1)如何快速找到適應任務的最優模塊組合(2)如何發現新穎的、更優的模塊設計。解決這一問題面臨着組合搜索空間龐大、新模塊設計缺乏指引以及智能體評測成本高昂的三大挑戰。

圖3 模塊化智能體搜索問題(MoLAS)

AgentSquare演化搜索——智能體「變形金剛」時代已來

圖4 智能體設計的「變形金剛」時代

爲了應對MoLAS的挑戰,研究團隊推出了AgentSquare演化搜索算法,包含三大核心功能:模塊重組、模塊進化和代理評測模型。

圖5 AgentSquare框架——通過模塊進化和重組實現AI智能體高效自適應演化

模塊重組(Module Recombination):組合經典設計,優化頂層架構

考慮到智能體廣闊的設計空間,僅靠提示詞(或代碼)改寫的簡單策略只能在原有設計之上做微小調整,難以實現高效搜索。

爲此,AgentSquare引入了LLM作爲「重組提議者」 (Recombination proposer LLM),基於對性能評測經驗的深入分析,提出重組高性能模塊的智能體設計方案,模擬生命體重組優秀基因的過程。

模塊重組功能通過對智能體頂層架構的大幅優化探索,實現遠超底層「提示詞改寫」的優化演進速度。

模塊進化(Module Evolution):積累底層變異,探索新穎設計

僅通過重組現有模塊並不足夠,AgentSquare還引入了模塊進化功能,以便在代碼層級探索全新模塊的可能。

該功能引入一個作爲代碼編程者的LLM(Module-programming LLM)結合設計的模塊進化元提示(Evolutionary meta-prompt)來探索新的模塊設計,指導智能體生成新模塊的設計方案。

通過模塊重組與進化,AgentSquare大幅拓展了設計空間的搜索範圍,併爲智能體引入了更多創新性設計。

代理評測模型(Surrogate Model):節省評測成本,加快優化搜索

在自動化智能體搜索過程中,一個重要挑戰是高昂的評測成本。

例如,在ALFWorld評測數據集上,評測一個GPT-4驅動的「思維鏈」智能體需耗費近60美元。爲了解決這一問題,AgentSquare引入了一個代理評測模型(Surrogate Model)來預測智能體性能。

這個模型通過召回並對比相似智能體的歷史評測數據,快速預測新智能體的表現,從而篩選出性能較差的提案。實驗表明,代理模型的預測效果與實際評測接近,R-Square達到了0.95,且其token開銷僅爲真實評測的0.025%

圖6 「代理評測模型」有效性驗證

自適應演化搜索,涌現超人智能體設計

爲驗證AgentSquare的效果,研究團隊在四類智能體任務——網頁(Web)、具身(Embodied)、工具(Tool)和遊戲(Game)——的六個基準測試上進行了大規模評測。結果顯示,AgentSquare發現的智能體在性能上全面超越了人類設計的最優方案,平均性能提升達17.2%

研究還表明,一些簡單的模塊搜索方法(如隨機組合和貝葉斯優化)也能獲得優異性能,這進一步證明了模塊化設計在智能體開發中的重要性。

表1 與人工設計、模塊搜索及提示搜索基線的性能對比

性能和成本的聯合分析顯示,AgentSquare不僅提高了智能體的表現,還有效控制了推理成本。通過設計reward函數(如將token開銷納入搜索目標),AgentSquare能夠在性能和成本之間靈活權衡。

圖7 Webshop任務中各智能體性能與API成本的關係

此外,研究團隊對搜索過程進行了詳細分析,發現其他方法很快遇到性能瓶頸,而AgentSquare表現出更高效的搜索路徑和更低的評測成本。

圖8 AgentSquare在Alfworld和Webshop任務中的搜索軌跡

目前,AgentSquare在各項任務中生成的新模塊均已開源,方便後續研究者複用和優化。AgentSquare不僅能靈活識別最適合任務需求的模塊組合,還能有效整合已有和創新模塊。

如下圖所示,在具身任務ALFWorld中,AgentSquare設計了帶有時序依賴的planning模塊來優化行動規劃,同時爲reasoning模塊加入多鏈路推理和反思機制,大幅提升了智能體的決策準確性,有效捕捉到任務需求的關鍵點。

圖9 AgentSquare搜索在各任務中發現的新模塊及性能最好的模塊組合

彙集社區智慧,共創AI智能體新時代!

AgentSquare通過標準化的模塊化設計空間和搜索框架,爲大模型智能體的研究帶來了系統化和標準化的重要突破。

更爲關鍵的是,AgentSquare作爲一個開源項目,將爲智能體研究提供一個彙集社區智慧的平臺,研究者手工設計或搜索發現的新穎智能體設計可以作爲新模塊被維護在開源代碼庫中,大幅降低經典設計在廣泛任務上的應用門檻,助力智能體技術在更多應用場景中的創新與發展

參考資料:

https://arxiv.org/abs/2410.06153

https://github.com/tsinghua-fib-lab/AgentSquare