對話劉志毅:爲什麼具身智能是通往AGI的必由之路

作者 | 柏亮來源 | 零壹智庫

對話嘉賓:劉志毅

中國人工智能領軍科學家,上海市人工智能社會治理協同創新中心研究員,上海交大清源研究院研究員,深入研究和實踐AI領域十餘年,包括智能計算、空間智能以及超級人工智能對齊方向。中國人工智能學會AI倫理工作委員會委員及具身智能專委會委員,上海交大計算法學與人工智能倫理研究中心執行主任,上海交大安泰AI與營銷研究中心特聘研究員,海開源技術信息協會AI倫理專委會主任,2024年入選福布斯中國“十大人工智能影響力人物”。

從創造像人一樣思考的機器,到創造像人一樣的機器,都是人工智能的夢想。像人一樣的機器,人形機器人是當前人工智能最炫目的領域,它也是當前最被寄予厚望的“具身智能”的一部分。

在《智能的啓蒙》中,劉志毅從新的視角去思考和理解“智能”,“結合我過去十幾年在多個行業和學術研究機構從事研究的經歷,來探討和分享我對人工智能技術發展中最核心的問題的思考,即對‘智能的本質’這個問題的思考。”

而對於智能的未來,他認爲,“基於形態計算的具身智能將成爲通用人工智能未來發展的新形態。”

在最近出版的新書《具身智能》中,劉志毅系統論述了具身智能的理論框架,深入探討了具身智能的技術思想,爲理解下一代人工智能的發展方向提供了新的理論框架和產業發展前瞻。

在本次對話中,劉志毅闡述了在通往通用人工智能的道路上,我們將要創造什麼樣的“人”、“人”將創造出怎樣的未來,以及這個過程中涌現出來的產業機遇。

一、“具身”:打破人工智能的侷限

零壹財經:爲什麼說具身智能是通往AGI的必由之路?

劉志毅:具身智能之所以被視爲通往AGI的必由之路,其核心在於它爲人工智能系統提供了一個與真實世界進行多維度交互的關鍵機制。

這種機制不僅使AI能夠獲得豐富的多模態感知經驗,還能促進抽象思維能力的發展和知識的遷移學習,從而爲實現真正的通用人工智能奠定基礎。

通過將AI嵌入物理實體,具身智能使機器能夠像人類一樣,通過持續的環境互動來學習和適應,這種學習方式更接近人類認知的本質,有望突破傳統AI在通用性和適應性方面的限制。

零壹財經:很多文章和報告,把具身智能描述爲與機器相結合的人工智能。您覺得是否準確,或者說具身智能還有更深廣的範疇?

劉志毅:將具身智能僅描述爲與機器相結合的人工智能,雖然直觀但過於狹隘。

具身智能的範疇實際上更爲廣泛和深遠,不僅涵蓋了傳統的機器人學,還包括虛擬現實、增強現實、智能傳感器網絡、腦機接口等領域。

更重要的是,具身智能還延伸到認知科學研究,探索人類智能的本質。它不僅是一種技術實現,更是一種理解和模擬智能的哲學思路和方法論,強調身體、環境和認知之間的密切關係。

零壹財經:《具身智能》具有很強的科技思想史和技術哲學的意味,能否簡述“具身智能”的發展史(重要節點),以及它的主要思想框架(主要的思想來源)?

劉志毅:具身智能的發展史可追溯至20世紀初的現象學哲學思想,經歷了控制論和早期AI的啓蒙、認知科學革命的洗禮、行爲主義AI的興起,直至1990年代具身認知理論的正式形成。

其重要節點包括:Edmund Husserl和Maurice Merleau-Ponty強調身體經驗在認知中的重要性;Norbert Wiener提出控制論;Rodney Brooks提出"以身體爲基礎"的機器人控制架構;Francisco Varela等人出版《The Embodied Mind》正式提出具身認知理論。

其主要思想框架源自多個學科,包括哲學、認知科學、神經科學和人工智能。

其核心理念包括:認知基於身體、環境作爲認知的延伸、行動導向的認知、情境化的學習以及動態系統理論。這些思想不僅挑戰了傳統的智能觀念,也爲構建更接近人類智能的AI系統提供了新的理論基礎和技術路徑。

零壹財經:具身智能因爲“身”的存在,與其他的人工智能,比如說語言大模型,有什麼核心區別?“身”對於人工智能發展的意義是什麼?

劉志毅:具身智能因“身”的存在,與語言大模型等傳統AI系統的核心區別在於其直接與物理世界交互的能力。

這種交互不僅提供了豐富的多模態感知輸入,還使AI系統能夠通過實際行動驗證和調整其認知模型。“身”對人工智能發展的意義在於它爲AI提供了一個真實的學習環境,使其能夠像人類一樣通過體驗和反饋來構建對世界的理解。

這種方法有望解決傳統AI在泛化能力和常識推理方面的侷限,爲實現真正的通用人工智能開闢新的可能性。

二、大模型與具身智能:互補,而非單向決定

零壹財經:大模型的爆發推動了新一輪具身智能的涌現,比如 Figure 01、 Figure02 背後是 OpenAI 的大模型支持。大模型對具身智能的發展是否具有決定性的作用?

劉志毅:大模型的爆發確實推動了具身智能的新一輪發展,如Figure 01、 Figure02背後的OpenAI支持就是典型例證。

然而,認爲大模型對具身智能發展具有決定性作用可能過於絕對。大模型爲具身智能提供了強大的語言理解和任務規劃能力,但具身智能的核心在於將這些能力與實際的物理交互相結合。

大模型和具身智能的結合代表了一種互補關係,而非單向決定。真正的突破可能來自於如何有效地將大模型的抽象推理能力與具身系統的實際操作能力相融合。

零壹財經:前段時間 OpenAI 推出open o1,業界都在驚歎於open o1的“慢思考”能力,它的實質性進步是什麼?對於具身智能的發展,它有什麼促進作用?

劉志毅:OpenAI推出的open o1引起業界關注的"慢思考"能力,其實質性進步在於展示了AI系統在複雜任務中的深度推理和規劃能力。這種能力對具身智能的發展具有重要的促進作用。

首先,它爲具身系統提供了更加精確和靈活的任務規劃能力,使機器人等具身智能系統能夠處理更加複雜和長期的任務。

其次,"慢思考"能力反映了AI系統在模擬人類認知過程方面的進步,這與具身智能強調的認知與身體交互的密切關係相呼應。

回顧早期的具身認知理論,如Varela等人在《The Embodied Mind》中提出的觀點,我們可以看到"慢思考"能力與具身智能的深層聯繫。

具身認知理論強調認知過程是嵌入在身體和環境中的,而不僅僅是抽象的信息處理。open o1的“慢思考”能力,雖然是在語言模型中實現的,但它展示了AI系統在模擬人類深度思考和問題解決過程方面的潛力。

將這種能力與具身系統結合,有望創造出能夠在複雜、動態環境中進行深度推理和靈活決策的智能體。

然而,我們也需要認識到,真正的具身智能不僅需要“慢思考“,還需要快速反應和實時適應的能力。正如Rodney Brooks在其行爲主義機器人架構中強調的,智能行爲往往源於與環境的直接互動,而不僅僅是內部的複雜計算。

因此,未來具身智能的發展方向可能在於如何平衡和整合“慢思考”與快速反應,以及如何將抽象推理與具體的身體經驗有機結合。這種整合將爲我們帶來更接近人類智能的AI系統,能夠在複雜的現實世界中靈活應對各種挑戰。

三、空間智能與感知能力

零壹財經:《具身智能》深入剖析了李飛飛提出的“空間智能”,空間智能對於具身智能而言,其作用和價值是什麼?

劉志毅:李飛飛提出的"空間智能"概念對具身智能的發展具有深遠的意義。空間智能強調了智能體對三維空間的理解和操作能力,這與具身智能的核心理念高度契合。

對於具身智能而言,空間智能的價值在於它爲智能體提供了一個更加全面和精確的環境感知框架,使其能夠在複雜的三維世界中進行有效的導航、操作和交互。

這種能力不僅增強了具身智能系統的適應性和靈活性,還爲實現更高級的認知功能,如空間推理和場景理解,奠定了基礎。

零壹財經:李飛飛最近的文章認爲,大模型並不具備感知能力。具身智能因爲“具身”,是否有可能具備感知能力?現在的人形機器人,比如擎天柱,初步具備感知能力了嗎?

劉志毅:關於大模型是否具備感知能力,李飛飛的觀點引發了深入思考。具身智能因其"具身"特性,確實有可能具備更接近人類的感知能力。

與純粹的語言模型不同,具身智能系統通過直接與物理世界交互,可以獲得多模態的感知輸入,包括視覺、聽覺、觸覺等。這種多維度的感知信息使具身智能有潛力發展出更全面、更精確的環境理解能力。

然而,目前的人形機器人,如擎天柱,雖然在某些方面展現出了初步的感知能力,但與人類的全面感知能力相比仍有較大差距。這些機器人的感知能力更多地體現在特定任務和環境中的數據處理和反應,而非真正意義上的理解和意識。

四、塑造新的“人”

零壹財經:腦機接口和人形機器人,似乎前者是用人工智能增強人,後者是用人工智能增強機器,兩者都在塑造新的“人”,這兩種“人”,未來是否會成爲競爭者?

劉志毅:腦機接口和人形機器人代表了增強人類能力的兩種不同路徑。腦機接口旨在通過直接連接人腦與外部設備來增強人類的認知和控制能力,而人形機器人則是通過模仿人類形態和功能來創造獨立的智能實體。

這兩種技術路線確實都在塑造新的"人"的概念,但它們是否會成爲未來的競爭者,這個問題值得深思。

從長遠來看,這兩種技術可能會走向融合而非對立。腦機接口技術可能被用來更有效地控制和交互與人形機器人,而人形機器人的發展也可能爲腦機接口提供更先進的執行終端。

零壹財經:您在《具身智能》書中提及機器人的“主權”問題,如何理解具身智能機器人在未來社會中的角色、權力,或者說主體性?

劉志毅:具身智能機器人的“主權”問題涉及到一個深層次的哲學和倫理困境。隨着具身智能的發展,我們可能需要重新審視智能體的法律地位和社會角色。這些機器人在未來社會中的主體性可能會介於工具和有自主權的個體之間,形成一種新的存在範疇。

正如法哲學家Lawrence Solum曾探討的"人工人格"概念,我們可能需要爲高度自主的具身智能體創造新的法律和倫理框架。這種主體性的認定不僅涉及機器人的權利,還包括其責任和社會義務。

然而,賦予機器人“主權”也可能帶來一系列複雜的問題,如責任歸屬、道德決策和社會影響等。我們需要在技術發展和倫理考量之間找到平衡,以確保具身智能機器人能夠以一種有益且負責任的方式融入社會。

五、人形機器人:不少投資人被唬住了

零壹財經:人形機器人是大家談得比較多的具身智能。您怎麼看人形機器人的發展方向?目前人形機器人公司和產品大量涌現,人形機器人到了大規模產業化、普及性應用的階段了嗎?

劉志毅:人形機器人的發展方向可能會遵循兩條並行的路徑:一是追求功能性和效率,二是追求與人類的自然交互。

從功能性角度來看,未來的人形機器人可能會更加模塊化和可定製,以適應不同的應用場景。同時,隨着材料科學和控制算法的進步,我們可能會看到更加靈活和高效的機器人身體結構。

從交互角度來看,未來的人形機器人可能會更加註重情感智能和社交能力的開發。這可能涉及到更復雜的面部表情系統、更自然的語音交互,以及更高級的上下文理解能力。

然而,我們也需要警惕"恐怖谷效應"帶來的心理障礙,在追求擬人化的同時,保持機器人的獨特性和功能性。

現在市面上確實看到特斯拉、Agility、Figure AI等大玩家在人形機器人領域動作頻頻,投資界和媒體也是一片火熱。但說實話,要說人形機器人已經到了可以大規模生產、廣泛應用的階段,這個結論恐怕還爲時過早。我們得從幾個關鍵角度來看這個問題:

首先,不可否認在機器人的動作控制、基礎抓取能力上,這些公司確實做出了讓人眼前一亮的成果,不少投資人也都被唬住了。但實際上要真正推向市場,性價比、穩定性、實戰適應能力這些硬骨頭還得啃。特別是在需要複雜人機互動和精細操作的場景,還有不少坑要填。

再說投資市場吧,表面上看確實是一派繁榮,人形機器人公司如雨後春筍。但仔細觀察就會發現,大多數還停留在“Demo”階段,能真正落地商用的鳳毛麟角。要建立起大規模生產的供應鏈體系,這投入可不是小數目。

從長遠來看,人形機器人確實有望在製造業、醫療、家庭服務等領域帶來革命性變化。但現實點說,如果純從經濟效益考慮,目前專用型機器人可能更划算,投資回報更明確。

展望未來,我覺得這個市場會按以下節奏逐步推進:

• 近期1-3年:主要在一些可控環境下小規模試點,這是目前的國內具身智能公司的主要階段。

• 中期3-5年:個別細分市場會找到靠譜的商業模式,供應鏈也會逐步成熟,一定是結合場景來落地的。

• 遠期5-10年:如果成本和技術都到位了,可能就會迎來規模化普及的拐點,尤其是結合通用具身智能的技術發展。

這是目前對現在的技術和產業發展情況的一個基本判斷。

六、未來五年最有價值的產業機會

零壹財經:除了人形機器人,就產業或產品而言,具身智能涵蓋了哪些產業或產品形態?就未來五年而言,你認爲其中哪些最有發展前景?

劉志毅:除了人形機器人,具身智能還涵蓋了多種產業和產品形態。這包括但不限於:智能家居系統、醫療輔助機器人、工業自動化設備、教育互動設備、農業機器人、環境監測系統等。

說到具身智能,大家第一反應可能都是人形機器人,但實際上這個領域遠比想象的要廣。目前已經看到很多令人興奮的發展方向:

1. 四足機器人。這可能是目前最接近規模化商用的賽道。以國內的宇樹科技爲例,他們在工業巡檢、應急救援等場景已經有不少落地案例。市場反饋顯示,相比傳統的輪式機器人,四足機器人在複雜地形的適應性確實強很多。不過說實話,成本和續航還是個老大難問題。

2. 協作機械臂。這個賽道特別接地氣。以新鬆、埃夫特、節卡機器人這些國產品牌爲例,已經在3C電子、汽車裝配等領域佔據了不少市場份額。現在一個明顯的趨勢是,越來越多廠商在往“無需編程”的方向發力,通過視覺+AI來實現更靈活的任務適應。

3. 智能移動機器人(AMR)。 這絕對是當前最火的賽道之一。美團配送機器人、京東物流機器人可能大家都見過。但更有意思的是,現在很多工廠裡的物料搬運也開始用上了AMR。菜鳥、快倉、極智嘉在這塊做得都不錯。關鍵是ROI比較清晰,客戶也願意買單。

4. 智能假肢和外骨骼。這是個特別有社會價值的方向。國內的傅利葉智能等企業在這塊耕耘多年。最近他們在運動控制算法上有了不少突破,加上5G遠程康復訓練的加持,服務半徑擴大了不少。

在未來五年內,我認爲最有發展前景的領域可能是醫療輔助機器人和智能製造系統。醫療輔助機器人不僅可以提高醫療效率,還能在人口老齡化背景下提供重要支持。智能製造系統則有望變革傳統制造業,提高生產效率和靈活性。此外,隨着環境問題日益突出,環境監測和治理相關的具身智能系統也可能迎來快速發展。

就具體場景而言,我特別看好以下幾個方向:

1. 垂直場景AMR。原因很簡單 - 商業模式清晰,技術相對成熟,而且國內製造業轉型升級的需求真實存在。特別是在勞動力成本持續上漲的背景下,一線工廠對智能化改造的意願很強。

2. 低成本協作機器人。現在市面上主流的協作機器人,動輒二三十萬一臺,很多中小企業望而卻步。如果誰能把成本做到10萬以下,同時保證足夠的可靠性和易用性,市場空間肯定不小。

3. 特種場景機器人。比如礦山、電力、石化這些高危領域的巡檢、應急處置機器人。一方面安全需求剛性,另一方面這些行業的付費意願也較強。已經看到華爲、大疆這樣的大廠開始佈局這個賽道。

七、告別方向盤和駕照,爲時尚早

零壹財經:百度推出的無人駕駛出租車蘿蔔快報引起了巨大的爭議,最近特斯拉也推出了無人駕駛出租車,連方向盤都沒有。您預計需要多長的時間,人類就將告別方向盤和駕照,徹底依賴無人駕駛?

劉志毅:關於無人駕駛技術,從百度的蘿蔔快報到特斯拉的無方向盤設計,都顯示了這一領域的快速進展。然而,預測人類完全告別方向盤和駕照的時間點仍然具有挑戰性。

考慮到技術、法律、基礎設施和公衆接受度等多方面因素,我預計在未來15-20年內,我們可能會看到大規模的無人駕駛應用。但這可能是一個漸進的過程,而非突然的轉變。

首先,我們可能會看到特定區域或特定場景下的完全無人駕駛(如城市中心或高速公路)。

隨後,這種應用會逐步擴大。然而,考慮到緊急情況處理、極端天氣條件等因素,完全依賴無人駕駛可能需要更長的時間。此外,駕駛作爲一種技能和文化,其完全消失可能需要更長的社會適應期。

專題推薦:金融毛細血管

零壹智庫推出“金融毛細血管系列策劃”,通過系列文章、系列視頻、系列報告、系列研討會和專著,系統呈現“金融毛細血管”的新狀態、新功能、新價值、新定位。