☰

機器人“圖靈時刻”何時到？四名創始人答曰：五年內見真章丨最前線

作者丨邱曉芬

編輯丨蘇建勳

在2024年的雲棲大會上，作爲AGI的一項重要支線，具身智能也成爲了其中一大討論焦點。

在“機器人的圖靈時刻”論壇上，阿里特意邀請了四家當前炙手可熱的人形機器人廠商——宇樹科技、星動紀元、銀河通用、逐跡動力，針對今年的機器人熱潮的本質、發展歷程、如何落地、技術難點等關鍵問題展開了討論。

不過，不像AI的論壇那麼針鋒相對，四位創始人對於機器人賽道的判斷基本一致，大家認爲：

以下是星動紀元創始人陳建宇、銀河通用創始人王鶴、宇樹科技創始人王興興、逐跡動力創始人張巍的交流整理（略驚摘編）

主持人：通用機器人一定要做成人形嗎？

王興興：好幾年前有投資人問我，我們做不做人形機器人？我說我堅決地反對做人形機器人，我當時在大一，09年、10年的時候，我自己就做過小的人形機器人。做過好以後，我發現全球當前的人類技術其實沒辦法駕馭這麼複雜的機器人系統。

但是2016年開始，新的AI技術誕生了，在差不多在22年的時候，整個的大語言模型的效果已經非常驚豔，整個AI技術發展是遠超我自己預計的，所以我們在23年初正式開始做人形機器人，目前取得的效果也非常驚豔。

機器人整個發展節奏，無論是硬件和軟件，都是超過我自己預計的節奏。

張巍：我覺得一定要做成人形，而且是有兩條腿的人形機器人。

我簡單說一下我對通用機器人的理解。我首先覺得機器人和AI的使命是不同的，AI是代替人來思考決策的，而機器人本質上要代替人來運動。

大家看到各式各樣的機器人非常多，本質上就在做兩件事情，一件事情是要移動（Mobility），空間中從 a 到 b；另一件事情是，操作。

所謂的通用機器人，在這兩個能力上都能達到跟人一樣的環境適應能力和任務的泛化性。值得一提的是，通用的移動能力其實是不太需要雙臂的，但是通用的操作能力反而是需要雙腿的，不然你可能都沒法到人能到的地方去幹活。

我覺得 AGI 的發展最相比上一代最大的區別，就是從專用到通用的變化，在大模型出來之前，我感覺通用這個詞是個貶義詞，通用，就是證明它是沒啥用。

但是大模型出來以後，大家發現，以前我們這種在專業領域裡收集數據，去做專項任務的訓練方式是有很大侷限性的，反而我們要忽略專項的能力，要先構建通用的基礎模型能力，再在上面長出專用的能力，這纔是系統化解決泛化性的關鍵。

我覺得軟件算法的通用性，就靠大模型技術；機器人跟物理世界交互的通用性，就靠人形機器人。

主持人：您怎麼定義人形機器人形態？

王鶴：我們公司叫銀河通用，我們從建立的第一天就是要達成通用機器人。當然通用有一個過程，他先做到單一場景、多任務、可移動，然後再做到多場景、多任務，最後做到全場景、全任務。在這個過程中，形態上在不同階段也有它最適合、最經濟、最穩定的載體。

通用機器人這個萬億市場剛剛開局的時候，我們選擇了先從幾個場景裡頭的多任務做起，比如零售商超場景上貨下貨，在工廠裡去抱箱子，其實我們發現如果它是平地的話，輪子是夠用的，也不能說我們沒有腿，我們是把兩隻腿並在了一體。

那爲什麼要有雙手呢？因爲我們發現，比如說你在超市裡頭一隻手拿籃子，一隻手拿貨，也是要兩隻手，所以我們的形態目前是360度輪，雙腿併成一條腿，站直一米七三，夠到二米四，蹲下來可以摸地，用最便宜的價格、最穩定的機器人技術率先實現可以落地的機器人。

主持人：具身智能和人形機器人，大家討論的時候，總是把兩個詞語放在一塊，您怎麼看？

陳建宇：這個確實是比較容易混淆的兩個概念，但是他們的側重點是不太相同的。

對具身智能來說，我們主要關注智能性和軟件。具身智能其實對形態其實是要求不高的，可以是人形的、四足的、輪式的、單個機械臂的，甚至就是一個桌子、椅子，只要它能動，都可以給他賦予具身智能，是一個更廣泛的概念。

人形機器人顧名思義一定是人形的。

主持人：機器人現在有很多種類，怎麼判斷它的技術含量？

陳建宇：非常粗略的把人形機器人相關的技術分成三大塊的話，其實就是大腦、小腦和本體。

我覺得這裡面最關鍵的是小腦，它是最基礎的部分，就如果你只有一個本體、大腦，缺了小腦的話，其實你只能成爲一個會思考的一堆爛鐵。

小腦是承接大腦思考、規劃的，同時也是技術不確定性最高的，最沒有收斂的。但是我們是有蠻多的產業可以去借鑑，包括我們的工業機器人產業、電動車的產業。

對於小腦來說，我們發現大部分的機器人用的還是十幾年前，甚至幾十年前的掃地機這一類的技術去做。

王鶴：我認爲人形機器人的技術含金量可以從這兩個地方總結：

一，他的泛化性到底有多強？是不是真正能通向未來的通用？

二，它能不能跟人之間用自然語言來溝通，然後實現零代碼的部署？不僅能幹活，還能交流。

張巍：機器人就看兩個關鍵詞，一個叫泛化，一個叫通用，這是本次變革最關鍵的兩個詞。

我提供個我的角度，我覺得咱們先看腿，人形機器人之所以是一個新的物種，它不是一個傳統機械臂公司的延續，它的本質就是要長出兩條腿來。

那看腿也要看什麼呢？主要看兩點，一個就是腿，他能不能完成他本能的一些本職的工作，就是地形的泛化能力。第二點是看他能不能支撐雙臂去完成全身協同的通用操作，這也是腿存在的一個重要的價值。

主持人：機器人到底什麼時候能幹活？

陳建宇：如果說我們不是特別嚴苛的定義，就是說它能初步去用起來的話，那我認爲不管是工業還是商用，甚至是家用，一兩年的時間就能有，根據羅傑斯的那個創新擴散的模型，都有一些早期的一些使用

工業的場景會更快一些，因爲它是有邊界的，你可以人爲的制定一些規則，所以在它的圖靈時刻還沒到來之前，機器人可能就能逐步應用起來。

王鶴：以零售場景爲例，現在的技術已經達到了產業化的邊界了，我們預測就是從明年開始將會是商用的元年。

5年，我們的目標是在這樣的場景和車廠的抱箱子裡頭達到一萬臺；10年，是我認爲安全性可以進入家庭標準的；15年，我預計可能會產生千萬乃至大千萬級別的市場。

王興興：我個人的話相對比較樂觀，我覺得到明年，像一些工業場景，明年基本上該問題不大，我覺得三年左右至少全球範圍內有通用型的 AI 出來，因爲跟過去十年不一樣了，現在整個機器人AI人才資金投入是巨量的，都是幾百倍甚至上千倍的投入。五年應該會有天翻地覆的變化。

張巍：我認爲用時間去衡量它，是一個比較難的事情，我管這個賽道的產業的發展叫事件驅動，而不是時間驅動。它更關鍵的是看這個 AI 技術、關鍵的開關什麼時候能找到，而不能用時間去具體的衡量它。

我也是相對樂觀的。只不過我也說，我們要避免過早的去做商業化，比如說在大模型ChatGPT 2.0、3.0的時候你要做個超級應用，那肯定要打一堆補丁，因爲上一代人工智能和機器人落地的過程中也遇到了很多這種挑戰，大家都調侃說“人工智能等於智能不夠靠人工”，所以是靠很多這個增加了部署的售後成本，最終商業邏輯還是挺難跑通的。

主持人：大模型對人形機器人的發展，起到了什麼樣的影響？

張巍：我覺得機器人這一波的發展不是自我革命，發展是靠大模型技術和大模型技術背後的技術，我甚至認爲具身智能將會是多模態大模型的一個killer APP。當然我把無人駕駛也算在我們具身智能賽道里邊來了。

我覺得這幾年由於受到大模型技術發展的一個啓發，機器人領域的發展也經歷了從規則驅動、到算法驅動、再到數據驅動的一個跳變啊。

以前你可能看你有什麼算法，然後根據算法的需求來收數據來解決問題。現在的思維變了，我們要首先看你有什麼數據，然後你獲取新數據的方式和成本是怎麼樣？數據的分佈是什麼樣的？

這就直接的決定了你採用什麼樣的算法去訓練，所以我們公司有個口號叫，軟件定義硬件，但數據定義軟件。

王興興：我一直感覺，通用人機器人算是大模型的最好的一個落地的載體，二者是非常好的一個組合關係

王鶴：我覺得就是現在的通用機器人，幾乎都是分立的小模型，所以大模型賦能技能有幾步？

第一步是，大模型可以作爲一個agent來調用這些 API ，進行長程的任務規劃；

第二步是大模型可以作爲一個monitor，看小模型執行過程中有沒有出任何錯誤，及時的去終止、挽救這些錯誤，比如藥盒子掉在地上了，他立馬說你也給他撿起來；

第三步是最有想象力的，就是端到端的vision language action，把動作作爲大模型輸出的模態，像自動駕駛一樣，做一個把通用感知、通用規劃和通用執行融爲一體的大模型。

陳建宇：：我認爲大模型這邊帶給我們最重要的啓發就是，告訴我們有 scaling law的存在，啓發我們去思考怎麼樣去做機器人的scaling law。

同時它也帶着我們來一些語言模型領域的一些技術，比如說 Transformer的架構。算法層面、模型層面，還是數據層面，其實都有很多的不同，需要我們去探索。

end

機器人“圖靈時刻”何時到？四名創始人答曰：五年內見真章丨最前線

相關資訊