機器人“圖靈時刻”何時到?四名創始人答曰:五年內見真章丨最前線
作者丨邱曉芬
編輯丨蘇建勳
在2024年的雲棲大會上,作爲AGI的一項重要支線,具身智能也成爲了其中一大討論焦點。
在“機器人的圖靈時刻”論壇上,阿里特意邀請了四家當前炙手可熱的人形機器人廠商——宇樹科技、星動紀元、銀河通用、逐跡動力,針對今年的機器人熱潮的本質、發展歷程、如何落地、技術難點等關鍵問題展開了討論。
不過,不像AI的論壇那麼針鋒相對,四位創始人對於機器人賽道的判斷基本一致,大家認爲:
以下是星動紀元創始人陳建宇、銀河通用創始人王鶴、宇樹科技創始人王興興、逐跡動力創始人張巍的交流整理(略驚摘編)
主持人:通用機器人一定要做成人形嗎?
王興興:好幾年前有投資人問我,我們做不做人形機器人?我說我堅決地反對做人形機器人,我當時在大一,09年、10年的時候,我自己就做過小的人形機器人。做過好以後,我發現全球當前的人類技術其實沒辦法駕馭這麼複雜的機器人系統。
但是2016年開始,新的AI技術誕生了,在差不多在22年的時候,整個的大語言模型的效果已經非常驚豔,整個AI技術發展是遠超我自己預計的,所以我們在23年初正式開始做人形機器人,目前取得的效果也非常驚豔。
機器人整個發展節奏,無論是硬件和軟件,都是超過我自己預計的節奏 。
張巍:我覺得一定要做成人形,而且是有兩條腿的人形機器人。
我簡單說一下我對通用機器人的理解。我首先覺得機器人和AI的使命是不同的,AI是代替人來思考決策的,而機器人本質上要代替人來運動。
大家看到各式各樣的機器人非常多,本質上就在做兩件事情,一件事情是要移動(Mobility),空間中從 a 到 b;另一件事情是,操作。
所謂的通用機器人,在這兩個能力上都能達到跟人一樣的環境適應能力和任務的泛化性。值得一提的是,通用的移動能力其實是不太需要雙臂的,但是通用的操作能力反而是需要雙腿的,不然你可能都沒法到人能到的地方去幹活。
我覺得 AGI 的發展最相比上一代最大的區別,就是從專用到通用的變化,在大模型出來之前,我感覺通用這個詞是個貶義詞,通用,就是證明它是沒啥用。
但是大模型出來以後,大家發現,以前我們這種在專業領域裡收集數據,去做專項任務的訓練方式是有很大侷限性的,反而我們要忽略專項的能力,要先構建通用的基礎模型能力,再在上面長出專用的能力,這纔是系統化解決泛化性的關鍵。
我覺得軟件算法的通用性,就靠大模型技術;機器人跟物理世界交互的通用性,就靠人形機器人。
主持人:您怎麼定義人形機器人形態?
王鶴:我們公司叫銀河通用,我們從建立的第一天就是要達成通用機器人。當然通用有一個過程,他先做到單一場景、多任務、可移動,然後再做到多場景、多任務,最後做到全場景、全任務。在這個過程中,形態上在不同階段也有它最適合、最經濟、最穩定的載體。
通用機器人這個萬億市場剛剛開局的時候,我們選擇了先從幾個場景裡頭的多任務做起,比如零售商超場景上貨下貨,在工廠裡去抱箱子,其實我們發現如果它是平地的話,輪子是夠用的,也不能說我們沒有腿,我們是把兩隻腿並在了一體。
那爲什麼要有雙手呢?因爲我們發現,比如說你在超市裡頭一隻手拿籃子,一隻手拿貨,也是要兩隻手,所以我們的形態目前是360度輪,雙腿併成一條腿,站直一米七三,夠到二米四,蹲下來可以摸地,用最便宜的價格、最穩定的機器人技術率先實現可以落地的機器人。
主持人:具身智能和人形機器人,大家討論的時候,總是把兩個詞語放在一塊,您怎麼看?
陳建宇:這個確實是比較容易混淆的兩個概念,但是他們的側重點是不太相同的。
對具身智能來說,我們主要關注智能性和軟件。具身智能其實對形態其實是要求不高的,可以是人形的、四足的、輪式的、單個機械臂的,甚至就是一個桌子、椅子,只要它能動,都可以給他賦予具身智能,是一個更廣泛的概念。
人形機器人顧名思義一定是人形的。
主持人:機器人現在有很多種類,怎麼判斷它的技術含量?
陳建宇:非常粗略的把人形機器人相關的技術分成三大塊的話,其實就是大腦、小腦和本體。
我覺得這裡面最關鍵的是小腦,它是最基礎的部分,就如果你只有一個本體、大腦,缺了小腦的話,其實你只能成爲一個會思考的一堆爛鐵。
小腦是承接大腦思考、規劃的,同時也是技術不確定性最高的,最沒有收斂的。 但是我們是有蠻多的產業可以去借鑑,包括我們的工業機器人產業、電動車的產業。
對於小腦來說,我們發現大部分的機器人用的還是十幾年前,甚至幾十年前的掃地機這一類的技術去做。
王鶴:我認爲人形機器人的技術含金量可以從這兩個地方總結:
一,他的泛化性到底有多強?是不是真正能通向未來的通用?
二,它能不能跟人之間用自然語言來溝通,然後實現零代碼的部署?不僅能幹活,還能交流。
張巍:機器人就看兩個關鍵詞,一個叫泛化,一個叫通用,這是本次變革最關鍵的兩個詞。
我提供個我的角度,我覺得咱們先看腿,人形機器人之所以是一個新的物種,它不是一個傳統機械臂公司的延續,它的本質就是要長出兩條腿來。
那看腿也要看什麼呢?主要看兩點,一個就是腿,他能不能完成他本能的一些本職的工作,就是地形的泛化能力。第二點是看他能不能支撐雙臂去完成全身協同的通用操作,這也是腿存在的一個重要的價值。
主持人:機器人到底什麼時候能幹活?
陳建宇:如果說我們不是特別嚴苛的定義,就是說它能初步去用起來的話,那我認爲不管是工業還是商用,甚至是家用,一兩年的時間就能有,根據羅傑斯的那個創新擴散的模型,都有一些早期的一些使用
工業的場景會更快一些,因爲它是有邊界的,你可以人爲的制定一些規則,所以在它的圖靈時刻還沒到來之前,機器人可能就能逐步應用起來。
王鶴:以零售場景爲例,現在的技術已經達到了產業化的邊界了,我們預測就是從明年開始將會是商用的元年。
5年,我們的目標是在這樣的場景和車廠的抱箱子裡頭達到一萬臺;10年,是我認爲安全性可以進入家庭標準的;15年,我預計可能會產生千萬乃至大千萬級別的市場。
王興興:我個人的話相對比較樂觀,我覺得到明年,像一些工業場景,明年基本上該問題不大,我覺得三年左右至少全球範圍內有通用型的 AI 出來,因爲跟過去十年不一樣了,現在整個機器人AI人才資金投入是巨量的,都是幾百倍甚至上千倍的投入。五年應該會有天翻地覆的變化。
張巍:我認爲用時間去衡量它,是一個比較難的事情,我管這個賽道的產業的發展叫事件驅動,而不是時間驅動。它更關鍵的是看這個 AI 技術、關鍵的開關什麼時候能找到,而不能用時間去具體的衡量它。
我也是相對樂觀的。只不過我也說,我們要避免過早的去做商業化,比如說在大模型ChatGPT 2.0、3.0的時候你要做個超級應用,那肯定要打一堆補丁,因爲上一代人工智能和機器人落地的過程中也遇到了很多這種挑戰,大家都調侃說“人工智能等於智能不夠靠人工”,所以是靠很多這個增加了部署的售後成本,最終商業邏輯還是挺難跑通的。
主持人:大模型對人形機器人的發展,起到了什麼樣的影響?
張巍:我覺得機器人這一波的發展不是自我革命,發展是靠大模型技術和大模型技術背後的技術,我甚至認爲具身智能將會是多模態大模型的一個killer APP。當然我把無人駕駛也算在我們具身智能賽道里邊來了。
我覺得這幾年由於受到大模型技術發展的一個啓發,機器人領域的發展也經歷了從規則驅動、到算法驅動、再到數據驅動的一個跳變啊。
以前你可能看你有什麼算法,然後根據算法的需求來收數據來解決問題。現在的思維變了,我們要首先看你有什麼數據,然後你獲取新數據的方式和成本是怎麼樣?數據的分佈是什麼樣的?
這就直接的決定了你採用什麼樣的算法去訓練,所以我們公司有個口號叫,軟件定義硬件,但數據定義軟件。
王興興:我一直感覺,通用人機器人算是大模型的最好的一個落地的載體,二者是非常好的一個組合關係
王鶴:我覺得就是現在的通用機器人,幾乎都是分立的小模型,所以大模型賦能技能有幾步?
第一步是,大模型可以作爲一個agent來調用這些 API ,進行長程的任務規劃;
第二步是大模型可以作爲一個monitor,看小模型執行過程中有沒有出任何錯誤,及時的去終止、挽救這些錯誤,比如藥盒子掉在地上了,他立馬說你也給他撿起來;
第三步是最有想象力的,就是端到端的vision language action,把動作作爲大模型輸出的模態,像自動駕駛一樣,做一個把通用感知、通用規劃和通用執行融爲一體的大模型。
陳建宇::我認爲大模型這邊帶給我們最重要的啓發就是,告訴我們有 scaling law的存在,啓發我們去思考怎麼樣去做機器人的scaling law。
同時它也帶着我們來一些語言模型領域的一些技術,比如說 Transformer的架構。算法層面、模型層面,還是數據層面,其實都有很多的不同,需要我們去探索。
end