專訪優必選龐建新:在大模型時代推動機器人智能化|GAIR live

“大模型怎麼融進人形機器人裡?”這是龐建新最近一直在琢磨的核心問題。

作爲優必選副總裁、研究院副院長,龐建新正領導團隊,將大模型技術應用於人形機器人的多模態感知和決策規劃中,提升人形機器人智能化水平。

在從業的近三十年裡,他的專業背景橫跨語音處理、計算機視覺,再到人形機器人技術;從中科大的博士,到中國科學院深圳先進技術研究院的PI,再到優必選的技術高管,他的職業生涯,已然是中國智能科技崛起的一個縮影。

現如今,大模型的橫空出世,除了讓龐建新看到了一些可能性,更多是冷靜。

他坦陳,“因爲在技術快速發展時,整個技術路線和應用場景還存在不確定性,但同時也正是國內人形機器人企業快速發展的最佳時期。”

這是一種強烈的矛盾感。

在談及大模型技術對人形機器人智能化進程的影響時,龐建新提出了自己的見解。

他認爲,大模型技術的核心是其能夠融合大量知識和數據,這對於人形機器人領域來說是一個巨大的機遇,但同時也帶來了新的挑戰。比如如何將大語言模型技術(可理解爲“大腦”)與人形機器人的“小腦”(控制大模型)和“本體”結合,以及如何處理大語言模型可能產生的“幻覺”問題等等。

而要落到實際操作層面,龐建新表示,優必選的策略是雙管齊下,既要一種分層結構的解決方案,同時也不能放棄端到端的解決方案。

前者是將大模型分爲處理知識、常識推理的“大腦”層,指導動作規劃的“小腦”層,以及直接與控制相結合的動作執行層。這種分層解耦的方法,使得每一層都可以專注於其特定的任務和數據需求,提高了技術的應用效率。

後者則是從感知直接到控制的全過程,這種方法導致數據獲取更爲複雜,卻能夠提供更爲直接的解決方案。

針對大模型與機器人智能化現狀,龐建新說了四個字:百花齊放。

“當下人工智能和人形機器人技術的結合正處於一個開放性問題的時期。”這正是當下人形機器人從業者的樂趣所在。而換句話說,這也意味着目前技術尚未開始收斂,仍需在一些小規模場景中進行實驗和測試。

今年2月,優必選與新能源車廠的合作,正是他們在多模態感知決策技術應用實訓方面的一次嘗試。龐建新堅信,大模型技術將是推動未來技術進步和產業化的關鍵。

近期在與雷峰網-AI科技評論的對話中,龐建新分享他對於大模型技術推動人形機器人智能化進程的見解,以及國內企業如何在技術快速發展的背景下把握機遇。

以下爲對話(經編輯):

4月8日(週一)20:00-22:00,雷峰網將舉辦主題爲「大模型時代,機器人的技術革新與場景落地」的線上圓桌論壇,屆時龐博士將分享更多前沿觀察。

01 尋找最適合機器人的大模型

雷峰網:首先請問龐博,您的團隊目前在AI+人形機器人領域有哪些探索,有哪些不錯的技術成果可以分享?

龐建新:我們確實有一些頗具前瞻性的課題項目,在近期進展不錯。

衆所周知,當前人工智能已經邁入了一個嶄新的時代,其中大模型、多模態技術以及具身智能等重要進展,對於機器人領域產生了深遠影響。這些變革性的技術正在推動着許多傳統觀念的更新換代。

我們的團隊也致力於類似的研究工作,特別是在如何運用大型模型和具身智能,來解決以往基於傳統DNN、CNN方法所無法克服的問題。

我們的研究重點之一是多模態感知問題。

傳統上,感知技術往往專注於單任務,並且只在決策層面進行信息融合。而現在,我們希望能夠將多模態技術應用到人形機器人技術中,將視覺感知、語音感知、上下文信息以及相關知識等統一作爲輸入,以促進人形機器人的決策過程。

此外,我們還關注於人形機器人的決策和任務規劃。

通過多模態感知信息的整合,我們期望引導人形機器人進行更爲高效的決策。傳統的決策過程往往較爲複雜,依賴於狀態轉移和條件判斷。而我們現在正嘗試利用大型模型的技術,充分發揮大模型的邏輯和推理能力,以解決人形機器人在決策和推理方面的挑戰。

具體到人形機器人的能力方面,因爲人形機器人通常需要具備幾大核心能力:人機交互、對話、移動和操作能力。這些能力在傳統上對於人形機器人而言並不容易自主實現,往往需要憑藉大量的外部輸入和條件限制。而我們現在的研究,正是通過大型模型技術的應用,充分利用大模型內含的知識邏輯和推理能力,提升人形機器人的自主性和智能化水平,把機器人各種能力鏈接起來。

雷峰網:大模型這項技術將如何影響人形機器人的智能化進程?相應地,大模型對人形機器人來說是否也帶來了新的挑戰?

龐建新:將大模型技術融入人形機器人領域,確實存在一些挑戰和問題,我們在做實際項目時就能感受到。

首先,大模型的核心是在於其能夠集成大量知識,供人類使用。然而在人形機器人領域,許多場景與知識並無直接關聯。

許多行爲,如人類的本能反應或動作智能,並不完全依賴於顯性的知識。比如說我們在抓取物體或在不平坦地面行走時,往往不需要經過深思熟慮,身體能夠自動適應環境。

在人形機器人的設計中,我們可以將其分爲“大腦”、“小腦”和“軀體”三部分。小腦部分與大模型中的知識學習並不直接相關。因此,在大模型技術落地時,我們需要解決如何將大腦與小腦結合,以及如何通過小腦驅動軀體的問題。

其次,大模型依賴數據,當任務與數據關係不大,或者數據難以採集和學習時,這構成了一個重大挑戰。大模型訓練和推理的高算力要求也是一個問題,特別是當應用場景對實時性有高要求時。

第三個挑戰是大模型本身的特性,伴隨着“涌現”的同時,這也可能導致“幻覺”問題。如何抑制這些幻覺,通過各種方式抑制或者控制大模型輸出錯誤信息,是我們需要克服的難題。

此外,大模型的成功率或者有效率問題也至關重要。對於大多數用戶,往往需要多次嘗試輸入才能得到有效答案,如何儘可能降低使用者的專業水平,比如通過自動生成相關提示語高效地獲得正確結果,也是當前大模型需要解決的重要問題。

雷峰網:大模型與人形機器人的結合正在發展期,是否分化爲幾種不同流派?

龐建新:我個人認爲,可能有兩種流派。

一種流派採用分層結構,將大模型分爲三個層次:

第一層與大腦相關,主要處理知識、常識推理等;

第二層與動作決策和任務規劃相關,類似於小腦的功能,指導動作的規劃;

第三層則直接與控制相結合,處理動作的規劃與控制。

這種分層解耦的方法,使得每一層都可以專注於其特定的任務和數據需求。

在大腦層面,可以使用現有的大模型數據,如與場景相關的知識和數據。

而在動作規劃層面,由於大語言模型中缺乏這方面的內容,我們需要在仿真環境或物理環境中採集新的數據,以豐富這一層次的數據集。

至於控制層面,可能需要通過強化學習等技術,在虛擬或物理環境中生成所需數據。

另一種流派則追求端到端的解決方案,即從感知直接到控制的全過程。

這種方法雖然數據更爲複雜,但能夠提供更爲直接的解決方案。然而,這種端到端的數據同樣難以獲取。

在實踐中,我們的選擇並不侷限於單一流派。我們同時探索瞭解耦的分層方法和端到端的技術,以技術儲備和實際應用需求爲導向。也就是說,由於人形機器人存在特殊的非剛體特性,我們目前更傾向於採用解耦的分層方法。同時,我們也在進行端到端技術的探索和研究,以適應未來可能的需求和發展。

雷峰網:最近我們對孫宇教授做了專訪。孫教授的研究重點在於將大型語言模型應用於具體的機器人任務中,例如廚房烹飪場景。他的研究使得機器人能夠創造出知識庫中未包含的新菜單。此外,GPT-4通過精心設計的提示工程,能夠生成多個不同的高級任務規劃,並將其轉化爲可執行的低級PDDL計劃。請問,優必選在這一領域的研究是否有相似之處,或者存在某些差異?

龐建新:孫教授的研究實際上涉及到了高層決策和任務規劃。

當我們人類執行一個任務時,通常會將其分解爲一系列子任務,這個過程可能是下意識的,不一定由大腦直接完成,也可能是小腦參與其中,因爲人類的認知過程相當複雜。

例如,當我們想要拿一瓶水時,我們自然而然地知道水可能在冰箱裡,於是我們會走向冰箱,打開門,通過視覺找到水,然後抓取並帶回。這個過程就是一個任務流。

所以抽象來看,人類執行任務時,將其拆解爲各個子任務本身就是一種知識。這種知識可以通過推理或場景驅動來實現。這表明,大模型在理解和生成任務規劃方面具有巨大的潛力,尤其是在與具體場景和知識庫相結合時。

當前的AI技術,正是通過大模型,包括GPT或其他模型,處理這種任務流,進行決策,並將任務分解爲子任務,再由人形機器人執行。

我們的一些研究工作與孫教授的研究類似,也是在特定場景中進行。例如,我們在2023年世界機器人大會上展示的“人形機器人多模態具身智能系統”,就涉及到更高層次的決策和任務拆解。

雷峰網:我追問一個問題,大模型與人形機器人的結合,是否能夠幫助機器人向人類智能邁出關鍵一步?

龐建新:首先,我們需要認識到,大模型的應用不僅僅是關於知識的問題,它還涉及到上下文和環境的問題。

當我們考慮將大模型應用於人形機器人時,目前還是會採用多個模型的集成應用,我們通常會將其分爲幾類:

基於語言的大模型、基於視覺的小模型、語音的小模型、多模態的大模型,以及通過強化學習等方式學習到的動作規劃,以及控制策略的方面的大模型等等,它們在學習方式和應用上的差異是顯著的。

一般看來,人們通常將大模型與基於生成式的語言大模型聯繫在一起。然而,在人形機器人的控制和規劃領域,它們有自己獨特的模型體系,這些模型與語言處理的並不是完全一樣。

但無論是哪一種大模型,它們能與人形機器人結合的原因在於,人形機器人需要在複雜多變的環境中進行有效的交互和操作。那麼,多模態大模型和基於知識的大模型,能夠爲機器人提供豐富的上下文信息和環境理解能力,從而提高其適應性和決策質量。此外,通過強化學習等技術學到的動作規劃策略,可以增強人形機器人的動作協調性和任務執行能力,通過將這些模型進行融合,從而提升了人形機器人與物理世界的交互能力和智能化水平。

雷峰網:那麼您的團隊在融合大模型技術時,在分工上如何安排?

龐建新:優必選在這方面採取了一種靈活而協同的工作方式。

由於大模型技術涉及的領域廣泛,公司在進行相關項目時通常會組織多個團隊聯合作業。這些團隊可能包括視覺感知、控制和語言處理等領域的專家。這樣的跨領域合作模式已經成爲優必選的標準做法。

而且與傳統的深度學習項目不同,大模型技術的應用已經超越了單一工種的界限,需要多個團隊的緊密協作。

這種跨團隊的合作模式並不是新的組織結構,而是大模型技術發展至今的必然結果。技術的多樣性和複雜性要求不同領域的專家共同參與,來實現項目的成功。

雷峰網:當前優必選推動技術成果產業化方面,有哪些計劃或正在進行的項目?

龐建新:今年2月底,我的團隊與新能源車廠合作開展了一項實訓工作。這項工作涉及到了我們多模感知決策技術的一部分應用。然而,我們也認識到,儘管這是一個很好的開始,但要實現AI大模型與人機協作的深度融合,我們仍需攻克一些核心技術難題。

人工智能技術,特別是大模型的應用,已經與我們的研究和實際項目緊密結合。

近期,優必選也跟百度達成了合作,將文心大模型接入人形機器人Walker S ,共同探索中國AI大模型+人形機器人的應用。

伴隨着大模型技術的賦能,人形機器人的產業化進程將加快,未來“降本增效”的人形機器人將在工業製造、商用服務和家庭陪伴等多個場景實現落地應用,解決勞動力短缺,提高生產效率,讓人類生活變得更加美好。我們堅信,這項技術將是未來長期發展的重要方向。我們將繼續致力於這一領域的研究和開發,以推動技術的進步和產業化進程。

02 優必選技術高管的身份背後

雷峰網:能介紹下您的研究背景嗎,是什麼激發了您對AI與機器人技術結合的興趣?

龐建新:我本科是在中科大,這段時期專注於語音信號處理,而科大訊飛正是在我所在的語音實驗室孵化出來的。後來我又在中科大完成了計算機視覺方向的博士學習。

2011年,我加入中國科學院深圳先進技術研究院,一邊做科研,一邊做產業。因項目合作,參與到與騰訊公司的合作中,研發了名爲“小Q”智能機器人的產品系列。也就是那時候我正式從AI研究轉向機器人研發,將人工智能與機器人相結合。

當我2015年加入優必選時,我專注於將人工智能技術與機器人融合,推動機器人技術的研發和應用落地。

所以總結來說,我的經驗涵蓋了語音處理、視覺識別到機器人技術等多個領域,這些都是當前人工智能和機器人發展的關鍵領域。

雷峰網:爲什麼看中了優必選?加入已經近十年時間了,這種專注來源於什麼?

龐建新:我加入優必選確實有一段奇妙的經歷。

2014年,在前海深港青年夢工廠開業典禮上的一次展覽,我和團隊代表中國科學院深圳先進技術研究院,展示了我們的產品,而優必選的展位就在隔壁。

後來我瞭解到,優必選在做國內自主研發的人形機器人,也瞭解到了公司創始人周劍對於人形機器人的願景和夢想,發現這個與自己的夢想高度契合,所以選擇加入了優必選。

那時候,我住在寶安西鄉,每天往返近100公里,到龍崗上班。因爲我加入公司比較早,參與了公司早期和中期的多個項目,將這些技術轉化爲公司的衆多產品。這就是熱情所在。

實際上我從未真正離開過工業界。在我加入中科院之前,曾在一家外資企業從事計算機視覺算法的研發工作,後來這家企業在國內科創板上市。我在中科院的工作中,一半的精力用於技術轉化,孵化了幾個有影響力的產品,另一半則致力於前沿科研。這些年來,我的工作始終圍繞着如何將最新技術轉化爲實際產品。

雷峰網:自2015年加入優必選以來,你眼中的公司經歷了哪幾個發展階段?

龐建新:優必選從未侷限於單一的技術研發或產品開發。公司始終堅持技術和產品同步發展的戰略,這也是優必選吸引我的地方。我認爲,只專注於技術可能會導致與實際應用脫節,而只關注產品則可能失去技術優勢和市場競爭力。

在2015年加入優必選後,在 CTO 熊友軍博士的帶領下,我們共同推動了研究院的成立,目的是將技術研發和產品開發緊密結合。

我們公司內部要求,研究院除了支持產品進行技術研發,還要投入資源跟進最新技術,根據技術發展趨勢和未來場景中可能遇到的關鍵技術進行研發。

從2016年開始,優必選着手研發大型人形機器人,並以此平臺爲基礎,將技術成果轉化爲各業務線的產品支持。公司始終堅持兩條腿走路的策略,不偏重任何一方。

優必選在技術投入上非常聚焦,始終思考機器人技術的未來發展趨勢和應用場景。基於這些長期趨勢和應用場景的考量,公司有針對性地尋找和研發適合的技術。因此,優必選很少會受到外部研究熱點的影響,而是堅持沿着既定的技術發展路徑和應用場景進行研發。

雷峰網:研究成果轉化爲實際產品,您有哪些心得?

龐建新:科研人員往往專注於技術創新和獨特性,以解決科學問題爲導向,追求學術上的突破和理論上的完備解或最優解。

而在工業產品開發中,我們更多的是尋找和解決已經存在的關鍵問題。目標是找到與工業場景、成本、軟硬件匹配度以及研發週期最相匹配的解決方案。這意味着在工業界,我們需要更多地考慮產品的實際應用和市場的需求。

此外,在面向產品或特定場景的工作中,還需要建立一套標準化的思路。這涉及到如何將場景中的各種元素數字化、標準化或規範化,確保技術的長期積累和持續改進。

儘管科研和工業界的目標和思路有所不同,但解決挑戰的方法和路徑在本質上是類似的。

雷峰網:以大模型這個熱點技術舉例,業界對其的廣泛關注始於2022年底,當時ChatGPT的發佈引發了衆多討論。在優必選是什麼時候討論大模型?

龐建新:我們對大模型技術的重視可以追溯到更早的時期。優必選在2022年,甚至在2021年上半年,就已經注意到了大模型技術的潛力。

最初,大模型技術主要應用於視覺領域,許多國內外的科研機構和大型企業都在探索,如何利用視覺大模型進行識別和檢測。

隨着時間的推移,當語言大模型開始出現時,優必選內部已經開展了類似的項目,並在內部開展了小規模的研究項目來深入探索這些技術。

到了2023年和2024年,優必選迅速將這些技術應用到了機器人領域。通過自身的研究,優必選在技能上也進行了一些創新應用,將大模型技術融入到產品開發中,提升產品的性能和智能化水平。

這次,優必選Walker S與百度文心大模型進行深度融合,進行任務調度應用開發,快速構建了任務規劃與執行能力,並完成柔軟物體操作和物體干擾分揀等任務,也是這種技術應用的一次體現。

03 機器人如何進化?

雷峰網:您認爲當前市場對機器人的需求主要集中在哪?是否有特定的場景,爲您的技術和產品研發提供了啓發?

龐建新:在大模型技術出現之後,整個行業對大模型及其在各種場景中的應用提出了明確的需求。因爲大模型技術正在重塑我們的生產方式,改變了生產力的構成。

人們可能會思考,是否可以通過人形機器人結合大模型技術,來解決工業製造中的問題?打造教育領域的潛在應用?

傳統上,計算機教育可能側重於採用編程的教學方法,但隨着大模型技術的發展,我們現在可以探索低代碼甚至零代碼的方式來解決問題。這可能爲教育帶來新的範式,使得更多人能夠通過使用這項技術來滿足他們的生產力需求。

除了工業製造和人工智能教育,優必選也在探索大模型技術在人機對話、康養以及其他應用場景中的潛力。

雷峰網:國內外對於機器人的較量到了什麼階段?對於AI前沿技術的把控會最終是如何影響大機器人開發上?

龐建新:國內外在機器人的研究思路上存在一些區別。中國企業的研究思路更加面向實際應用場景,而海外企業,如OpenAI等,在得到大量資金的支持下,能夠進行更多開放式的科學研究。

中國學術界和產業界曾經經歷過一段跟隨階段,尤其是在大模型等技術領域跟隨歐美的研究趨勢。

但中國的跟隨步伐相對緊湊,尤其在面向產品應用開發方面。儘管在某些領域,如芯片和GPU等與大模型密切相關的技術,中國可能會面臨一些挑戰,但我認爲這種跟隨是必須的。

因爲在技術快速發展時,整個技術路線和應用場景還存在不確定性,當前正是國內機器人企業快速發展的最佳時期。

雷峰網:國內有哪些企業在機器人和大模型結合方面做得比較好?

龐建新:從全球範圍來看,大模型與具體行業的結合還處於非常早期階段。儘管大模型技術取得了很多進步,但它在商業應用方面的轉化還處於早期。

當技術進入平臺期,真正的應用纔會開始。也就是說,目前技術尚未開始收斂,當技術開始收斂時,才意味着它真正準備好進行大規模應用。目前可能還處於小規模場景或特定場景的實驗和測試階段。

此外,大模型技術發展迅速,但應用仍面臨一些挑戰,如算力和數據的高要求,以及效率、成本和幻覺等問題。

雷峰網:在AI+機器人領域,未來幾年可能會出現哪些顛覆性的技術變革?除了大模型技術之外,還有哪些值得關注的發展趨勢?

龐建新:仿真技術可能是未來人形機器人領域一個潛在的顛覆性變化。由於人形機器人控制和操作相關的數據難以構建,仿真技術的發展將對人形機器人領域產生重大影響。通過高效的仿真技術,我們可以構建大量用於人形機器人應用的數據和虛擬場景,這對於人形機器人技術的進步非常重要。

當前階段,人工智能和人形機器人技術的結合正處於一個開放性問題的時期。

無論是在高層決策應用、底層控制,還是場景構建和仿真等方面,都呈現出多樣化的發展態勢。雖然已經在特定場景中看到了一些成果,但這些成果是否足夠泛化,是否能夠在人形機器人上直接進行使用,仍然是一個挑戰。

總之,AI增強人形機器人領域正處於一個充滿活力和創新的時期,未來幾年可能會出現多項顛覆性的技術變革。仿真技術、大模型以及其他AI技術的發展,將爲人形機器人領域帶來新的機遇和挑戰。

在這個百花齊放的階段,我們需要持續關注技術的發展動態,並積極探索如何將這些技術應用於實際場景中。

本文作者 吳彤,長期關注AI4S,歡迎添加微信 (icedaguniang)互通有無。

|GAIR live 圓桌預告

4月8日(週一)晚間8點~10點,雷峰網將舉辦一場主題爲「大模型時代,機器人的技術革新與場景落地」的線上圓桌論壇。

本次論壇的嘉賓有:南佛羅里達大學孫宇教授、武漢大學李淼教授、逐際動力張巍博士、優必選科技龐建新博士。

“全球人工智能與機器人大會”(GAIR)始於2016年雷峰網與中國計算機學會(CCF)合作創立的CCF-GAIR大會,旨在打造人工智能浪潮下,連接學術界、產業界、投資界的新平臺,而雷峰網“連接三界”的全新定位也在此大會上得以確立。

經過幾年發展,GAIR大會已成爲行業標杆,是目前爲止粵港澳大灣區人工智能領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。

GAIR Live作爲雷峰網旗下視頻直播品牌,旨在輸出新鮮、深度、原創的大咖訪談與對話內容,打造輻射產、學、研、投的特色線上平臺。

|AI+機器人相關資料

1,Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliabilityhttps://gairdao.com/doi/10.1142/S2972335324500029

2,《對話南佛羅里達大學孫宇教授:當大語言模型用於機器人任務規劃丨IJAIRR》https://mp.weixin.qq.com/s/vrTMsssLQvmI11kX38Jvog