穹徹智能-上交大最新Nature子刊速遞:解析視觸覺動態重建方案

機器之心發佈

機器之心編輯部

在人形機器人操作領域,有一個極具價值的問題:鑑於操作數據在人形操作技能學習中的重要性,如何有效地從現實世界中獲取操作數據的完整狀態?

如果可以,那考慮到人類龐大規模的人口和進行復雜操作的簡單直觀性與可擴展性,人形機器人再也不用擔心沒有高質量的操作數據資源了。

穹徹智能攜手上海交通大學盧策吾和劉景全團隊意識到,分佈式觸覺技術對於重建完整人類操作至關重要,當操作被遮擋時,觸覺可以作爲視覺的有效補充,從而一同還原出操作區域的形變狀態、接觸力位點和大小。因此,該團隊提出了一種全新的視覺 - 觸覺聯合記錄和追蹤系統 ViTaM(爲 Visual-Tactile recording and tracking system for Manipulation 的縮寫),包括一個可伸縮的觸覺手套,與一個基於視覺 - 觸覺的聯合學習框架。文章在 24 個物體樣本中進行實驗,涵蓋了 6 個類別,包含剛性物體和可形變物體,重建誤差均值僅爲 1.8 釐米。

ViTaM 系統在未來發展中,有望被深度集成至機器人的電子皮膚之中,從而賦予機器人與周圍環境進行無縫互動的能力。這不僅能夠使機器人實時感知並精準響應多樣化的環境刺激,更將極大提升其在複雜場景下的靈巧操作水平,推動智能機器人技術邁向更加先進和實用的新階段。

演示視頻鏈接:

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650942987&idx=2&sn=3d32dfd94578c347c15bb89bb3a47dd6&chksm=84e7ea75b3906363c613ac948b5661b628d3569f9af5dcfc62a4a0b45ea10177de9a6b43afcd&token=1282816736&lang=zh_CN#rd

可以看到,對於剛體和可形變物體,系統都能進行高水準的重建,也同時適用於不同類型的物體,如紙杯,橡皮泥,剪刀等日常生活中常見的物體。

ViTaM 方法詳解

圖 1:A 人機交互中涉及人類操作的(i)無力交互和(ii)有力交互的任務及其響應結果。B ViTaM 系統概述:(i) 受人類啓發的聯合感知方法,在操作過程中同時處理跨模態的視覺和觸覺信號,以實現狀態跟蹤;(ii) 可拉伸界面的應變導致的傳感誤差,它降低了力測量的精度和觸覺傳感器的應用效果;(iii) 觸覺記錄方案,包括具有主動應變干擾抑制功能的高密度可拉伸觸覺手套,以及用於顯式分佈式力檢測結果的 VR 界面;(iv) 由深度學習驅動的物體狀態估計應用,能夠重建物體的整體幾何形狀和接觸區域的細粒度表面形變,特別是對於可形變物體。

ViTaM 系統核心挑戰是要解決在與可形變物體進行帶力交互時如何捕捉細粒度信息,當可形變物體能被正確捕捉時,剛性部件的交互就自然迎刃而解了。

該系統利用一個高密度、可拉伸觸覺手套和一個 3D 相機記錄操作過程,並利用一個視覺 - 觸覺聯合學習框架在幾何層面上估計手 - 物體的狀態。高密度觸覺手套最多有 1152 個觸覺傳感通道分佈在手掌上,當與物體交互時,會記錄接觸區域的手部物體狀態,並以 13Hz 的幀速率準確捕捉手物交互過程中可拉伸界面上的力分佈和動態(圖 1B (iii))。同時,非接觸區域的手與物體狀態可以由高精度深度攝像頭記錄。

捕捉到的力測量和點雲序列,經過視覺 - 觸覺學習模型處理,融合跨模態數據特徵,最終實現對不同形變材料的被操作物體的跟蹤和幾何三維重建(圖 1B (iv))。

A. 硬件設計:觸覺手套的設計與製造

在高精度觸覺反饋系統中,如何準確地捕捉並傳遞手部與物體之間的交互力,一直是硬件設計中的一個核心挑戰。特別是在涉及複雜手部運動和多點壓力分佈的情況下,傳統的傳感器系統往往難以滿足高靈敏度和高可靠性的需求。因此,開發一款能夠精確感知觸覺信息並支持多通道力傳感的手套式硬件設備顯得尤爲重要。受到現有觸覺手套技術啓發,團隊研發了這一款創新的觸覺手套系統。該手套包括多個模塊(如圖 2A 所示):觸覺傳感模塊、織物手套、柔性印刷電路(FPC)、多通道掃描電路、處理電路以及一個腕帶。系統設計的核心目標包括:

該觸覺手套系統不僅能夠精確捕捉力感信息,還具備高適配性和舒適性,適用於多種實際應用場景,如虛擬現實、機器人操作及醫療領域等。

圖 2:觸覺手套的具體設計:A. 最大傳感通道爲 1152 的高密度可拉伸觸覺手套的放大示意圖;B. (i) 帶有兩對應變電極、行電極陣列和列電極陣列的觸覺傳感塊的結構;(ii) 顯示應變電極位置的放大圖;(iii) 顯示緊密裝配的觸覺傳感塊側視圖。

B. 視覺 - 觸覺聯合學習在人類操作中的應用

在操作可形變物體時,手部與物體接觸的力分佈能夠幫助揭示因形變而發生的幾何變化。然而,由於形變區域幾乎具備無限的自由度,完全估算物體形變的幾何形狀一直是一個難題。儘管觸覺手套能夠測量接觸區域的分佈力並幫助感知形變,但其覆蓋範圍僅限於部分物體表面,且即便是高密度、分佈式的傳感器網絡也難以全面捕捉物體的完整幾何信息。因此,團隊認爲,還需要視覺觀測來彌補這一不足,從而恢復完整的物體幾何形態。此類視覺 - 觸覺交互機制與人類的認知過程高度相似。

團隊提出了一種視覺 - 觸覺聯合學習框架,旨在手 - 物體重建和跟蹤中恢復物體幾何信息,尤其是在高度非剛性形變的情況下。該框架通過結合觸覺數據和視覺信息,能夠有效重建被手部遮擋或形變的物體細節。爲了評估這一框架,團隊製作了一個視覺 - 觸覺數據集,包括 7680 個樣本,涵蓋 24 種物體、6 個類別。數據集中包括海綿、橡皮泥、瓶子和杯子等可形變物體,以及摺疊架和剪刀等剛性物體。每個物體都進行了 20 次觸摸,並通過 16 個不同的攝像頭視角進行了記錄。訓練數據來自 RFUniverse,它支持基於有限元方法(FEM)的仿真,測試數據則來源於實際操作。

圖 3: 該模型包含手部重建器、特徵提取器、時間特徵融合器和繞數場(WNF)預測器。全局和局部特徵均從視覺和觸覺輸入中提取,並基於手部的區塊位置。團隊將這些特徵融合在一起,利用時間交叉注意模塊計算每點特徵,預測採樣位置的 WNF,並通過行進立方體算法重建物體幾何形狀。

實驗驗證

團隊從兩方面驗證了系統的有效性:觸覺手套與可形變物體交互分析,以及視覺 - 觸覺聯合學習的物體重建效果評估。

A. 觸覺手套與可形變物體交互分析

爲了驗證觸覺手套的性能,團隊設計了一個動態的餃子製作任務,使用軟橡皮泥作爲高度可形變的物體進行實驗。該任務包括將橡皮泥揉成球狀,然後將其壓成扁平形狀(作爲餃子皮),最後用手指捏合皮邊。首先,當手掌將橡皮泥揉成球狀時,圖 4A 展示了手掌傳感區域(稱爲手掌塊)的歸一化壓力變化。其次,在手掌按壓橡皮泥球時(圖 4B),經過應變干擾校正後的歸一化壓力高於未經校正的結果。第三,將餃子皮對摺並用拇指和食指捏合邊緣(圖 4C)。歸一化的捏合壓力顯示,經過校正的壓力曲線在三個子階段明顯增加,這可能是由於形變帶來的顯著應變和未校正的壓縮力減少所致。

此外,團隊還研究了在需要手指與手掌協作的操作中,應變干擾校正前後的觸覺傳感塊表現。例如,在反覆捏合並釋放海綿時(圖 4D)。未校正的操作只涉及六個活躍的手指塊和九個活躍的手掌塊,這些塊的相關係數大於 85%(圖 4E (i))。經過校正後,團隊發現了兩個額外活躍的手指塊和五個手掌塊(圖 4E (ii))。圖 4F (i) 展示了校正前活躍塊的歸一化壓力變化,圖 4F (ii) 則展示了校正後壓力變化較小的塊。Spearman 相關性結果分別展示了未校正和校正後的數據(圖 4G (i) 與圖 4G (ii))。位於中指遠端指骨上的塊 3-1 與其他塊的相關性最高。校正後,出現了更多的相關性,表明所有手指塊在捏合海綿時都發揮了作用,尤其是塊 2-2、塊 5-1、塊 5-2 和塊 5-3。像塊 3-1 和塊 2-1 這樣的塊,在校正後相關係數增加超過 85%,這表明相關塊之間的協同效應得到了增強。圖 4H 展示了校正後強相關數量的增加,進一步說明了即使在應變干擾的情況下,校正也有助於深入挖掘不同手指與手掌之間的依賴關係。

觸覺手套還能夠在操作過程中幫助估計物體形狀,尤其是在抓取各種物體時 —— 無論是軟物體(如塑料滴管、毛巾、塑料瓶)還是硬物體(如畫筆、勺子、小針)。在虛擬現實界面中,可以明顯看到沿物體邊緣的力反應。

團隊還考慮了手部姿態的干擾。圖 5-1 與 5-2 分別比較了兩種典型動作 —— 揉捏麪糰和抓取海綿 —— 在空手姿態和與真實物體交互時的歸一化壓力曲線。與空手姿態相比,實際交互時的歸一化壓力曲線分別增加了 12 倍、16 倍和 6 倍。較低幅度的噪聲可以通過視覺 - 觸覺聯合學習框架輕鬆濾除。在監督學習設置下,相關信號(例如接觸重建)得到增強,不相關信號則被抑制。

圖 4:包餃子任務以及三個動作的觸覺反應和歸一化壓力結果:(A) 揉、(B) 壓和 (C) 捏。D 反覆捏放可形變海綿的抓取任務照片。E 海綿抓取任務中主動觸覺傳感塊的分佈(i)不含應變干擾抑制,(ii)含應變干擾抑制。F (i) 未進行應變干擾抑制的主動塊和 (ii) 抑制後進一步顯示的塊的歸一化壓力曲線。G 海綿抓取任務中(i)無應變干擾抑制時和(ii)有應變干擾抑制時斯皮爾曼相關分析的弦圖像。H 校正前後所有手指區塊和手掌區塊的強相關數量。

圖 5-1:(A) 揉捏操作中的手部姿勢任務和 (B) 實際揉麪動作與歸一化壓力曲線。

圖 5-2:(A) 在抓取操作中的手部姿勢任務和 (B) 實際抓取海綿時的壓力曲線。

B. 視覺 - 觸覺聯合學習的物體重建效果評估

爲了驗證 ViTaM 系統的有效性,研究者們進行了定性和定量對比測試,以回答以下問題:(1) 特定於觸覺陣列的數據格式是否能有效地向學習算法傳遞幾何信息?(2) 與其他形式的傳感器(如 RGB-D 相機或光學觸覺傳感器)相比,它是否更有效?

a) 定性結果

爲了展示提出的聯合學習框架的有效性,團隊展示了兩個彈性物體(海綿)和一個剛性物體(剪刀)的接觸物體重建。從圖 6A 中可以看到,真實數據中的手和物體都得到了很好的重建,而且在觸覺信息的幫助下,還可以重建手部遮擋的細節形狀。更重要的是,在應變干擾抑制後,基於觸覺反饋重建的可形變海綿可以在應變明顯的區域顯示出更多微小細節,而且由於應變干擾抑制方法有助於恢復施加在剛性邊緣上的真實微小力,剛性物體的完整性也得到了改善。圖 6B 展示了逐漸形變的塑性體,它代表了捏餃子皮的包餃子任務。塑性體在每個步驟中的形變都得到了很好的展示。在圖 6C 中,團隊重建了一個剛性摺疊架,該摺疊架採用了手與物體上不同位置的多次接觸。摺疊架的細節是通過多次接觸與迭代觸覺信息嵌入(tactile embedding)來逐步完成的。此外,爲了證明視覺 - 觸覺聯合學習的必要性,在圖 6D 中展示了剪刀、摺疊架和瓶子的純視覺結果和視覺 - 觸覺結果。得益於視覺和觸覺特徵的結合,剛性和可形變物體都得到了很好的重構。在圖 6E 中,重建的序列證明研究者所提出的方法能夠處理多幀的連續數據。因此,該視覺 - 觸覺模型性能的提高證明,引入應變干擾抑制的觸覺信息對於獲得手部遮擋的特徵和獲取可拉伸界面上物體的動態形變都是至關重要的。

圖 6:A. 在沒有應變干擾抑制和有應變干擾抑制的情況下,兩塊彈性海綿和一把剛性剪刀的接觸物體重建。B. 在沒有應變干擾抑制和有應變干擾抑制的情況下,用手操作逐漸形變的餃子形塑性體的三個重建階段。C. 手在物體不同位置多次接觸後重建的剛性摺疊架。D. 剪刀、架子和瓶子的純視覺和視覺 - 觸覺重建結果,顯示了視覺 - 觸覺關節學習的優越性。E 根據在現實世界中收集到的視覺 - 觸覺數據對可形變的杯子和可形變的海綿進行重建的序列結果。

b) 定量結果

團隊同樣使用了定量指標對方法進行了評估。從表 1 中可以看到,ViTaM 在真機數據下的表現很理想, 大部分的物體都能做到重建誤差的倒角距離在 1~2 釐米之內。在實驗中,首先,團隊將現有的純視覺解決方案的性能與 ViTaM 系統的算法(不包括觸覺編碼器)進行了比較;其次,將該算法與之前的一項工作 VTacO 進行了比較,後者採用了基於硅膠的光學觸覺傳感器 DIGIT 來記錄接觸形變。在表 2 中可以看到 ViTaM 與前人方法的結果的倒角距離比較。可以發現,ViTaM 系統在重建彈性、塑性、鉸鏈式和剛性四種類型的物體時,表現出優於純視覺方法的性能。例如,使用 ViTaM 系統重建海綿的倒角距離僅爲 0.467 釐米,與 VTacO 相比提高了 36%。基於硅膠的光學觸覺傳感器可以獲得更高分辨率的局部幾何信息,如尖銳邊緣或嚴重形變,而分佈式觸覺手套設計則可以在遮擋過於嚴重而無法獲得視覺信息時獲得更全面的特徵。

表 1:ViTaM 方法在真機物體上的重建效果指標

表 2:ViTaM 方法與前人的基線方法的定量指標的比較

結論與未來展望

在複雜的操作任務中,捕捉手與可形變物體之間的觸覺數據並進一步估計手物狀態一直是一個巨大挑戰。特別是,缺乏準確、分佈式且具有可伸縮性的觸覺陣列,阻礙了視覺 - 觸覺學習的融合,限制了對一般人類操作的理解。尤其是在可伸縮界面上的應變干擾,會嚴重影響力的測量準確性和應用效果。

本文提出了一種用於操作的視覺 - 觸覺聯合記錄與跟蹤系統,其中觸覺輸入通過一款具有 1152 個傳感通道和 13Hz 幀率的高密度可伸縮觸覺手套捕獲。該觸覺手套集成了一種主動的應變干擾抑制方法,其力測量的準確率達到 97.6%。與未經校正的測量數據相比,ViTaM 的傳感器準確度提升了 45.3%。這一主動方法在材料 - 電路層面工作,更符合人類在接觸剛性或可形變物體時的自適應觸覺感知。與傳統的應變干擾抑制策略相比,從結構設計和材料選擇角度來看,本文提出的主動方法具有易於集成、成本效益高、大面積適配、耐用性強及廣泛的應變抑制範圍等優點。ViTaM 系統實現了跨模態數據特徵的融合,揭示了手物交互過程中的被遮擋狀態,推動了智能體在人形體與機器交互(HMI)中理解能力的發展,尤其是在力學交互方面,向人類觸覺感知的水平邁進了一步。

展望未來,ViTaM 系統將被集成到機器人表面覆蓋的電子皮膚中,實現與周圍環境的無縫互動,能夠感知並響應多種環境刺激。此外,捕捉和恢復人類操作過程中的動態狀態將有助於更好地理解人類行爲,並提升機器人靈巧操作的能力,推動從物體特定操作到通用操作場景的技術進步。