H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation
https://arxiv.org/abs/2507.23523
https://embodiedfoundation.github.io/hrdt
H-RDT 架構
H-RDT是一個具有20億參數的擴散Transformer,使用流匹配來建模雙臂機器人的復雜動作分布。H-RDT采用兩階段訓練范式:1)在大規模第一人稱人類數據上預訓練;2)通過模塊化動作編解碼器在機器人數據上進行微調,實現跨本體遷移。
人類動作表征設計
我們采用較為精細的3D手部姿態表示方法,將動作編碼為緊湊的48維向量,以捕捉關鍵的雙手靈巧操作信息:
(1)左右手的3D位置(3×2)與6D姿態(6×2),共計18維;
(2)與機器人控制中的末端執行器 (End-Effector) 控制參數對齊;
(1)每個手五根手指,各提取一個三維坐標,總共10×3=30維;
(2)用于表達手指張合、握持形態等細粒度操作意圖。
(1)動作通用性強:該表示可以視作覆蓋大多數操作型機器人的“上層動作空間”,能覆蓋如雙臂7-DoF機械臂、并聯夾爪等控制參數;
(2)保留人類操作的關鍵特征:指尖相對位置、手腕旋轉、抓取姿態等都被編碼在其中,保留了對操控幾何和力學要素的刻畫能力;
(3)提供顯式的動力學參數:相比于point flow等表征方式,無需額外增加動力學映射,更為聚焦操作語義。
模型結構
H-RDT構建了一個五模塊組成的DiT (Diffusion Transformer) 框架,負責從多模態感知輸入生成機器人控制序列:
視覺編碼器 (DinoV2+SigLIP) :提取RGB觀測的視覺特征;配有MLP Adapter映射到transformer嵌入空間。
語言編碼器 (T5-XXL) :編碼自然語言任務指令;同樣通過MLP Adapter接入主干。
模塊化動作編/解碼器:編碼器對機器人狀態向量與噪聲動作軌跡分別編碼;解碼器將輸出特征解碼為Action Chunk,其在微調階段對不同本體重新初始化。
Transformer主干(類LLaMA3架構):使用SwiGLU激活與RMSNorm;使用解耦交叉注意力分別對視覺和語言信息進行融合;流時間 (τ) 通過AdaLN注入。
兩階段訓練范式
第一階段使用EgoDex數據集,以48維人手動作表征對H-RDT進行預訓練。EgoDex數據集包括338 K+條軌跡、涵蓋194項不同操作任務,全面覆蓋了人類操作策略、物體交互方式以及雙手協作。
第二階段對特定機器人本體微調時,需重新初始化動作編碼器和解碼器子模塊以適應不同本體,其余模塊使用預訓練權重進行微調。
流匹配訓練方法
實驗結果
真機實驗
我們在三種真實機器人上進行多任務訓練,用于驗證模型的跨本體遷移能力與實際部署的魯棒性。
1)Aloha-Agilex-2.0實驗
兩項任務均采用基于子任務的評分體系,全部完成視為完全成功。各方法各任務均測試25次。
**任務1疊毛巾:**測試模型連續折疊柔性物體的能力。
實驗結果如下表所示,H-RDT的完全成功率為52%,RDT為40%,未經人類數據預訓練的模型成功率為0。
任務2將杯子放到杯墊上: 該任務測試模型的空間推理能力,要求模型根據杯子的自動選擇合適的手去抓杯子(左側杯子必須用左手抓,右側杯子必須用右手抓)。
實驗結果如下表所示,H-RDT的完全成功率為64%,RDT為28%,未經人類數據預訓練的模型成功率為20%。
2)雙臂ARX5小樣本實驗
我們設計了一個極具挑戰的任務:在雙臂ARX5機器人上完成113個不同的抓取放置任務,每個任務僅提供1到5個示范樣本。
實驗結果如下表所示,H-RDT成功率達到了41.6%,而π0僅為31.2%,RDT為16%,未經人類數據預訓練的模型17.6%。
3)雙臂UR5+UMI實驗
我們在雙臂UR5機器人上評估了H-RDT,人類演示數據通過UMI收集。任務為雙手協作放置外賣袋,細分為四個連續步驟:右手抓取 → 右手放置 → 左手抓取 → 左手放置。
實驗結果如下表所示,H-RDT完全成功率達到58.0%,遠超RDT(29%)、 π0(31%)、未經人類數據預訓練的版本(16%)。
仿真測試
我們在仿真環境RoboTwin 2.0上進行了全面測試,包括單任務和多任務設置:
**單任務實驗:**在RoboTwin 2.0基準測試的13項操作任務上評估單任務性能。每項任務使用簡單模式下收集的50個演示樣本進行訓練,并在兩種模式下評估:包括簡單模式(干凈桌面)與困難模式(隨機光照、雜亂環境)。
H-RDT在簡單模式下取得了最高68.7%的平均成功率,在困難模式下為25.6%,顯著優于其他方法;且在簡單和困難模式下均大幅超越未經人類數據預訓練的版本 (w/o human) ,證明了利用人類操作數據預訓練的有效性。
**多任務實驗:**在RoboTwin 2.0的45項任務上進行多任務實驗,使用在困難模式下收集的約2250個演示樣本進行訓練,評估了10項任務子集。實驗結果如下表所示。
在多任務場景中,H-RDT取得了高達87.2%的平均成功率,顯著優于RDT(28.8%)、π0(48.4%)和未經人類數據預訓練的版本w/o human(67.2%)。H-RDT相較于未經人類數據預訓練版本w/o human平均成功率提高了20.0%,明顯大于在單任務場景。這表明,在多任務場景中,利用人類操作數據進行預訓練能提供更好的性能。
**跨本體泛化:**為進一步驗證H-RDT的跨本體遷移能力,在仿真環境中對兩種不同的機器人本體Aloha-Agilex-1.0和Franka-Panda進行了多任務實驗,實驗結果如下圖所示。
H-RDT在兩種機器人上均表現出很強的性能,在 Aloha-Agilex-1.0上達到87.2%的成功率,在Franka-Panda上達到62.9%的成功率,在兩個機器人上均顯著優于基線方法。
總結與展望
本文提出H-RDT模型,使用具有3D手部位姿標注的第一人稱人類操作視頻預訓練以增強雙臂機器人的操作能力。展望未來,面對數據采集成本高、模型泛化困難等挑戰,人類操作數據憑借其極低的采集成本和豐富的操作語義,將成為機器人策略學習不可忽視的新“寶藏”。