当前位置: 首页 > news >正文

HANDOFF:基于蒸馏互补教师的人形机器人任务空间整体控制

HANDOFF:基于蒸馏互补教师的人形机器人任务空间整体控制

论文来源: arXiv:2606.06493 |主题: 人形机器人控制、强化学习、知识蒸馏、多智能体系统、任务空间控制


📌 摘要与核心贡献

传统整体控制器(WBC)需要密集的全身运动学参考,而规划器难以从高层任务语义中合成这些参考。

本文提出HANDOFF,一种紧凑且显式的10-维任务空间接口,具有直观、通用、模块化且能表达全身控制的特点。该方法通过多教师 KL 蒸馏在上下文条件门控方案下进行蒸馏,并蒸馏为混合专家 (MoE) 学生模型。

核心贡献

  1. 10-维任务空间接口:提供一个紧凑的接口,直接映射到规划器家族(如步态栈、抓取规划器、 squat/reach 启发式),无需针对特定方法进行重定向或控制器微调。
  2. 多教师蒸馏与 MoE:结合运动跟踪、步态和跌倒恢复三个教师模型,通过软 MoE 路由避免双峰伪影。
  3. 硬件验证:在 Unitree G1 人形机器人上验证,实现了目前最大规模的稳健操纵工作空间 (97.7%) 并支持自然语言驱动的任务执行。

1. 核心机制与架构

1.1 10-维任务空间接口

规划器输出的紧凑命令向量c t c_tct如下:
c t = [ v x , v y , ω z , z , p L P , p R P ] c_t = [v_x, v_y, \omega_z, z, p_{LP}, p_{RP}]ct=[vx,vy,ωz,z,pLP,pRP]

  • v x , v y , ω z v_x, v_y, \omega_zvx,vy,ωz: 平面基座速度命令
  • z zz: 命令的根部高度
  • p L P , p R P p_{LP}, p_{RP}pLP,pRP: 双侧骨盆框架手腕目标

优势:该接口直观且支持全身表达,避免了传统方法中复杂的关节空间映射。

1.2 蒸馏管道与架构

教师模型专长训练数据/机制
运动跟踪 (Motion-Tracking)全身姿态与协调重定影的人类动作剪影 + 安全过滤 CBF 投影
步态 (Locomotion)速度跟踪与步态塑造平坦地形 + 课程融合运动数据
跌倒恢复 (Fall-Recovery)从跌倒恢复及动态稳定性配对跌倒/恢复序列 + 对抗性运动先验 (AMP)
  • 上下文条件门控:利用 regime 信号对监督进行路由:
    x t = ( ∥ c t v e l ∥ , r e c o v e r t ) \mathbf{x}_t = (\|c_t^{\mathrm{vel}}\|, \mathrm{recover}_t)xt=(ctvel,recovert)
  • 软 MoE 路由:通过连续凸混合避免双峰伪影,身体切片通过连续凸混合进行监督:
    α = σ ( ∥ c t v e l ∥ − 0.1 0.02 ) \alpha = \sigma\left(\frac{\|c_t^{\mathrm{vel}}\| - 0.1}{0.02}\right)α=σ(0.02ctvel0.1)

2. 损失函数与优化目标

整体损失函数由以下部分组成:
L = L P P O + λ B L K L B + λ A L K L A + λ A M P L K L A M P + β L B L L B + β R L R \mathcal{L} = \mathcal{L}_{\mathrm{PPO}} + \lambda_B \mathcal{L}_{\mathrm{KL}}^B + \lambda_A \mathcal{L}_{\mathrm{KL}}^A + \lambda_{\mathrm{AMP}} \mathcal{L}_{\mathrm{KL}^{\mathrm{AMP}}} + \beta_{\mathrm{LB}} \mathcal{L}_{\mathrm{LB}} + \beta_{\mathrm{R}} \mathcal{L}_{\mathrm{R}}L=LPPO+λBLKLB+λALKLA+λAMPLKLAMP+βLBLLB+βRLR

  • 稳定性奖励:包括支撑多边形内的 CoM、支撑多边形内的捕获点、踝/髋/步层级以及角/线性动量惩罚。
  • 上下文条件身体切片 KL
    L K L B = ( 1 − α ) D K L ( π θ B ∥ π w b c B ) + α D K L ( π θ B ∥ π l o c o B ) \mathcal{L}_{\mathrm{KL}}^B = (1-\alpha) D_{\mathrm{KL}}(\pi_\theta^B \| \pi_{\mathrm{wbc}}^B) + \alpha D_{\mathrm{KL}}(\pi_\theta^B \| \pi_{\mathrm{loco}}^B)LKLB=(1α)DKL(πθBπwbcB)+αDKL(πθBπlocoB)

3. 实验结果与评估

3.1 性能指标

  • 工作空间体积:h u l l _ v o l × f e a s i b l e _ f r a c hull\_vol \times feasible\_frachull_vol×feasible_frac(限制在目标x ≥ 0 x \ge 0x0的前半空间)
  • 稳健工作空间: 达到0.31m 3 m^3m3(目前评估的最大规模)
  • 速度跟踪误差:
    • ∣ Δ v x ∣ ≈ 0.06 − 0.07 |\Delta v_x| \approx 0.06 - 0.07∣Δvx0.060.07
    • ∣ Δ v y ∣ ≈ 0.14 − 0.18 |\Delta v_y| \approx 0.14 - 0.18∣Δvy0.140.18
    • ∣ Δ ω z ∣ ≈ 0.04 − 0.06 |\Delta \omega_z| \approx 0.04 - 0.06∣Δωz0.040.06
  • 可行性率 (Feasibility Rate): 高达97.7%

3.2 对比实验

在稳健操纵工作空间方面,HANDOFF 优于基线(FALCON, OpenHomie, AMO, SONIC),同时在速度跟踪方面保持竞争力。


4. 硬件部署与堆栈

  • 平台: Unitree G1 (29 DoF) 配备 Dex1-1 机械爪、ZED-M 立体 RGB-D 相机及 Jetson Thor 计算平台。
  • 供电: 通过单个 140W USB-PD 移动电源完全免 tether。
  • Agent 规划器堆栈:
    • 高级推理器将自然语言分解为原子任务(正则/LLM 回退)
    • VLM 将 2D 点/边界框投影到 RGB-D 点云 → 骨盆框架航点
    • 技能选择器生成动作指令

5. 局限性与未来方向

  • 手腕位置目标: 暴露的是 3-D 骨盆框架位置,而非完整的 6-D 夹爪姿态(需要运行时运动学纠正)。
  • 感知受限: 单固定姿态头部安装的 RGB-D 相机限制视场;未来工作将探索 gimbaled 头部/腕部相机。
  • 专家覆盖范围: 教师集合虽广泛但不完整;未来将增加地形、接触和重负载专家。
  • 可扩展性: 新专家可作为一个新的教师头加一个上下文通道插入,无需更改现有教师或接口。

http://www.rkmt.cn/news/1470321.html

相关文章:

  • 深圳锡渣回收服务实测评测:深圳,东莞,深圳不良产品回收、深圳尾货库存回收、深圳数据线回收、深圳整场打包处理回收选择指南 - 优质品牌商家
  • 【前端分享】模块化与组件化:90%的前端开发者都没搞懂的本质区别!
  • 什么维生素白发变黑发
  • 如何轻松抓取网页视频?猫抓浏览器扩展让视频下载变得简单
  • Figma JSON转换:解锁设计数据编程化处理的创新架构
  • 用涂鸦IoT平台零代码方案,5分钟DIY一个能遥控空调电视的万能红外遥控器
  • 分析CIT(思艾特)的Databricks服务价格贵吗 - myqiye
  • 为什么越来越多企业选即时通讯私有化?核心就两点:安全、可控
  • 2026年招投标信息平台TOP5评测:如何参与政府采购、招投标SAAS、招投标信息平台、招投标大数据、招投标软件选择指南 - 优质品牌商家
  • 2026年乐山市高新技术企业申报!申报时间、认定条件、办理流程、补贴奖励全明细
  • Moneta亿汇:用标准方式看外汇领域风控思路,更容易形成稳定判断
  • 2026年沈阳靠谱的柱状干冰批发厂家推荐 - mypinpai
  • 从SATA到PCIe 4.0:一张图看懂硬盘接口的‘公路’与‘交规’进化史
  • 无刷电机控制入门:从KV值到H_PWM-L_ON调制,手把手解析六步换相表
  • 本地部署ClaudeCode并配置AI大模型(CLI)
  • 名阳汽车改装选购技巧,张家港有好店吗? - mypinpai
  • 智能驾驶的“大脑”革命:一文读懂神经网络规划控制
  • Cursor Free VIP终极指南:三步破解试用限制,永久免费畅享AI编程助手
  • 2026年系统集成开发公司排名:多系统集成与定制开发能力观察
  • 2026年EB-5移民机构哪家好?行业选择参考 - 品牌排行榜
  • Fara-微软电脑助手模型本地实践
  • Mailwarm 2.0 邮件送达率提升效果实测
  • 重庆名酒回收服务实测评测:重庆礼盒酒回收/重庆茅台酒回收/重庆郎酒回收/重庆金条回收/重庆附近名酒回收商家/重庆高端白酒回收/选择指南 - 优质品牌商家
  • 2026年不锈钢管专业供应商TOP5技术实力盘点:304不锈钢装饰管、304薄壁不锈钢管、316L不锈钢凹槽管选择指南 - 优质品牌商家
  • 2026年铭博通风机靠谱吗? - mypinpai
  • 2026 EB-5移民中介哪家好?行业服务机构深度解析 - 品牌排行榜
  • 香薰工厂定制技术全解析:香薰推荐、香薰礼、香薰蜡烛、一站式香薰工厂、中国香薰工厂、义乌蜡烛、义乌香薰工厂、儿童香氛选择指南 - 优质品牌商家
  • 双向硅电压开关二极管,交流防护赛道核心器件!
  • EB Garamond 12:如何为你的设计项目注入古典优雅气质
  • LIS2DW12在智能手环中的低功耗配置实战:如何将功耗降到1µA以下?