当前位置: 首页 > news >正文

AME—基于注意力的地图编码用于学习通用步态运动【文献解读】

AME—基于注意力的地图编码用于学习通用步态运动【文献解读】

论文标题:Attention-Based Map Encoding for Learning Generalized Legged Locomotion

作者:Junzhe He¹, Chong Zhang¹, Fabian Jenelten¹, Ruben Grandia², Moritz Bächer², Marco Hutter¹

机构:¹Robotic Systems Lab, ETH Zurich, ²Disney Research Zurich

发表信息:arXiv:2506.09588v1, Last Revision: Dec 16, 2024

数据链接:https://zenodo.org/records/14499786


一、关键科学问题与技术挑战

1.1 核心问题

如何在多样化的稀疏地形上实现腿足机器人的精确、鲁棒且泛化的动态运动?本文从神经网络编码角度出发,解决端到端强化学习在稀疏地形上面临的“精确落脚点规划”与“泛化能力”之间的根本矛盾。

1.2 技术挑战

  1. 稀疏地形上的精度-泛化困境:纯学习方法(DRL)对不确定性鲁棒,但在踏脚石、窄梁等稀疏地形上难以发现有效落脚点,容易过拟合特定地形;纯模型方法(MPC)规划精确,但对建模假设敏感,真实世界表现易受状态估计误差、模型失配等影响。

  2. 端到端学习方法在稀疏地形上的失败:现有DRL控制器依赖大规模随机探索,而稀疏地形上的有效接触极少,策略难以从稀疏奖励中学习精确落脚行为;即使采用课程学习,也难以泛化到训练分布之外的地形。

  3. 混合方法的计算与复杂性瓶颈:如DTC等方法虽结合模型与学习优势,但需同时运行模型规划器与学习策略,训练时间长(14天)、部署计算负担重,且依赖模型规划器的性能——当感知退化时,模型规划可能产生不可行引导。

  4. 可解释性缺失:传统端到端神经网络是“黑箱”,无法解释其地形感知与决策依据,限制了研究者对失败模式的分析与调试。


二、研究方法与算法原理

2.1 整体技术路线

算法pipeline:

输入:机器人本体感知 + 2.5D高度图 ↓ ┌────────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ├─ CNN提取局部地形特征(kernel=5) │ │ ├─ 拼接3D坐标 → 点云局部特征 │ │ └─ 多头注意力(以本体感知为Query) │ │ → 受状态调制的地形编码 │ └────────────────────────────────────────┘ ↓ ┌────────────────────────────────────────┐ │ 两层训练策略 │ │ ├─ 第一阶段:基础地形 + 理想感知 │ │ │ → 初始化地图编码,获得基础技能 │ │ └─ 第二阶段:增加困难地形+感知噪声/漂移 │ │ → 增强鲁棒性与泛化能力 │ └────────────────────────────────────────┘ ↓ MLP策略网络 → 关节级动作 ↓ ANYmal-D(四足) / GR-1(人形)真实部署

2.2 注意力机制原理

2.2.1 多头注意力(Multi-Head Attention)公式

Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dkQKT)V

  • Q (Query):来自本体感知信息的嵌入向量(机器人当前状态 + 速度指令)
  • K (Key):来自地形图各点的局部特征向量
  • V (Value):与K相同的地形点特征
  • 多头机制:并行运行h = 16 h=16h=16个注意力头,每个头处理d / h = 4 d/h=4d/h=4维,增强表示能力
2.2.2 网络架构细节
组件配置
高度图尺寸(ANYmal)26 × 16 × 3 26 \times 16 \times 326×16×3(L×W×3)
高度图尺寸(GR-1)17 × 11 × 3 17 \times 11 \times 317×11×3
CNN编码层2层,kernel=5,padding=0,stride=1;第1层16维,第2层d − 3 = 61 d-3=61d3=61
MHA维度d dd64
注意力头数h hh16
本体感知维度d obs d_{\text{obs}}dobs78(ANYmal)/ 99(GR-1)
策略MLP2层隐藏层,每层256维
2.2.3 两阶段训练策略
阶段地形类型感知条件目标
第一阶段基础地形:楼梯、坑、粗糙地、托盘、间隙、网格石理想感知(无噪声)初始化地图编码,学习基本落脚能力
第二阶段增加:五边形石、单列石、窄托盘、连续间隙、窄梁、环形台阶等感知噪声 + 随机漂移 + 人工推力 + 质量/摩擦随机化增强鲁棒性与泛化能力

2.3 奖励函数设计

奖励函数分为三类(共14-16项):

类别代表性项权重示例
任务奖励线速度跟踪、角速度跟踪5.0, 3.0
规范奖励动作速率、关节加速度、力矩、位置/速度/力矩限制10 − 7 10^{-7}107~10 − 3 10^{-3}103
风格奖励足部滑移、跳跃惩罚、站立稳定性(第二阶段)0.5~5.0

第二阶段增加的特殊奖励:站立时关节运动惩罚(抑制抖动,改善sim-to-real)。

奖励函数列表:

2.4 训练环境与参数

  • 并行环境数:4096
  • PPO超参数:batch size 98304,mini-batch 32768,5轮更新
  • 训练时间
    • ANYmal-D:第一阶段18000 epochs(6天),第二阶段3600 epochs;硬件:Nvidia Tesla A100-40GB
    • GR-1:第一阶段15000 epochs(3.5天),第二阶段3200 epochs;硬件:Nvidia RTX 4090
  • 域随机化:观测噪声、地图漂移、随机推力、质量变化(±20%)、摩擦系数变化(±50%)

2.5 实验设计

2.5.1 仿真实验
  • 基准对比:DTC(混合方法)、baseline RL([13] 基于课程学习的纯RL)
  • 评估指标:速度跟踪误差、成功率、失败率、卡住率
  • 地形集:基础地形 + 微调地形(部分为训练未见过)
2.5.2 真实实验
机器人测试地形
ANYmal-D踏脚石、不等高踏脚石、随机分布踏脚石(前/侧向)、箱子+间隙、19cm宽梁、碎石堆
GR-1单列不等高踏脚石、光束+间隙、平衡木(19cm宽、不固定)

实验:

2.5.3 消融实验
  • 两阶段训练必要性:对比从零训练所有地形 vs. 仅基础地形+噪声
  • 网络结构对比:Transformer编码器、CNN下采样、ViT编码器

三、主要创新点与学术贡献

3.1 创新点总结

创新点一:注意力地图编码实现隐式接触规划

核心思想:以本体感知为查询(Query),地形点特征为键值(Key-Value),通过多头注意力自动计算各地形点的重要性权重。

创新价值

  • 可视化证明:网络学会自动将高注意力权重分配给下一个可行落脚点,无需任何监督学习
  • 实现了端到端的隐式接触规划,可与模型方法中的独立接触规划器媲美
创新点二:统一框架实现四足与人形跨形态泛化

核心思想:同一网络架构、相同超参数,直接适用于12-DoF四足机器人(ANYmal-D)和23-DoF人形机器人(GR-1)。

创新价值

  • 首次在端到端DRL框架中实现人形机器人在混合稀疏地形上的动态运动
  • 证明了注意力地图编码的通用性,不受具体形态限制
创新点三:两阶段训练平衡精度与鲁棒性

核心思想:先训练精确的感知-动作映射(理想感知),再引入真实世界不确定性进行微调。

创新价值

  • 解决了端到端RL在稀疏地形上“一上来就学习鲁棒性”导致的探索困难
  • 成功实现零样本(zero-shot)sim-to-real迁移
创新点四:可解释的神经地形感知

核心思想:通过可视化注意力权重,揭示神经网络“关注”的环境区域。

创新价值

  • 首次为腿足机器人DRL控制器提供了可解释的感知注意力图
  • 帮助调试失败模式、理解策略决策依据

3.2 主要学术贡献

  1. 填补空白:首个在端到端DRL框架中实现腿足机器人在混合稀疏地形上的泛化运动,同时达到模型方法的精确性和学习方法的鲁棒性。

  2. 性能突破:在ANYmal-D上,综合成功率比DTC高26.5%,比baseline RL高77.3%;在网格石和窄梁等DTC和baseline RL失败率高的地形上,本文方法成功率超过80%。

  3. 涌现行为:控制器自主学习出复杂恢复反射:

    • 单腿跳跃换脚(GR-1在空间不足时空中切换接触脚)
    • 膝部支撑爬升(ANYmal-D)
    • 地形依赖的手臂摆动(GR-1)
    • 滑移恢复
  4. 社区资源:开源训练代码、评估数据集(Zenodo),推动可解释腿足运动学习的研究。

3.3 性能对比结果

评估指标本文方法DTC [1]Baseline RL [13]
综合成功率(所有地形)最高+26.5% (相对低)+77.3% (相对低)
网格石 (20cm) 成功率>80%<20%高(但过拟合)
窄梁 (15cm) 成功率>80%<20%
速度跟踪误差最低高频步态下误差大不适用(目标到达)
训练时间6天14天数天

四、技术路线总结

┌─────────────────────────────────────────────────────────────────┐ │ 输入层 │ │ 本体感知 (速度/重力/关节状态/历史动作) + 2.5D高度图 │ └────────────────────────────┬────────────────────────────────────┘ │ ┌────────────────────────────┼────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ┌──────────────┐ ┌──────────────────────────────────────┐ │ │ │ 本体感知嵌入 │ │ 地形处理 │ │ │ │ (Linear → d) │ │ CNN (2层, kernel=5) → 局部特征(d-3) │ │ │ └──────┬───────┘ │ + 拼接3D坐标 → 点特征(L×W×d) │ │ │ │ └───────────────┬──────────────────────┘ │ │ │ │ │ │ │ ┌──────────────────────┼──────────────────────┐ │ │ └───→│ Multi-Head Attention (h=16, d=64) │←──┘ │ │ │ Q=本体嵌入, K=V=点特征 │ │ │ └──────────────────────┬──────────────────────┘ │ │ ↓ │ │ map encoding (1×d) │ └─────────────────────────────────────┼──────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 策略MLP (256-256) → 关节动作 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 两阶段训练流程 │ │ Stage 1: 基础地形 + 理想感知 → Stage 2: 困难地形 + 不确定性 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 真实部署 │ │ ANYmal-D (四足) :踏脚石、窄梁、碎石堆 │ │ GR-1 (人形) :平衡木、单列踏脚石、混合障碍赛道 │ └─────────────────────────────────────────────────────────────────┘

五、局限性与未来方向

  1. 训练效率仍待提高:虽然比DTC快(6天 vs 14天),但单次训练仍需数天,超参数调优成本高。未来可探索更高效的RL算法或课程设计。

  2. 感知表示限制:使用2.5D高度图,无法处理悬空障碍(如倒挂的树枝)、复杂3D结构(如台阶下方空间)。未来可引入3D体素表示或基于图像的端到端感知。

  3. 操纵能力缺失:当前工作聚焦于纯运动,未涉及腿部与手臂同时执行操纵任务(如开门、搬运)。注意力机制可扩展至loco-manipulation场景。

  4. 脚轮偏移与回驱性:文中虽未直接讨论(该问题属于TidyBot++文献),但类似地,复杂机械设计限制在真实部署中可能存在。本工作的ANYmal-D和GR-1均为现成硬件,无此问题。

  5. 未来方向

    • 将注意力机制扩展到3D环境表示(如体素网格、NeRF)
    • 结合大语言模型实现高层任务规划与底层运动控制的协同
    • 利用注意力权重进行故障检测与自适应恢复
    • 探索更高效的训练方法,如预训练地图编码器再微调
http://www.rkmt.cn/news/1544178.html

相关文章:

  • 北京对抵押权执行异议律所榜单(抵押权与居住权冲突) - 品牌深度评测
  • 如何永久保存微信聊天记录?3步掌握WeChatMsg完整备份指南
  • 3步掌握Cyber Engine Tweaks:解锁《赛博朋克2077》完整游戏体验
  • 计算机毕业设计之jsp高校防疫系统
  • paperxie 课程论文智能写作:终结期末周结课论文熬夜内耗,轻松交出规范高分课业文稿
  • 微软加速自研MAI模型,CEO一篇长文道出了答案
  • 吉他简谱怎么学?一个老玩家的真实经验 - 雨林谷
  • 2026年专业布草供应商深度解析:精选优质品牌与厂家 - 品牌发掘
  • 准周期信号分析:三间隙定理与拓扑数据处理
  • 全网实测|2026主流细纹修护眼霜价位、肤质适配大盘点 - 资讯纵览
  • 微服务通信拓扑与路由状态隔离:基于 Gunicorn + Flask 的多进程线程安全架构与 Pytest 边界防护
  • 6月17日郴州金价更新|靠谱黄金回收门店排名避坑 - 小仙贝贝
  • 基于w2v-BERT 2.0的多语言说话人验证系统优化
  • 北京平谷离婚律所哪家强:3步锁定平谷高水平离婚律师 - 品牌深度评测
  • 2026福州大平层装修公司哪家靠谱?排行榜与避坑攻略 - 资讯纵览
  • 企业AI工作流应用解析
  • 2026年合肥腾飞学校王牌专业推荐:哪些专业更易升本 - 辛云教育资讯
  • 5分钟终极指南:用Obsidian-i18n插件让英文界面秒变中文
  • 搞科研,就别再用普通AI生图了
  • 深圳福田意大利语培训哪个靠谱 - 资讯速览
  • 天赐范式第76天:天赐范式系列文章技术勘误与致歉声明
  • iPaaS科普选型指南 | 多租户 vs. 单租户:SaaS iPaaS的隔离与合规选择
  • 深度解析OptiScaler:跨GPU超分辨率与帧生成技术实战指南
  • 百度网盘解析工具:三步获取真实下载地址的完整指南
  • 任天堂Switch大气层系统:解锁游戏主机的无限潜能
  • GPT-4o免费使用实操指南:设备兼容性与语音图像启用全解析
  • Mermaid Live Editor:让代码秒变精美图表的魔法编辑器
  • 北京昌平离婚律所哪家好:昌平区5家优质离婚律所评测 - 品牌深度评测
  • 黑洞吸积系统中相对论性喷流的MHD形成机制
  • 2026美国进口床垫有哪些?硬核技术拆解+品牌盘点 - 资讯速览