尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

AME—基于注意力的地图编码用于学习通用步态运动【文献解读】

AME—基于注意力的地图编码用于学习通用步态运动【文献解读】
📅 发布时间:2026/6/22 7:42:06

AME—基于注意力的地图编码用于学习通用步态运动【文献解读】

论文标题:Attention-Based Map Encoding for Learning Generalized Legged Locomotion

作者:Junzhe He¹, Chong Zhang¹, Fabian Jenelten¹, Ruben Grandia², Moritz Bächer², Marco Hutter¹

机构:¹Robotic Systems Lab, ETH Zurich, ²Disney Research Zurich

发表信息:arXiv:2506.09588v1, Last Revision: Dec 16, 2024

数据链接:https://zenodo.org/records/14499786


一、关键科学问题与技术挑战

1.1 核心问题

如何在多样化的稀疏地形上实现腿足机器人的精确、鲁棒且泛化的动态运动?本文从神经网络编码角度出发,解决端到端强化学习在稀疏地形上面临的“精确落脚点规划”与“泛化能力”之间的根本矛盾。

1.2 技术挑战

  1. 稀疏地形上的精度-泛化困境:纯学习方法(DRL)对不确定性鲁棒,但在踏脚石、窄梁等稀疏地形上难以发现有效落脚点,容易过拟合特定地形;纯模型方法(MPC)规划精确,但对建模假设敏感,真实世界表现易受状态估计误差、模型失配等影响。

  2. 端到端学习方法在稀疏地形上的失败:现有DRL控制器依赖大规模随机探索,而稀疏地形上的有效接触极少,策略难以从稀疏奖励中学习精确落脚行为;即使采用课程学习,也难以泛化到训练分布之外的地形。

  3. 混合方法的计算与复杂性瓶颈:如DTC等方法虽结合模型与学习优势,但需同时运行模型规划器与学习策略,训练时间长(14天)、部署计算负担重,且依赖模型规划器的性能——当感知退化时,模型规划可能产生不可行引导。

  4. 可解释性缺失:传统端到端神经网络是“黑箱”,无法解释其地形感知与决策依据,限制了研究者对失败模式的分析与调试。


二、研究方法与算法原理

2.1 整体技术路线

算法pipeline:

输入:机器人本体感知 + 2.5D高度图 ↓ ┌────────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ├─ CNN提取局部地形特征(kernel=5) │ │ ├─ 拼接3D坐标 → 点云局部特征 │ │ └─ 多头注意力(以本体感知为Query) │ │ → 受状态调制的地形编码 │ └────────────────────────────────────────┘ ↓ ┌────────────────────────────────────────┐ │ 两层训练策略 │ │ ├─ 第一阶段:基础地形 + 理想感知 │ │ │ → 初始化地图编码,获得基础技能 │ │ └─ 第二阶段:增加困难地形+感知噪声/漂移 │ │ → 增强鲁棒性与泛化能力 │ └────────────────────────────────────────┘ ↓ MLP策略网络 → 关节级动作 ↓ ANYmal-D(四足) / GR-1(人形)真实部署

2.2 注意力机制原理

2.2.1 多头注意力(Multi-Head Attention)公式

Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dk​​QKT​)V

  • Q (Query):来自本体感知信息的嵌入向量(机器人当前状态 + 速度指令)
  • K (Key):来自地形图各点的局部特征向量
  • V (Value):与K相同的地形点特征
  • 多头机制:并行运行h = 16 h=16h=16个注意力头,每个头处理d / h = 4 d/h=4d/h=4维,增强表示能力
2.2.2 网络架构细节
组件配置
高度图尺寸(ANYmal)26 × 16 × 3 26 \times 16 \times 326×16×3(L×W×3)
高度图尺寸(GR-1)17 × 11 × 3 17 \times 11 \times 317×11×3
CNN编码层2层,kernel=5,padding=0,stride=1;第1层16维,第2层d − 3 = 61 d-3=61d−3=61维
MHA维度d dd64
注意力头数h hh16
本体感知维度d obs d_{\text{obs}}dobs​78(ANYmal)/ 99(GR-1)
策略MLP2层隐藏层,每层256维
2.2.3 两阶段训练策略
阶段地形类型感知条件目标
第一阶段基础地形:楼梯、坑、粗糙地、托盘、间隙、网格石理想感知(无噪声)初始化地图编码,学习基本落脚能力
第二阶段增加:五边形石、单列石、窄托盘、连续间隙、窄梁、环形台阶等感知噪声 + 随机漂移 + 人工推力 + 质量/摩擦随机化增强鲁棒性与泛化能力

2.3 奖励函数设计

奖励函数分为三类(共14-16项):

类别代表性项权重示例
任务奖励线速度跟踪、角速度跟踪5.0, 3.0
规范奖励动作速率、关节加速度、力矩、位置/速度/力矩限制10 − 7 10^{-7}10−7~10 − 3 10^{-3}10−3
风格奖励足部滑移、跳跃惩罚、站立稳定性(第二阶段)0.5~5.0

第二阶段增加的特殊奖励:站立时关节运动惩罚(抑制抖动,改善sim-to-real)。

奖励函数列表:

2.4 训练环境与参数

  • 并行环境数:4096
  • PPO超参数:batch size 98304,mini-batch 32768,5轮更新
  • 训练时间:
    • ANYmal-D:第一阶段18000 epochs(6天),第二阶段3600 epochs;硬件:Nvidia Tesla A100-40GB
    • GR-1:第一阶段15000 epochs(3.5天),第二阶段3200 epochs;硬件:Nvidia RTX 4090
  • 域随机化:观测噪声、地图漂移、随机推力、质量变化(±20%)、摩擦系数变化(±50%)

2.5 实验设计

2.5.1 仿真实验
  • 基准对比:DTC(混合方法)、baseline RL([13] 基于课程学习的纯RL)
  • 评估指标:速度跟踪误差、成功率、失败率、卡住率
  • 地形集:基础地形 + 微调地形(部分为训练未见过)
2.5.2 真实实验
机器人测试地形
ANYmal-D踏脚石、不等高踏脚石、随机分布踏脚石(前/侧向)、箱子+间隙、19cm宽梁、碎石堆
GR-1单列不等高踏脚石、光束+间隙、平衡木(19cm宽、不固定)

实验:

2.5.3 消融实验
  • 两阶段训练必要性:对比从零训练所有地形 vs. 仅基础地形+噪声
  • 网络结构对比:Transformer编码器、CNN下采样、ViT编码器

三、主要创新点与学术贡献

3.1 创新点总结

创新点一:注意力地图编码实现隐式接触规划

核心思想:以本体感知为查询(Query),地形点特征为键值(Key-Value),通过多头注意力自动计算各地形点的重要性权重。

创新价值:

  • 可视化证明:网络学会自动将高注意力权重分配给下一个可行落脚点,无需任何监督学习
  • 实现了端到端的隐式接触规划,可与模型方法中的独立接触规划器媲美
创新点二:统一框架实现四足与人形跨形态泛化

核心思想:同一网络架构、相同超参数,直接适用于12-DoF四足机器人(ANYmal-D)和23-DoF人形机器人(GR-1)。

创新价值:

  • 首次在端到端DRL框架中实现人形机器人在混合稀疏地形上的动态运动
  • 证明了注意力地图编码的通用性,不受具体形态限制
创新点三:两阶段训练平衡精度与鲁棒性

核心思想:先训练精确的感知-动作映射(理想感知),再引入真实世界不确定性进行微调。

创新价值:

  • 解决了端到端RL在稀疏地形上“一上来就学习鲁棒性”导致的探索困难
  • 成功实现零样本(zero-shot)sim-to-real迁移
创新点四:可解释的神经地形感知

核心思想:通过可视化注意力权重,揭示神经网络“关注”的环境区域。

创新价值:

  • 首次为腿足机器人DRL控制器提供了可解释的感知注意力图
  • 帮助调试失败模式、理解策略决策依据

3.2 主要学术贡献

  1. 填补空白:首个在端到端DRL框架中实现腿足机器人在混合稀疏地形上的泛化运动,同时达到模型方法的精确性和学习方法的鲁棒性。

  2. 性能突破:在ANYmal-D上,综合成功率比DTC高26.5%,比baseline RL高77.3%;在网格石和窄梁等DTC和baseline RL失败率高的地形上,本文方法成功率超过80%。

  3. 涌现行为:控制器自主学习出复杂恢复反射:

    • 单腿跳跃换脚(GR-1在空间不足时空中切换接触脚)
    • 膝部支撑爬升(ANYmal-D)
    • 地形依赖的手臂摆动(GR-1)
    • 滑移恢复
  4. 社区资源:开源训练代码、评估数据集(Zenodo),推动可解释腿足运动学习的研究。

3.3 性能对比结果

评估指标本文方法DTC [1]Baseline RL [13]
综合成功率(所有地形)最高+26.5% (相对低)+77.3% (相对低)
网格石 (20cm) 成功率>80%<20%高(但过拟合)
窄梁 (15cm) 成功率>80%<20%低
速度跟踪误差最低高频步态下误差大不适用(目标到达)
训练时间6天14天数天

四、技术路线总结

┌─────────────────────────────────────────────────────────────────┐ │ 输入层 │ │ 本体感知 (速度/重力/关节状态/历史动作) + 2.5D高度图 │ └────────────────────────────┬────────────────────────────────────┘ │ ┌────────────────────────────┼────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ┌──────────────┐ ┌──────────────────────────────────────┐ │ │ │ 本体感知嵌入 │ │ 地形处理 │ │ │ │ (Linear → d) │ │ CNN (2层, kernel=5) → 局部特征(d-3) │ │ │ └──────┬───────┘ │ + 拼接3D坐标 → 点特征(L×W×d) │ │ │ │ └───────────────┬──────────────────────┘ │ │ │ │ │ │ │ ┌──────────────────────┼──────────────────────┐ │ │ └───→│ Multi-Head Attention (h=16, d=64) │←──┘ │ │ │ Q=本体嵌入, K=V=点特征 │ │ │ └──────────────────────┬──────────────────────┘ │ │ ↓ │ │ map encoding (1×d) │ └─────────────────────────────────────┼──────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 策略MLP (256-256) → 关节动作 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 两阶段训练流程 │ │ Stage 1: 基础地形 + 理想感知 → Stage 2: 困难地形 + 不确定性 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 真实部署 │ │ ANYmal-D (四足) :踏脚石、窄梁、碎石堆 │ │ GR-1 (人形) :平衡木、单列踏脚石、混合障碍赛道 │ └─────────────────────────────────────────────────────────────────┘

五、局限性与未来方向

  1. 训练效率仍待提高:虽然比DTC快(6天 vs 14天),但单次训练仍需数天,超参数调优成本高。未来可探索更高效的RL算法或课程设计。

  2. 感知表示限制:使用2.5D高度图,无法处理悬空障碍(如倒挂的树枝)、复杂3D结构(如台阶下方空间)。未来可引入3D体素表示或基于图像的端到端感知。

  3. 操纵能力缺失:当前工作聚焦于纯运动,未涉及腿部与手臂同时执行操纵任务(如开门、搬运)。注意力机制可扩展至loco-manipulation场景。

  4. 脚轮偏移与回驱性:文中虽未直接讨论(该问题属于TidyBot++文献),但类似地,复杂机械设计限制在真实部署中可能存在。本工作的ANYmal-D和GR-1均为现成硬件,无此问题。

  5. 未来方向:

    • 将注意力机制扩展到3D环境表示(如体素网格、NeRF)
    • 结合大语言模型实现高层任务规划与底层运动控制的协同
    • 利用注意力权重进行故障检测与自适应恢复
    • 探索更高效的训练方法,如预训练地图编码器再微调

相关新闻

  • 北京对抵押权执行异议律所榜单(抵押权与居住权冲突) - 品牌深度评测
  • 如何永久保存微信聊天记录?3步掌握WeChatMsg完整备份指南
  • 3步掌握Cyber Engine Tweaks:解锁《赛博朋克2077》完整游戏体验

最新新闻

  • 2026年东莞酒店电话交换机安装调试公司推荐,酒店电话交换机/电话光端机/酒店小总机,酒店电话交换机安装调试公司找哪家 - 品牌推荐师
  • AI工具算力不足提示的原理与应对策略
  • 终极Windows风扇控制指南:5分钟学会用FanControl实现静音与性能平衡
  • MusicPlayer2深度探索:打造你的个性化数字音乐画布
  • Linux rcu_expedited快速GP与IPI加速同步
  • JS逆向实战:解密某云音乐与直播平台登录加密算法

日新闻

  • 2026速览惠州叛逆青少年学校前十大排名名单出炉 - 武汉中职最新信息发布
  • 2026上饶白蚁消杀哪家好?15年本土2大权威白蚁防治公司推荐(金盾虫控/青蚁卫士) - 我叫一
  • 天龙八部单机版终极数据管理工具:5个技巧快速掌握游戏数据编辑

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号