当前位置: 首页 > news >正文

CVPR-2025 | 具身导航指令高效生成!MAPInstructor:基于场景图的导航指令生成Prompt调整策略 - 详解

  • 作者: Sheng Fan, Rui Liu, Wenguan Wang, Yi Yang
  • 单位:浙江大学
  • 论文标题: Scene Map-based Prompt Tuning for Navigation Instruction Generation
  • 论文链接:https://openaccess.thecvf.com/content/CVPR2025/papers/Fan_Scene_Map-based_Prompt_Tuning_for_Navigation_Instruction_Generation_CVPR_2025_paper.pdf
  • 代码链接:https://github.com/FanScy/MAPInstructor (Coming soon)

主要贡献

  • 提出了基于场景图提示调整的导航指令生成框架 MAPINSTRUCTOR,通过将地图上下文纳入大语言模型(LLM)中,以参数高效的方式更新 LLM,从而提高了导航指令生成的质量。
  • 设计了三个关键组件:场景表示编码地图提示调整地标不确定性评估,分别用于细粒度场景理解、整合全局地图信息以及减少地标预测中的幻觉现象,增强了指令生成的可靠性和连贯性。
  • 在 R2R、REVERIE、RxR 三个导航信息集上的广泛实验表明,该算法具有良好的泛化能力和有效性,与现有方法相比取得了显著的性能提升。

研究背景

方法

问题定义

场景表示编码

  • 视角-动作嵌入

    • 从全景视图中提取密集的语义表示,结合视角嵌入和动作嵌入。
    • 视角嵌入计算公式为:
      pt,k=Ep(F2dt,k)+Eδ(rt,k)+Et+Eo p_{t,k} = E_p(F_{2d}^{t,k}) + E_{\delta}(r_{t,k}) + E_t + E_opt,k=Ep(F2dt,k)+Eδ(rt,k)+Et+Eo
      其中,EpE_pEpEδE_{\delta}Eδ是线性嵌入层,EtE_tEtEoE_oEo是可学习的步长嵌入和全景观察标记类型嵌入。
    • 动作嵌入与视角嵌入类似,计算公式为:
      at=Ea(F2dt,a)+Eδ(rt,a)+Et+Ea a_t = E_a(F_{2d}^{t,a}) + E_{\delta}(r_{t,a}) + E_t + E_aat=Ea(F2dt,a)+Eδ(rt,a)+Et+Ea
      其中,EaE_aEa 是线性层,EaE_aEa是可学习的动作标记类型嵌入。
  • 视角-3D变换

    • 使用 CrossView Attention(CVA)将视角特征融合到统一的 3D 表示中,通过一组可学习的 3D 查询QQQ 从周围 KKK个视角特征中采样信息。
    • 3D 特征计算公式为:
      F3d=1K∑k=1KFcva(Q,Pk,F2dk) F_{3d} = \frac{1}{K} \sum_{k=1}^K F_{cva}(Q, P_k, F_{2d}^k)F3d=K1k=1KFcva(Q,Pk,F2dk)
      其中,FcvaF_{cva}Fcva使用可变形注意力(deformable attention)聚合信息。
  • 多尺度场景预测

    • 将视角-3D变换分解为多个尺度,使用不同层次的 3D 可变形注意力层提取多尺度 3D 特征。
    • 通过上采样函数F↑F_{\uparrow}F将低尺度特征上采样到高尺度,得到最终的 3D 特征。
  • 场景表示

    • 将视角-3D特征对连接起来,映射到统一的表示vtv_tvt 中:
      vt=Fs([F3dt⊕pt⊕at]) v_t = F_s([F_{3d}^t \oplus p_t \oplus a_t])vt=Fs([F3dtptat])
      其中,⊕\oplus表示广播和加法操作,FsF_sFs是由多个线性层组成的嵌入模块。

地图提示调整

地标不确定性评估

  • 地标预测和指令完毕

    • 将指令生成过程分解为地标预测和指令搞定两个阶段。
    • 在地标预测阶段,生成MMM个关键地标序列{s1,…,sM}\{s_1, \ldots, s_M\}{s1,,sM}
      sml=FLLM(v^;sml−1),m=1,…,M s_m^l = F_{LLM}(\hat{v}; s_m^{l-1}), \quad m = 1, \ldots, Msml=FLLM(v^;sml1),m=1,,M
  • 地标语义熵

    • 采用地标语义熵来评估地标预测的语义一致性,通过 Deberta-large 模型评估地标列表的语义相似性。
    • 计算地标语义熵公式为:
      LE(v)=−∑cp(c∣v^)log⁡p(c∣v^) LE(v) = -\sum_{c} p(c | \hat{v}) \log p(c | \hat{v})LE(v)=cp(cv^)logp(cv^)
      其中,ccc表示地标列表的语义聚类。
    • 如果 LE(v)≤τLE(v) \leq \tauLE(v)τ,则认为地标预测是语义确定的,否则需要重新采样地标。

实现细节

实验

实验设置

定量结果

  • R2R数据集上的性能:MAPINSTRUCTOR在val seen和unseen分割上的大多数评估指标上均优于其他方法,特别是在CIDEr指标上,分别比其他方法高出2.7%和4.0%,这表明了MAPINSTRUCTOR在指令生成质量和泛化能力上的优势。

  • REVERIE信息集上的性能:尽管REVERIE数据集更注重物体检测能力,MAPINSTRUCTOR仍然表现出色,在大多数评估指标上领先于其他方法。与BEVInstructor相比,MAPINSTRUCTOR在seen和unseen分割上的CIDEr指标分别高出1.8%和3.8%,这进一步证明了MAPINSTRUCTOR在场景理解方面的优势。

  • RxR信息集上的性能:MAPINSTRUCTOR在所有评估指标上均取得了最佳性能,尤其是在val unseen分割上,分别比其他方法高出4.5%、3.5%、0.4%、1.0%和2.2%。这表明MAPINSTRUCTOR在处理更灵活的指令形式时具有更高的有效性。

定性结果

诊断实验

  • 关键组件分析:上表展示了MAPINSTRUCTOR中三个核心组件(场景表示编码、地图提示调整和地标不确定性评估)的消融研究结果。实验表明,每个组件都对性能提升有显著贡献。结合所有组件后,MAPINSTRUCTOR在R2R数据集的val unseen分割上取得了最佳性能。

  • 场景构建方法比较:上表比较了不同的场景构建方法,包括BEV特征和MAPINSTRUCTOR中使用的3D表示。结果表明,3D表示在目标级检测方面更有优势,基于它能够给予更细粒度的场景理解。

  • 映射架构比较:上表比较了不同的图神经网络方法,如GraphSAGE、GCN和GAT。这些方法在指令生成性能上表现出相似的效果,表明在静态几何地图导航中,基于消息传递的方法能够实现可比的性能。

  • 地标不确定性评估轮次分析:上表分析了不同轮次的地标不确定性评估对性能的影响。结果表明,与单轮地标预测相比,多轮评估能够提升性能,但随着轮次增加,性能提升逐渐趋于平稳。

指令质量分析

结论与未来工作

  • 结论
    • MAPINSTRUCTOR 通过将拓扑地图连接作为提示特征整合到 LLM 中,有效地消除了 NIG 中的空间场景理解疑问,在复杂室内环境中取得了令人满意的性能。
    • 该框架在局部场景表示上采用了 3D 体素表示,以实现更细粒度的对象级检测,并引入了地标不确定性评估流程,以减少地标预测中的幻觉现象。
    • 在多个导航资料集上的实验结果验证了其优于现有方法的性能。
  • 未来工作
    • 将探索更多基于 LLM 的 NIG 框架,以增强空间智能。

http://www.rkmt.cn/news/14705.html

相关文章:

  • 乱七八糟的国庆做题记录
  • 完整教程:学术论文 Word 样式规范
  • 2025青海视频号运营优质公司推荐榜:专业服务与创新策略口碑
  • Future相关并发类使用
  • 2025 年舞台厂家 TOP 品牌企业权威推荐榜单,铝合金舞台、活动舞台、快装舞台、舞台架、折叠舞台、演出舞台、演唱会舞台桁架、舞台设计公司推荐
  • 2025 年知识库应用工具系统平台推荐排行榜,企业 / 行业 / 专家 / 问答 / 智能 / 培训 / 协同 / 办公 / 内部 / 外部 / 个人 / 客服 / 营销知识库应用软件推荐!
  • 2025 年移民服务公司性价比排行:美国、加拿大等国 TOP 机构,综合费用与服务质量的考量!
  • 2025 年水泥墩公司推荐最新榜单白皮书发布,圆形 / 方形 / 光伏水泥墩 / 围挡水泥墩 / 护栏水泥墩 / 交通水泥墩 / 防撞水泥墩源头厂家推荐
  • 2025 年钢球厂家 TOP 企业品牌推荐排行榜,轴承 / 碳 / 精密 / 汽配 / 440C 不锈钢球 / 420 不锈钢球 / 304 不锈钢球 / 316L 不锈钢球制造商推荐这十家公司!
  • 2025 年低代码平台厂商 TOP 权威推荐排行榜:深度洞察低代码平台行业实力与创新优势
  • MTKdroidTools左下角: 白色、红色、蓝色、黄色、绿色不同颜色作用
  • 苏州昆山ai培训/2025苏州AI应用技能实战培训排行榜:聚焦落地,赋能企业数字化转型
  • 信友队考试总结
  • iPhone iPad苹果设备 远程控制windows - 教程
  • 实用指南:解码器系列(1)BERT
  • GitLab沦为僵尸网络——共享Runner如何引发大规模DoS攻击
  • OI 笑传 #14
  • 2025年算法备案咨询服务公司TOP最新推荐排行榜单,互联网信息服务,深度合成服务,ai算法备案,互联网算法备案,国家生成式人工智能服务备案咨询公司
  • 深入解析:Python 类基础详解
  • 在线PS的强大功能一览:从基础修图到高级合成,还有这3款免费软件推荐!
  • 2025 年高压氧舱厂家 TOP 推荐榜单揭晓,家用,高原,小型,单人,民用,专业,医用,家庭,智能,进口高压氧舱公司推荐!
  • oppoR9m刷Linux系统:开启开发者模式
  • 2025 年石灰料仓厂家 TOP 企业品牌推荐榜单,深度剖析行业优秀企业优势!
  • 2线性规划模型建模实战
  • Excel工作表自动追加工具项目总结报告 - 教程
  • 移植Linux(No MMU)到ESP32-S3
  • 背单词 纯英文 2025年10月
  • 实用指南:Postman 学习笔记 III:CLI 自动化测试与 Jenkins CI/CD 实践
  • 完整教程:渗透技巧403绕过
  • 详细介绍:深入理解 SPI:从定义到 Spring Boot 实践