当前位置: 首页 > news >正文

英伟达:AXPO缩小智能体思维行动差距

📖标题:Agent Explorative Policy Optimization for Multimodal Agentic Reasoning
🌐来源:arXiv, 2605.28774v1

🛎️文章简介
🔸研究问题:如何解决多模态智能体推理中,因工具使用的高方差和低频尝试导致的强化学习信号缺失问题?
🔸主要贡献:论文提出AXPO算法,通过固定思维前缀并重采样工具调用,有效缩小“思维-行动”差距,显著提升模型性能。

📝重点思路
🔸诊断“思维-行动”差距:研究发现标准RL方法(如GRPO)存在两个症状:工具使用仅占约30%的 rollout,且在使用工具的子组中,约40%的问题全错,导致工具调用token缺乏正向学习信号。
🔸提出工具调用重采样机制:针对全错的工具使用子组,AXPO固定已生成的思维前缀,仅对工具调用及其后续内容进行重采样。这避免了从头生成的计算浪费,将探索集中在高方差的行动环节。
🔸基于不确定性的前缀选择:并非所有失败前缀都值得重采样。AXPO根据策略对工具调用token的平均概率(作为不确定性代理)对候选前缀进行排名,优先重采样置信度最低的前缀,以提高恢复成功率。
🔸分离优势计算:为避免梯度冲突,AXPO将优势流分解。重采样的延续部分使用独立的每前缀GRPO优势;源前缀则通过二元恢复指标(只要有一个重采样成功即奖励)更新,确保思维前缀获得正确的正向反馈。

🔎分析总结
🔸性能全面超越基线:在九个多模态基准测试中,SFT+AXPO在Pass@1和Pass@4上均优于SFT+GRPO。8B模型经AXPO训练后,Pass@4表现甚至超越了未训练的32B基座模型,参数量仅为后者的四分之一。
🔸有效逆转训练动态:实验显示,AXPO训练过程中工具使用率显著上升(增加28个百分点),而全错率大幅下降(降低17个百分点),证明其成功恢复了工具调用的学习信号。
🔸组件消融验证有效性:移除前缀固定、不确定性排序或分离优势计算任一组件,性能均出现明显下降,证实了AXPO各设计选择的必要性。相比单纯增加rollout预算或奖励塑形,AXPO以更少的计算开销获得了更高的收益。
🔸提升工具交互质量:在需要工具介入的任务(如感知和搜索)中增益最大,且在匹配的工具使用子集上,AXPO的条件通过率更高,表明其不仅增加了工具使用频率,更提升了工具使用的准确性。

💡个人观点
论文识别智能体RL中的结构性不对称问题,传统方法往往平等对待思维和行动,但AXPO洞察到行动(工具调用)是高方差瓶颈。通过“固定思维、重采样行动”的策略,针对性的探索机制比盲目增加样本量更高效。

http://www.rkmt.cn/news/1534128.html

相关文章:

  • 大气层整合包系统:Switch定制固件的完整解决方案终极指南
  • 旧黄金别低价出,沈阳正规门店透明称重 - 逸程
  • 2026 年 6 月苏州防水补漏公司 TOP4 权威推荐|屋面 / 外墙 / 卫生间 / 别墅 / 地下室 / 彩钢瓦防水全场景解析 + 行业完整避坑指南 - 本地便民网
  • Spaceship Titanic机器学习实战:从数据清洗到模型部署全流程
  • 从“农林杯”看赛事策划:如何打造连接产学研的创新实战平台
  • 开源社区协作指南:如何构建高信任度的开发者贡献协议与安全发布防线
  • 深入解析USB主机控制器调度机制:从EHCI原理到嵌入式开发实践
  • 2026年杭州GEO优化公司怎么选?源头技术厂商深度拆解与代理避坑指南 - 品牌报告
  • .NET Web开发路线图:从WebForms到Minimal API的演进与实战
  • 105秒下架73个仓库!微软官方库再遭“投毒”:打开Claude、Cursor就可能丢密码?
  • 深入解析MSC8251 SCI与定时器寄存器:从原理到实战避坑指南
  • 容器化与持续集成:后端开发的现代化部署之路
  • UVa 500 Table
  • 飞思卡尔MSC8112 DSI主机接口配置与调试实战指南
  • CoffeeDeveloper:程序员的咖啡身份系统与效能实践
  • 2026安顺旧金铂金白银回收高信赖门店 TOP 线下实体商家电话与门店地址一览 - 诚金汇钻回收公司
  • 2026年海口市闲置黄金白银铂金彩金回收变现指南,口碑黄金回收优质门店精选推荐及联系方式 - 亦辰小黄鸭
  • DVC数据版本控制:让数据像代码一样可追溯、可复现、可协作
  • 5分钟快速上手tabula-py:Python中PDF表格提取的终极解决方案
  • 2010年Azure云开发实录:从VS2008到生产上线的完整实践
  • 巴音高口碑黄金铂金回收白银回收实体老店排行 5 家靠谱门店电话地址全收录
  • 博客多平台发布的数据逻辑_CSDN_AI数字营销是怎么衡量分发效果的
  • MoE模型真实激活率:拆解‘1.8万亿参数仅用2%’的工程真相
  • OpenClaw迁移到Hermes Agent:从CLI工具到智能体运行时的重构指南
  • 2026年包头市闲置黄金白银铂金彩金回收变现指南,口碑黄金回收优质门店精选推荐及联系方式 - 亦辰小黄鸭
  • Qwen3-Coder-Next:本地AI编程助手实战指南
  • Agent 的记忆之术:从金鱼脑到长期记忆,AI 智能体记忆机制的设计哲学
  • 2026年宝鸡市闲置黄金白银铂金彩金回收变现指南,口碑黄金回收优质门店精选推荐及联系方式 - 亦辰小黄鸭
  • Windows系统深度优化与故障排查:从效率提升到稳定掌控的完整指南
  • 策略蒸馏实战:让小模型学会Qwen的思考方式