当前位置: 首页 > news >正文

这次走对了,微软AgenticRAG实测5.9倍提升

今天为大家分享微软 Copilot Studio 团队的一篇论文——AgenticRAG。

标准RAG的根本问题

传统 RAG 架构的逻辑很直观:用户提问 → 搜索系统检索相关文档 → 把文档塞进 prompt → LLM 生成答案。

这个架构有一个被广泛忽视的根本假设:检索决定在 LLM 开始推理之前就已经做完了。LLM 接收的是一个固定的文档候选集,没有机会说"这个文档看起来有用,让我进去翻一翻",也没有机会说"这几条结果都不对,让我换个角度再搜一次"。

对于简单的知识查询(“什么是机器学习”),这个架构没问题。但在企业场景里,知识工作者的查询往往是这样的:

  • “SAP 系统在多租户模式下怎么配置 OAuth 2.0?”
  • “我们上季度 SaaS 收入中,有多少来自年付合同?”
  • “这个 Jenkins pipeline 的超时问题怎么排查?”

这些查询有两个特点:高度情境化(需要结合多个上下文理解意图),且答案分散在多份长文档中。标准搜索栈擅长关键词匹配和短语义查询,但处理不了这种需要多步推理的信息需求。

把检索权交给LLM

AgenticRAG 的核心思想极其朴素:不要让搜索系统替 LLM 做决定,给 LLM 工具,让它自己决定搜什么、看什么、翻到哪里。

具体来说,论文在现有企业搜索栈之上,加了一层轻量级的 Agent 工具框架,包含四个工具:

四个工具

search— 企业级文档发现。委托给底层企业搜索栈(如 Azure AI Search),每次调用最多并行发出 5 条查询改写。返回 snippet、标题、文件名、文件类型等元数据。每条结果分配唯一引用 ID,供后续工具使用。

find— 文档内搜索。给定一个引用 ID 和一组关键词模式,在目标文档内做精准搜索。支持词汇匹配(大小写不敏感子串匹配)和可选的语义匹配模式。每个模式最多返回 2 个匹配段落,总 token 限制约 11K。

open— 滚动窗口文档阅读。每次返回 1800 行的固定窗口。响应头包含当前位置和总长度(如 “Viewing lines [0–1799] of 3000 lines”)。模型可以通过指定行号跳转到文档任意位置,实现对超长文档的逐段导航。

summarize— 上下文压缩。当 token 使用量接近 128K 预算时自动触发。模型记录当前推理结论,标注要保留的引用 ID,系统清除未引用的工具返回内容,释放 token 空间。

推理循环

整个系统运行在一个有界迭代循环中(默认最多 15 轮)。每一轮,LLM 看到当前对话历史和工具 schema,要么选择调用工具并追加结果到对话,要么直接输出最终答案。

终止条件只有两个:

  1. 模型主动输出文本回答
  2. 达到最大迭代次数,强制生成回答

这个设计有一个关键优势:完全不需要模型微调、自定义嵌入模型、图构建或语料预处理。只要企业搜索栈已经把文档索引好,直接套上这个工具框架就能用。

方法细节

搜索结果如何被利用

search 返回的是 snippet 预览,不包含完整文档内容。这意味着模型看到搜索结果后,需要做出判断:哪些文档值得深入查看?用什么方式查看?

这里有两个精度工具可以选:

  • find适合"知道要找什么"的场景——比如"在这份财报里找到净利润这一行"
  • open适合"知道要看哪里"的场景——比如"打开这个文档的第 500 行附近,看看那个表格"

论文通过系统提示(system prompt)引导模型正确使用工具,比如"先搜索再回答"、“片段不够就用 find 或 open 深入”、“不要重复搜索,复用之前的结果”。

多查询并行搜索

search 工具的一个设计亮点:模型可以在一次 tool call 中同时发出最多 5 条查询改写。结果去重后合并返回。

消融实验表明,这个功能对性能几乎没有影响(44.84% vs 49.59%),但显著提升了效率——平均工具调用次数从 6.79 降到 4.79,减少了 29%。多条查询并行执行比多轮串行更节省迭代次数。

上下文管理机制

四个工具中,每次调用可以加载约 11K token 的文档内容。如果推理链很长,128K 的上下文窗口很容易被用完。

AgenticRAG 的解决方案是两阶段触发:

  1. 对话达到 90% 预算时发出内部警告
  2. 达到 100% 预算时强制触发 summarize

summarize 的核心机制不是简单截断,而是选择性保留:模型标注哪些引用 ID 需要保留,系统扫描工具消息,删除未被引用的内容。这意味着 LLM 可以持续深入调查,不用担心上下文爆炸。

Claude 和 GPT-5-mini 的策略差异

论文在消融中发现了一个有趣的现象:两个模型展现了不同的"探索-利用"策略。

Claude Sonnet 4.5 偏利用

  • 更少的搜索调用(2.51 vs 3.39)
  • 更多的文档打开(1.54 vs 1.22)
  • 语义 find 使用量是 GPT-5-mini 的 3 倍(0.42 vs 0.14)
  • 总体策略:搜少量候选 → 选最相关的深入阅读

GPT-5-mini 偏探索

  • 更多的搜索调用
  • 更少的文档深入
  • 总体策略:广撒网 → 多条改写查询覆盖

在 BRIGHT 长文档场景中(每个查询平均只有约 1.9 个相关文档,分散在 5650 个长文档中),利用策略更有效——Claude 在 8 个领域中 7 个领先 GPT-5-mini,总体 recall@1 高出 6.1 个百分点。

效果:5.9 倍提升从哪里来

BRIGHT 长文档检索

方法平均 recall@1
BM2511.4%
Qwen 嵌入27.8%
Voyage 嵌入24.5%
ReDI(推理增强)26.0%
AgenticRAG + GPT-5-mini43.5%
AgenticRAG + Claude Sonnet 4.549.6%

Claude Sonnet 4.5 比最优嵌入基线高出21.8 个百分点。在经济学、地球科学、机器人学领域,提升超过 30 个百分点。

关键消融:单次搜索 vs Agent 工具

配置recall@1
单次搜索(底层企业搜索栈)8.41%
+ 完整 Agent 工具49.59%(Claude)/ 43.49%(GPT-5-mini)
提升倍数5.9× / 5.2×

这是论文最重要的发现:底层搜索栈的质量差异在 Agent 能力面前几乎消失了。不需要换更好的嵌入模型、不需要训练重排序器——给 LLM 工具让它自己推理就行。

WixQA 企业 QA

在需要多文档推理的企业支持场景中,GPT-5-mini + AgenticRAG 达到 0.96 的事实性分数,比最佳基线(E5 嵌入,0.85)相对提升 13%。在模拟查询集上,提升更大——达到 0.94 vs 0.77,相对提升 22%。。

FinanceBench 财报问答

84 份长篇财报(平均 143 页、117K token),GPT-5-mini + AgenticRAG 达到92% 正确率。作为对照,直接给模型真实证据(oracle)的正确率是 94%——AgenticRAG仅差 2 个百分点,几乎摸到了理论上限。

Token 成本

BRIGHT 上平均每次查询消耗 52.3K token,相比单次搜索的 20.4K 是2.6 倍开销。但换来的是5.9 倍的召回提升——这个"性价比"相当不错。平均每次查询只需 4.48-4.79 次工具调用,远低于 15 轮上限。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.rkmt.cn/news/1399408.html

相关文章:

  • 以知识管理赋能 DevSecOps,Gitee Wiki 加速关键领域软件自主演进
  • AI代码审查CLI工具十年演进:从功能驱动到体验驱动的开发者体验设计
  • model_optimizer支持用cuteDSL实现自定义fmha算子了
  • 别再手动拖了!用脚本一键将Unity场景Hierarchy结构生成UI折叠菜单(支持无限级)
  • Serverless AI外呼实战:无需运维,5步构建智能营销自动化
  • acados MPC求解器实战:8个常见错误排查与解决指南
  • 别再傻傻分不清!嵌入式调试接口JTAG和SWD的保姆级接线指南(附J-Link连接图)
  • AI API成本优化实战:不修改提示词,如何降低40%调用成本
  • AI结对编程实战:从零构建现代化个人作品集网站
  • Simulcast多流自适应技术详解
  • ARM编译器IPv6许可支持与配置指南
  • SDSS-V天文巡天项目:自动化观测与数据管理技术解析
  • 2026年靠谱的无锡不锈钢低压水泵/水泵批量采购厂家推荐 - 行业平台推荐
  • ASTRI-Horn望远镜Variance数据技术解析与应用
  • 构建统一收入数据仪表盘:从API集成到Grafana可视化的全流程实践
  • ISP V4L2驱动开发:格式支持与映射实战
  • ARMv8-M架构VMLA/VMLAS指令差异解析与优化实践
  • SVM模型内部结构解析:正交核贡献分析(ORCA)原理与应用
  • 手把手教你用FormData搞定泛微Ecology9附件上传(附完整JS代码)
  • 企业集成架构实战:从API、ESB到事件驱动,打通数字资产的核心路径
  • 氯酚类化合物电氧化过程PSO-BP-ANN预测模型【附算法】
  • matlab代做合规科普:拒绝学术作弊,解锁专业技术辅助新方式
  • 2026年比较好的会展家具租赁/展会家具租赁优质厂家汇总推荐 - 行业平台推荐
  • 加热炉制造系统马尔可夫排队建模优化方法【附程序】
  • 数据科学家与数据分析师:从业务解释到预测建模的本质差异
  • 别再被坏底板坑了!手把手教你用TTL转USB模块给ESP32-CAM烧录程序(Arduino IDE 2.1.1实测)
  • 保姆级教程:用绿联422转USB线搞定STIM300 IMU数据读取(附CRC校验与Linux驱动避坑)
  • 毕业设计救星:手把手教你让VS2019成功调用ArcEngine 10.2(附注册表修改详解)
  • 给程序员的TA入门补课:用Unity Shader复习一遍图形学渲染管线(附OpenGL对比)
  • LLM API安全测试:从提示词注入到架构防御的实战指南