当前位置: 首页 > news >正文

Agent思维模式 | 评估

Agent思维模式:ReAct、Plan and Execute、Reflection

Agent 处理任务时的不同推理与执行策略

概念全称特点
ReActReasoningAndAct边规划、边执行
Plan and Execute-先规划、后执行
Reflection-反思机制

ReAct(Reasoning and Act)

ReAct 是Reasoning and Act的缩写,本质上是一种**边规划边执行**的混合模式

  • 交替进行:推理(Reasoning)与行动(Acting)交替执行
  • 即时调整:根据当前执行结果动态调整后续计划
  • 适合复杂任务:能够处理需要综合分析和多步骤执行的问题

处理流程

用户输入 → LLM分析问题 ↓ 推理 (Reasoning) → 行动 (Act) → 推理 → 行动 → ... ↓ 返回结果

Plan and Execute(先规划后执行)

与 ReAct 不同,Plan and Execute 采用**两阶段分离**的策略

  • 阶段一:先完整规划整个任务流程
  • 阶段二:再按计划顺序执行
  • 更适合:任务边界清晰、步骤可预见的场景
用户输入 → 完整规划 (Plan) ↓ 按顺序执行 (Execute) ↓ 返回结果

Reflection(反思)

Reflection 即反思,是 Agent 的一种自我修正机制

  • 对执行结果进行评估
  • 识别错误或不足
  • 调整策略后重新执行

维度ReActPlan and ExecuteReflection
执行顺序边想边做先想后做做完后想
灵活性需要其他模式配合
计算成本视情况而定
适用场景动态、复杂任务明确、线性任务错误修正、自我优化

Agent Evaluation

Evaluation-评估,是对Agent进行系统性评价的过程

由于Agent基于LLM生成答案,其评估标准并非放之四海而皆准,而是需要根据不同的应用场景和落地方向进行针对性设计。

为什么要评估

评估的目的不仅仅是区分"能用"和"不能用"(这通常是暂时性判断),更核心的目的是通过评估进行调优。具体来说:

  1. 发现问题所在
  2. 指导进一步优化方向
  3. 建立更细致、更深入的评估流程

这一思维方式适用于所有软件工程类和科研类项目。例如:一个可运行的游戏,虽然功能正常,但仍可优化代码降低CPU/内存占用、减少网络流量消耗。

评估的两种类型

端对端评估

从用户视角出发,评估Agent从输入到输出是否合格。这是基础层面的判断,如果连基本匹配都做不到,Agent本身就不可用。

非端对端评估(步骤级评估)

针对工作流中的具体步骤进行分析和调优。典型工作流包括:

阶段描述
分析LLM分析用户输入,理解用户目的/企图
Planner规划执行步骤(1、2、3、4、5…)
执行逐个执行每个步骤(如RAG查询、搜索网页、调用工具、写本地文件等)

注:如果是ReAct等推理模式,可能会有更多的循环,由LLM自主决策下一步。

如何做评估

最简单的端对端评估可以用表格形式呈现:

序号InputOutputGround Truth(标准答案)Score(评分)
1
2
3

评估的具体方式不必拘泥,重点是建立一套符合落地场景的具体标准,用以判断Agent的输出是否正确。

核心要点

  • 评估标准需要根据应用场景定制
  • 评估的真正目的是调优,而非简单的通过/失败判断
  • 端对端评估看整体,非端对端评估看细节
  • 两种评估结合使用,才能全面提升Agent质量
http://www.rkmt.cn/news/1469913.html

相关文章:

  • 2026年Agent元年!深度解析实在Agent未来路线图:从自动化工具到全能数字员工的跃迁
  • 实战构建多传感器环境监测站:基于快马平台生成iic数据采集与上传完整代码
  • 告别“人肉搬运”!实测实在Agent如何重塑企业AI原生自动化文化,实现生产力指数级跨越
  • 5分钟掌握防撤回秘籍:RevokeMsgPatcher让你的聊天记录永不消失
  • AI娱乐整合不是选工具,而是建神经中枢:揭秘全球首个通过ISO/IEC 23053认证的智能娱乐集成框架(限授企业已超17家)
  • 终极指南:3分钟学会使用国家中小学智慧教育平台电子课本下载工具
  • 为什么92%的AI协作工具仍在裸奔?——深度逆向37款主流工具的数据流向图谱
  • 国内橄榄油玻璃瓶厂家权威盘点:酱菜玻璃瓶/饮料玻璃瓶/香水瓶/储物玻璃罐/化妆品玻璃瓶/四家实力企业解析 - 优质品牌商家
  • 2026年耐磨管道中昊选购攻略 - mypinpai
  • postgresql因在从库备份时间长而失败
  • Cursor Free VIP:重新定义AI编程工具授权的智能解决方案
  • 万字长文!解读claude code的上下文压缩,结合源码深度分析
  • AI视频与数字人工具
  • 2026年新疆印刷包装工厂推荐榜:纸箱/礼盒/不干胶/画册与特种包装源头厂家实力解析 - 品牌企业推荐师(官方)
  • 智能编程伙伴:claude code在快马平台实现AI辅助代码审查与优化
  • 一家教培机构在AI搜索里“消失“之后:GEO优化的技术复盘
  • 揭秘Java世界中内联函数机制解析之四
  • 立足前沿趋势,读懂骁龙端侧AI进化逻辑
  • Sora 2慢动作生成实测指南:5步完成4K/120fps超分辨率升格,附可复用Prompt模板
  • 如何利用单北斗GNSS系统实现大坝的变形监测?
  • 第 43 篇 k8s之集群网络策略:NetworkPolicy 入门
  • 实战应用:集成visio式绘图功能到你的系统,快马一键生成部署
  • 上海在职MBA院校排名及学费:安泰领衔第一梯队,20万档仍有优质选择
  • MOSFET双向电平转换电路:原理、设计与实战调试指南
  • MySQL 8.0连接JDBC老报错?可能是驱动和URL没配对!保姆级排查教程(含Educoder环境适配)
  • 实战应用:基于快马生成的Node.js后端框架打造jvid核心API服务
  • Python 元对象模型深度解析:`type` 和 `object` 之间到底是什么关系?
  • AI Native应用用户体验:Agent交互界面设计的原则与反模式
  • GEO服务商怎么选?哪家效果和服务和口碑好?2026年6月TOP10靠谱GEO公司对比盘点 - 互联网科技品牌测评
  • 委托、多态、继承接口