当前位置: 首页 > news >正文

AI Agent系列-Google AI Agent学习-Agent Ops:从“写完就跑”到“持续运营自治系统”

Google Agent白皮书提出一个重要概念:Agent Ops,是 DevOps/MLOps 在 Agent 时代的自然演进。

1. 测试不再是“output == expected”

  • Agent 响应本身就是概率性的,同一个请求每次都可能略有不同
  • 语言质量和任务完成度,往往难以用简单断言描述
  • 传统单元测试模式不再适用,需要新的评估范式

2. 用 LM 做评测(LM-as-Judge)

  • 搭建“评测集 + 评分 Rubric”:
    • 覆盖核心业务场景与边缘案例
    • 使用强模型(或专门微调模型)来打分:正确性、完整性、事实性、风格等
  • 把评测结果作为版本上线的硬指标,而不是靠人工主观感觉

3. 像做 A/B 实验一样做迭代

  • 定义业务 KPI:
    goal completion rate、用户满意度、时延、成本、转化率等
  • 每次改动都跑一遍 Golden Dataset + 线上 A/B 对比:
    • 评估质量是否提升
    • 监控延迟、成本、错误率是否可接受

4. 用 Trace 调试“思考过程”

  • 借助 OpenTelemetry 等系统记录完整执行轨迹:
    • 每次模型调用的 Prompt 与输出
    • 调用了哪些工具、用什么参数、返回了什么
    • 决策分支为何走错
  • Trace 不是给用户看的,而是给工程团队做“行为剖析”和根因定位。
  • (注:我们现在 Trace 使用比较多的是 LangFuse,可视化更好一点)

5. 人类反馈是最有价值的“训练数据”

  • 每一次“差评”“工单”“人工纠正”,都是新的边界条件
  • 系统化做法:
    • 收集并聚合这些反馈
    • 把高价值反馈转成新测试样本,加入评测集
    • 既修复当前问题,又减少同类问题再出现的概率

从这个视角看,做 Agent 更像运营一个复杂的在线系统,而不仅仅是“部署了一个模型服务”。

http://www.rkmt.cn/news/92774.html

相关文章:

  • 富士康巨额投资印度制造业,聚焦AI与技术研发
  • 2025闭式冷却塔风机优质供应商TOP5权威推荐:深度测评甄 - mypinpai
  • 2025沈阳有名的公考培训企业TOP5权威推荐:甄选有实力的 - 工业推荐榜
  • 2025年沈阳高性价比的公考笔试培训企业推荐:口碑不错的公考 - 工业品牌热点
  • Stack-Chan机器人完整指南:从入门到精通
  • ProxyPool多环境实战:从开发到生产的高效部署指南
  • 基于SpringBoot + Vue的在线艺术作品交易平台
  • 计算机视觉新突破:OpenCV 5.0新特性解析与软件测试实战
  • 电子拉力试验机口碑推荐!天氏欧森强势上榜 - 品牌推荐大师
  • 分布式系统日志碎片整合:ZincObserve如何实现跨源数据关联分析
  • C#动态数组ArrayList和List技巧全解析
  • 没想到吧?用Excel+Power Query也能做ETL数据清洗!
  • Day29平面转换--倾斜
  • 如何用dig +dnssec进行DNS安全扩展验证:完整指南
  • 嵌入式文件系统LittleFS
  • 《AI编码助手全面评测2025》:G**pt、文心、Copilot,谁最能提效?
  • vLLM源码编译完全指南:构建高性能LLM推理引擎
  • 23、树莓派多媒体功能拓展与应用指南
  • GIM:从互联网视频学习通用图像匹配的完整指南
  • 上海专业防水补漏服务:国家一级资质,免费勘察,根治渗漏 - shruisheng
  • Rust二进制大小极致优化:从默认配置到8KB微内核实战指南
  • 量子计算快速上手:5步掌握Qiskit核心操作技巧
  • CudaText 编辑器完整指南:从新手到高手的快速上手手册
  • 声音转换终极指南:从零开始打造你的专属AI歌手
  • Chrome浏览器高效文献管理:Zotero Connector插件完整安装指南
  • 梅州/揭阳/汕头/潮州购物中心商业美陈氛围包装设计公司
  • 2025年陕西用地预审/国土空间规划调整/探矿权采矿权/土地报批/基本农田调整技术服务企业综合推荐榜单 - 2025年11月品牌推荐榜
  • 2025年沈阳公考培训五大靠谱机构推荐,国正公考社会认可度高 - 工业品牌热点
  • MinerU开源下载和安装教程
  • 华炎魔方低代码平台实战指南:5分钟构建企业级应用