尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

1781次生产级Agent运行揭示:框架比模型重要7倍——Agent工程选型深度报告

1781次生产级Agent运行揭示:框架比模型重要7倍——Agent工程选型深度报告
📅 发布时间:2026/6/29 5:56:35

引言:Agent工程的"哥白尼转折点"

2026年6月26日,AI评估平台Braintrust发布了一份足以改写Agent工程教科书的研究报告。他们从Hugging Face抓取了1781条AI Agent在生产环境中的真实运行轨迹,覆盖6款主流模型(Claude Opus 4.5、GPT-4.1、GPT-5.2、DeepSeek V3.2、Kimi K2.5、Gemini 3 Pro)、5种完全不同的Agent框架(Harness)、6类任务基准(SWE-bench编程、AppWorld多应用编排、BrowseComp+网页研究、TAU2零售/电信/航空客服),然后用GPT-4o逐条打分。

核心结论极具冲击力:保持模型不变,仅仅更换包裹模型的"智能体框架",成功率可以从12%直接跳到92%——波动超过80个百分点。回归分析量化后,智能体框架能解释约5.3%的成功率差异,而模型仅能解释0.7%。框架的影响力是模型的7倍以上。

更关键的是,框架切换的成本几乎为零——同一任务中不同框架的Token消耗基本相当。这意味着整个Agent选型逻辑需要被重写:别再纠结选哪个模型了,先把框架搭对。

本文将深度拆解这份报告的五大核心发现、源代码级分析框架差异、成本效率模型的Go/Python实现,以及生产级监控策略的工程落地。


一、五大框架:架构哲学的终极对决

Braintrust测试了五种架构设计哲学截然不同的Agent框架。它们的核心差异不在于"调用模型"这一层,而在于模型与外部世界之间的编排层如何设计。

1.1 框架全景

""" Agent框架分类系统——基于Braintrust定义的5种Harness类型 """fromenumimportEnumfromdataclassesimportdataclass,fieldfromtypingimportList,Callable,OptionalimporttimeimportjsonclassHarnessType(Enum):"""五种Agent框架类型"""CLAUDE_CODE="claude_code"# 类XML,模型自主管理上下文SMOLAGENTS_CODE="smolagents_code"# 模型写Python代码串联操作TOOL_CALLING="tool_calling"# 标准JSON函数调用,一次一个工具TOOL_CALLING_SHORTLIST="tool_calling_with_shortlisting"# 每轮预筛选工具OPENAI_SOLO="openai_solo"# 最薄的OpenAI封装@dataclassclassHarnessConfig:"""框架配置描述"""name:HarnessType context_management:str# "autonomous" | "template" | "minimal"tool_invocation:str# "code_gen" | "json_call" | "filtered_call"failure_behavior:str# "thrash" | "smooth" | "mixed"token_overhead:float# 相对于基线的Token开销倍率HARNESS_REGISTRY={HarnessType.CLAUDE_CODE:HarnessConfig(name=HarnessType.CLAUDE_CODE,context_management="autonomous",tool_invocation="code_gen",failure_behavior="thrash",token_overhead=1.2,),HarnessType.SMOLAGENTS_CODE:HarnessConfig(name=HarnessType.SMOLAGENTS_CODE,context_management="autonomous",tool_invocation="code_gen",failure_behavior="thrash",token_overhead=1.0,),HarnessType.TOOL_CALLING:HarnessConfig(name=HarnessType.TOOL_CALLING,context_management="template",tool_invocation="json_call",failure_behavior="mixed",token_overhead=0.8,),HarnessType.TOOL_CALLING_SHORTLIST:HarnessConfig(name=HarnessType.TOOL_CALLING_SHORTLIST,context_management="template",tool_invocation="filtered_call",failure_behavior="mixed",token_overhead=1.1,),HarnessType.OPENAI_SOLO:HarnessConfig(name=HarnessType.OPENAI_SOLO,context_management="minimal",tool_invocation="json_call",failure_behavior="smooth",token_overhead=0.5,),}

1.2 核心差异:上下文管理范式的裂谷

让模型自主管理上下文(claude_code、smolagents_code)vs 用固定模板约束每一步(tool_calling),是导致成功率出现数量级差异的根本原因。

claude_code(Anthropic原生Agent循环):
模型以类XML格式与框架通信,自主决定何时调用工具、如何组织多步推理。框架只提供执行环境,不做步骤编排。

smolagents_code(Hugging Face方案):
模型直接编写Python代码来串联多工具调用。每步生成的代码立即执行,执行结果反馈给模型继续决策。

tool_calling(标准JSON函数调用):
最"保守"的方案。框架定义好工具Schema,模型在每一步只能调用一个工具,等待返回后才能进行下一步。

1.3 同模型、同任务、换框架——成功率的悬崖

以下是Braintrust报告中最为震撼的数据:

模型任务最佳框架成功率最差框架成功率差距
Claude Opus 4.5SWE-bench编程claude_code100%tool_calling14%86pp
Kimi K2.5AppWorld多应用编排smolagents_code92%tool_calling12%80pp
GPT-4.1TAU2电信客服smolagents_code51%claude_code18%33pp

每个数字背后都是同一个模型。框架设计中的微小差异——是让模型自主管理上下文,还是用固定模板约束——把成功率的差距拉到了近一个数量级。

// 成功率对比计算引擎packagemainimport("fmt""sort")typeBenchmarkResultstruct{ModelstringHarnessstringTaskstringSuccessRatefloat64}funcmain(){results:=[]BenchmarkResult{{"Claude Opus 4.5","claude_code","SWE-bench",1.00},{"Claude Opus 4.5","tool_calling","SWE-bench",0.14},{"Kimi K2.5","smolagents_code","AppWorld",0.92},{"Kimi K2.5","tool_calling","AppWorld",0.12},{"GPT-4.1","smolagents_code","TAU2_Telco",0.51},{"GPT-4.1","claude_code","TAU2_Telco",0.18},}// 按框架分组计算平均成功率harnessStats:=make(map[string][]float64)for_,r:=rangeresults{harnessStats[r.Harness]=append(harnessStats[r.Harness],r.SuccessRate)}typeHarnessAvgstruct{NamestringAvgfloat64}varavgs[]HarnessAvgforh,rates:=rangeharnessStats{sum:=0.0for_,r:=rangerates{sum+=r}avgs=append(avgs,HarnessAvg{h,sum/float64(len(rates))})}sort.Slice(avgs,func(i,jint)bool{returnavgs[i].Avg>avgs[j].Avg})fmt.Println("=== 框架平均成功率排名 ===")for_,a:=rangeavgs{fmt.Printf("%-30s %.1f%%\n",a.Name,a.Avg*100)}fmt.Printf("\n最佳vs最差差距: %.1fpp\n",(avgs[0].Avg-avgs[len(avgs)

相关新闻

  • AI Agent Runtime 的操作系统时刻:Session 事件日志与三层抽象
  • Mythos隐性意图建模:大模型需求前推理能力解析
  • SSD1963QL9驱动TFT_LCD:从8080并口到显存操作的实战解析

最新新闻

  • RoboBPP:机器人装箱物理仿真基准测试系统解析
  • 基于RPA与pytest的Ironic裸金属自动化测试实践
  • Hint Learning与知识蒸馏本质区别:教模型‘看哪里’vs‘怎么想’
  • 软考职称评定政策突变预警(2024.06修订版):学历年限、论文要求、项目佐证标准全部收紧,仅剩最后1次缓冲机会
  • Codex EACCES 文件权限错误解决方案
  • LinkedIn QARK:Android应用安全静态分析与CI/CD集成实战

日新闻

  • ENVI5.3.1实战:基于Landsat 8影像的区域无缝镶嵌与精准裁剪
  • 3步完成HS2-HF Patch安装:新手快速打造完美HoneySelect2体验
  • 微信好友检测终极指南:3分钟发现谁已悄悄删除你

周新闻

  • Windows字体自定义终极方案:No!! MeiryoUI完全指南
  • Deepin Boot Maker:告别命令行,3分钟制作Linux启动盘的智能解决方案
  • Plain Craft Launcher 2:重新定义你的Minecraft游戏体验

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号