AutoResearch 基模 Agent Loop。当基模固定时方法循环设计成为了竞争的本质。这篇文章讲一下 AutoResearch 发展到现在的几种常见循环设计。以及一个通用的分析框架当有新的AutoResearch方法出现时你可以使用这个分析框架直接得出这个新方法的优劣势。01四种循环1.1 线性循环 Keep-or-Discard代表系统Karpathy autoresearch2025线性循环是最简单也最直觉的循环设计每次尝试一个想法如果结果更好就保留否则回退。Karpathy 的 autoresearch 只有三个文件循环逻辑由一个Markdown 指令program.md定义。设计的最大亮点在于“固定5 分钟的时间预算”这个约束选择它迫使 Agent 思考的是什么改动能在极短训练后就产生可测量的收益”淘汰了那些需要训练很久才能看到效果的方案。人类的参与在编辑完 program.md 后达到了最小化这个循环不会停下来问人类的意见而是会自主执行直到人类手动中断。但是简洁的同时也带来了很多结构性的局限它无法并行探索多个方向失败实验的经验没有被结构化保存可能反复尝试同一个idea死循环短时间约束容易让框架陷入局部最优只看最终指标这个标量反馈无法传达为什么失败可解释性不够1.2 树搜索循环搜索代表系统AIDE2024、AI Scientist v22025树搜索的核心思想是不要把解空间的探索限制在一条线性路径上而是维护一棵搜索树允许同时保持多个探索方向并在任意节点发起新的分支。树的每个节点是一个完整的代码解决方案边是代码变换操作。树搜索相比线性循环的根本优势在于回溯能力和方案多样性。当某条路径走进死胡同时线性循环只能通过 git reset 回到上一步然后尝试另一个方向而树搜索可以回到树中任意一个历史节点重新出发。听起来有点抽象下面以 AIDE 的具体实现为例AIDE 中的每个节点是一个完整的、可独立运行的 Python 脚本是一个从数据加载到模型训练到输出指标的完整 ML pipeline。有三种算子类型算子代表对节点的更改Draft草稿是从零开始生成一个全新方案。LLM 收到的 prompt 包含任务描述、当前所有成功方案的摘要称为 Memory以及不要重复已有方案的指令。这确保每个 draft 尝试不同的建模方向——比如第一个 draft 可能用 XGBoost第二个可能用神经网络第三个可能用 feature engineering 线性模型。Debug调试针对有 bug 的节点。LLM 收到的 prompt 包含完整的 buggy 代码、终端输出包含报错信息和 traceback以及修复这个 bug的指令。LLM 需要阅读错误信息并产出修复后的完整代码。如果修复后仍然有 bug可以继续 debug直到深度上限。Improve改进 针对已经能正常运行的节点。LLM 收到的 prompt 包含当前方案的完整代码、所有成功方案的摘要以及提出一个单一的、可实验验证的改进的指令。关键约束是atomic improvement——每次只改一个东西比如只换特征工程方法或只换模型超参数这样可以清楚地归因效果。AIDE 认为有 bug 的节点代表已投入精力但尚未成功的探索方向值得修复所以会从有bug且为叶节点且调试深度没有达到上限的节点中随机选一个进行调试。如果存在好的节点选择指标最好的那个节点对其进行改进。AIDE 采用的是贪婪策略——总是选当前最优节点做 improve。优势是收敛很快但是如果Draft 1 很早就获得了好指标后续所有 improve 都会集中在它的子树上其他 draft 的子树被饿死。MCTS 选择ML-Master 等系统用 UCBUpper Confidence Bound公式解决这个问题UCB(node) 平均收益 C × sqrt(ln(总访问次数) / 该节点访问次数)第一项倾向于已知的好节点利用第二项倾向于被访问次数少的节点探索。系数 C 控制二者的平衡。这意味着即使 Draft 5 的初始指标较差只要它被访问的次数少UCB 公式就会给它一个好奇心加分使系统偶尔去探索它。类似 AI Scientist v2 的工作则完全抛弃了公式化的选择策略让 Agent 自主判断现在应该深耕哪个方向。这种方式的优势在于 Agent 可以利用语义理解做出更智能的选择。1.3 遗传进化池循环代表系统FunSearch2023、AlphaEvolve2024、GEPA2025遗传进化的核心思想来自生物演化维护一个候选种群通过选择优秀个体、对其施加突变在这里由 LLM 完成、评估后代的适应度逐代推动种群向更优方向进化。与树搜索不同的是进化池中的个体之间没有严格的父子拓扑——任何个体都可以被选为突变的起点多个个体可以被交叉组合。FunSearchDeepMind, 2023使用 MAP-Elites 算法维护种群——不只保留最优个体而是在多个行为维度的每个 niche 中都保留最优个体从而维持种群的多样性。但在 FunSearch 中所有搜索规则选择策略、评估标准、种群管理都是人工硬编码的LLM 只负责变体生成。GEPA2025用文本反馈取代标量奖励来驱动突变方向。具体而言系统先对当前候选进行 rollout记录完整的执行轨迹包括每一步的推理过程、工具调用和输出然后让 LLM 阅读这些轨迹来诊断问题、归因原因、提出有针对性的修改方案。1.4 异步多 Agent 进化循环代表系统CORAL2026前面三种循环本质上都是单一搜索过程即使内部有多个角色参与搜索的状态空间仍然是统一管理的。以 CORAL 为代表的方法使用多个 Agent 各自独立运行完整的搜索循环通过共享持久记忆间接协调无需任何显式通信协议。共享持久记忆以文件系统的形式实现分为三个目录attempts/ 存储所有历史评估记录JSON 格式按 commit hash 索引、notes/ 存储观察和反思Markdown 格式支持合并和分类、skills/ 存储可复用的过程和工具包含自然语言描述和可执行脚本。每个 Agent 通过符号链接访问共享记忆按需读取以避免上下文过载并且 Agent 可以主动整理和重组记忆结构。02通用分析框架在分析具体系统之前先建立一个通用的分析框架。任何 AutoResearch 方法循环都可以从以下四个维度进行解构搜索拓扑搜索拓扑决定了系统在解空间中的行走方式。线性路径每次只走一步要么保留要么回退树形分支允许同时保持多个探索方向并随时回溯遗传池维护一个候选种群通过选择和突变不断演化异步并行则让多个独立 Agent 同时探索通过共享记忆间接协调。反馈信号反馈信号决定了系统从每次实验中能学到多少。最简单的标量奖励只告诉系统好了多少但不解释为什么。结构化指标提供多维评估。文本反馈则能传达完整的诊断信息——哪个模块出了问题、哪种策略有潜力但需要调整。信息越丰富系统下一步决策的质量就越高但获取和处理的成本也越大。记忆架构记忆架构决定了系统能否从历史中学习。无记忆的系统每次实验都从零开始思考Git 历史提供了可回溯的版本记录但缺乏结构化查询解树保留了搜索过程的完整拓扑文件系统池支持多 Agent 并发读写知识图谱则提供了最丰富的语义结构和跨项目的知识复利。决策主体决策主体决定了谁在控制搜索过程。早期系统中人类硬编码所有搜索规则LLM 只是被调用的突变算子。后来 Agent 逐步获得了决定搜索策略的自主权——选择探索哪个方向、何时放弃当前路径、如何综合历史经验。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】