Arbor框架:保存长期研究经验,性能提升显著
研究人员称,一种名为Arbor的全新框架能保存长期研究任务中的假设、实验和经验教训,在相同预算下,其性能比其他模型高出2.5倍。(图片来源:Shutterstock - Wanan Wanan)
解决AI编码代理问题,推出Arbor框架
AI编码代理往往会孤立地开展研究,进行实验并产生新想法,但当上下文窗口重置时,这些想法就会被遗忘。这会造成token的浪费,因为模型会重复相同的错误,走进相同的死胡同。不过,新研究认为,需要调整的并非模型本身,而是整体的“树状结构”。为此,中国人民大学高瓴人工智能学院和微软研究院的数据科学家推出了Arbor,这是一种“持久假设树”,能帮助代理在长期研究过程中记住并完善所学知识。
Arbor框架的运行与效果
一个长期存在的协调器负责管理整个树状结构的研究策略,而短期执行器则会创建独立的工作树来测试不同的假设。随着实验结果的反馈,树状结构会不断更新,在整个实验过程中逐渐细化和收敛。在实际测试中,在相同预算下,该技术在现实世界的工程任务中,比标准AI编码代理的性能提升了两倍多。Info - Tech研究集团的研究总监Mahmoud Ramin表示:“Arbor会随着时间积累信息,让代理能够像人类一样,通过学习、适应并最终在过去所学的基础上不断进步。”
Arbor的运作机制
研究进展的关键因素
Arbor的开发者认为,仅靠长时间执行并不能保证研究取得进展。关键在于维持一种状态,将众多独立的尝试转化为“累积假设细化”。此外,他们指出,研究进展不应依赖人类监督者定期介入来指定下一步逻辑或解读先前试验的意义。为实现真正的自主,智能研究框架必须随着时间推移,保持实验、数据、结果和失败之间的联系。
满足的系统要求
Arbor的构建满足三个系统要求。首先,它必须能够分支,让子树测试所有可能合理的竞争假设。同时,无限制的分支可能会使整个框架陷入混乱,因此必须加以控制,保持结构有序。研究人员将其称为“连贯分支”。其次,基础设施必须将局部执行与整体策略分开。测试单个假设需要进行短期任务,如编辑、调试和评估。但这些任务不应“掩盖”基于整个运行过程中收集的证据所做的决策。最后,系统必须能够区分探索性改进和已验证的改进。这可以防止AI在试错过程中过度拟合,而是从底层模式中进行迭代学习。
持久性的核心作用
持久性是核心所在;这棵树将假设和想法、用于测试它们的代码或配置工件、实验证据(结果、指标)以及提炼的见解(例如“这个数据过滤器有帮助,但这个学习率调度器没有”)联系起来。项目启动后,短期执行的工作树运行代码、记录工作并收集指标。位于上方的长期协调器实际上充当了研究负责人的角色,密切关注过程、更新节点、选择“有前景的分支”、修剪或合并分支、传播可复用的经验教训,并决定接下来要探索哪些假设。Arbor的开发者写道:“因此,这棵树充当了系统的运营研究状态。它同时是搜索前沿、过去尝试的记忆以及已验证工件改进的审计轨迹。”
在新数据上超越Codex和Claude
测试过程与指标
为了测试这一过程的效果,研究人员在自主优化(AO)环境中对Arbor进行了评估:为代理提供一个初始研究工件(数据管道、测试工具或训练脚本),并要求它通过迭代实验提高其“保留性能”,且无需人工干预。保留性能是机器学习(ML)中的一个指标,用于评估模型在未见过的数据上的泛化能力。
测试任务与结果
这种基于树的架构在多个实际研究任务中进行了测试,包括模型训练(改进训练配方和超参数的能力)、测试工具工程(升级评估或训练测试工具的能力)和数据合成(为训练或评估生成更好数据的能力)。最终,在相同的资源预算下,Arbor的平均保留性能提升比Codex和Claude Code高出2.5倍。
研究结论与担忧
研究人员表示,结论是:与将相同模型作为“无记忆”编码代理运行相比,维护一个结构化、不断发展的假设树能带来更大的性能提升。Info - Tech的Ramin指出,Arbor最具创新性的特点是能够保持代理的记忆,并保留先前尝试和假设的相关数据。他还表示:“自主代理的下一步可能是随着时间积累证据。”不过,他也指出,这确实引发了对大规模稳健研究环境可审计性的担忧。“随着自主代理在无人监督的情况下执行任务的能力越来越强,企业需要了解代理采取特定行动或得出特定结论的方式和原因。”
关键词:人工智能、开发工具、软件开发