尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

autogen论文解读 - Sun

autogen论文解读 - Sun
📅 发布时间:2026/6/19 10:53:59

论文背景

该论文介绍的是微软的一个多智能体框架,曾经获得了ICLR2024大会LLM智能体专题研讨会最佳论文。

img

在开发基于LLM的复杂应用程序时遇到了很多问题:

  • 以往的研究往往基于单个LLM 智能体,但这无法解决复杂任务,因为它可能缺乏特定领域的知识、工具使用能力或持续的推理和纠错机制。

    如autogpt,langchain等大多是围绕单智能体设计的,缺乏对多智能体协作的原生支持

  • 基于多智能体系统的通用性不足

    如metagpt和软件开发流程深度耦合

框架方法

img

在顶部的子图中,可以看到autogen内置了一些代理,其中conversableagent是最高级的抽象类,而Assistantagent和UserProxyAgent都是它的子类,除此之外还有统一的对话接口和参数,如send,receive等,还可以对代理进行定制,从而实现多样化的代理模式。GroupChatManager可以看成是一个扩展,使用这个功能可以解决更加复杂的任务。

在中间的子图中展现了一个双代理系统中对话编程的示例,我们可以自定义回复函数,如图中当没有人类输入时,会执行消息中的代码进行回复,如果有人类输入,就把人类输入当作回复。这里其实有个疑问,如果没有人类输入并且消息中也没有代码,是不是就返回空消息了。其实这里是一个高度简化的代码示例,如果出现这样的情况会自动回退到默认的回复机制,调用LLM进行自然语言回复。通过这样的设置可以让两个智能体进行自然的对话,相当于控制流在驱动对话。在启动initiate函数时,默认是在A与B之间对话,在自定义的generate函数中,可以通过对话内容,异常或者LLM推理动态决定下一个接收者。它可以主动暂停当前对话流,并通过init函数发起和另一个智能体的对话, 那么控制流就都在每个智能体内部。而不用额外的控制平面来进行调度,大大简化了开发。

底部的子图展现了对话的进行,可以看到刚开始useragent发送给assistant画图的消息,然后assistant调用generate函数产生代码和回复,在人类没有输入的情况下,useragent自动执行代码产生报错并进行回复,assistant继续调用generate生成纠正,整个对话自主进行,无需额外的控制模块。

数据集说明

autogen的应用领域非常广泛,论文中有7个例子,可以开发基于数学问题求解,检索增强聊天(Rag),多代理编码,对话式国际象棋等应用。不同的应用对应的autogen智能体设计框架也有区别,这里主要介绍数学问题求解和rag系统两个实验以及结果。

在数学问题求解实验中,主要使用了MATH 数据集。它包括代数、计数与概率、几何、中级代数、数论、预备代数和预微积分等领域的题目,每个领域都包含问题和对应的解答。还提供问题的难度等级和类型信息。

img

在rag系统实验中主要使用了Natural Questions数据集,这个数据集包含真实用户向 Google 搜索提出的问题,以及从 Wikipedia 中找到的答案。

img

格式如图所示。

除此之外,还会标注出文档中的长答案和短答案。

实验结果

在数学问题求解实验中采用了定性和定量评估。
对于所有评估,都使用GPT-4作为基础模型

img

在定性评估中,采用了MATH数据集中的两个5级问题,分别涉及简化平方根分数和数论问题,每个问题测试三次。上图中展示了相关评估结果。可以看到autogen表现得最好,其他框架都存在各种各样得问题。

img

定量评估如上图所示,一共两组实验,一组是涉及120个5级数学问题,涵盖6个类别,第二组是对整个测试集进行的实验。其中Chatgpt+code和+plugin都是商业级的应用,只能在网页端测试,只能手动操作,并且有每小时消息量限制。所以测试只测试了120个5级数学问题。在debate和langchain中,由于其在小数据集上表现都不太好,所以没有进行更进一步的测试。可以看到autogen在解决数学问题上的表现非常不错。

img

在autogen开发的rag系统中采用了两个代理之间的交互式检索,以上是交互式检索和单次检索的对比。因为检索时会寻找和问题向量相似度最匹配的文本。当第一次没找到时,用户代理会反馈update,这样会去寻找向量数据库中下一条最相似的文档片段,整个过程可以重复多次。

img

如上图所示,红色表示没有使用交互式检索的表现,DPR是一种基线方法。可以看到autogen在rag系统上的表现也很不错,交互式检索对系统也有一定的提升。

下图是autogen和其他多智能体框架的对比

img

有些多智能体框架只适合解决特定的问题

在autogen中,可以根据当前的对话内容或任务进展,动态地选择下一个发言者或调整对话流程。

相关新闻

  • 高效仿真:功耗与散热攻略
  • # 中国大模型落地应用研究报告2025 - 深度导读与趋势分析
  • 车企数据治理平台化实战:从数据孤岛到全链路治理的架构演进

最新新闻

  • 从零到一:Jetlinks物联网平台服务器部署实战与避坑指南
  • (转)一次ANSYS EM 2023R1 “Request name electronics_desktop does not exist in the licensing pool.“的离谱解决记录
  • 面试被问“你的缺点是什么”,90%的应届生都答错了!(附满分话术)
  • Spring Cloud Alibaba 最佳实践:基于 Spring Boot 4.0 的完整微服务示例项目
  • 三步掌握AI斗地主:如何用DouZero智能助手提升你的游戏胜率
  • 2026山东大学项目实训个人博客(六)

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号