当前位置: 首页 > news >正文

AI编程智能体协作失败:两个模型合作效果不如一个

两个模型协同工作的表现竟不如单个模型独立完成,这一发现暴露了人工智能能力中的关键短板。

表面上看,这似乎是个简单的命题:如果AI智能体能够独立编写代码,那么两个模型合作是否应该表现得更好?要实现AI智能体相互协作、并与人类协同工作的美好愿景,AI必须成为优秀的协作者。然而现实表明,AI更像是"独行侠"。斯坦福大学的研究人员近期在一项名为"CooperBench"的新研究中,专门探讨了AI的协作能力问题。

"这是一种协调的诅咒,"斯坦福大学博士后学者、该预印本研究的第一作者朱浩表示。这项研究近期在4月举办的ICLR研讨会上进行了展示。"单个模型的表现优于两个智能体分工合作的效果。"

"在协作过程中,AI的性能实际上会急剧下降,"该研究的通讯作者、计算机科学助理教授Diyi Yang指出。"当前最优秀的编程智能体在配对协作时,能力损失近一半。这说明,制约AI协作的关键瓶颈不是编程技能,而是社交智能。"

协作是人类软件团队的核心能力。人类能够合理分工、沟通进展、以互补的方式开展工作,并对队友的成果进行验证。而这些恰恰是AI目前所缺乏的能力。

"尽管模型的语言能力很强,但它们并不将语言用于社交行为,因此也就不具备在协作场景中可靠运作所需的协调能力,"朱浩说,"它们被训练成不以社交方式使用语言,这是一个问题。"

为此,研究团队设计了一套包含650多项真实软件工程任务的测试集,要求两个智能体使用Python、TypeScript、Go和Rust四种编程语言之一进行协作。这些任务被特别挑选为具有潜在冲突性,正是这种战略性的重叠区域,让真正的协作既如此重要,又如此困难。每个智能体都可以编辑代码、执行本地命令,并且能够实时向协作方发送消息。

两个智能体的代码随后被合并并接受评估,结果令人失望。研究人员将此称为"协调差距",更值得注意的是,这种差距在中等技术难度的任务上最为明显——而这个"不太难也不太容易"的甜蜜区间,原本被认为是两个智能体最有机会发挥协作优势的地方。

研究人员原本预期,赋予AI智能体相互通信的能力会提高协作成功率,但结果发现这几乎没有任何影响。他们将原因归结为AI在处理空间协调与语义协调时的混乱——即分不清"在代码的哪个位置进行修改"和"需要进行什么修改"这两个层面的问题。

研究人员能够实时观察智能体之间的通信内容。以下是一段真实对话,生动展现了AI所面临的挑战:

智能体A:"等一下,智能体B!如果你把章节标题和我的guid类型都加到你的分支里,肯定会产生合并冲突!"

智能体B:"我会把完整的章节(第72至81行)加入我的分支,其中包括章节标题、你的guid类型,还有我的hash_sha256类型。"

在这段对话中,智能体B无视了智能体A的警告,直接覆盖了其代码。它表面上承认了智能体A的顾虑,却依然我行我素,最终交付了一个不兼容的设计。人类协作者在社会层面上几乎不可能做出这样的举动——无视警告本身就有损信任,而直接覆盖对方代码更是一种公然冒犯。

朱浩对这类对话感到意外。他原本以为,只要模型能够"说英语",更紧密的协调自然会随之而来,但结果恰恰相反:智能体流畅的语言表达能力,往往掩盖了失败,而非化解了问题。

研究人员还观察到其他社交层面的失范行为:频繁发送重复且低价值的状态更新、对直接提问置之不理,以及未能兑现已承诺的任务。

尽管AI目前的协作能力不尽如人意,但研究人员相信这是一个可以解决的问题。不过,解决之道并非更好的提示词工程,而是需要对AI进行协作能力的专项训练——就如同学校布置团队任务,不仅是为了学习课程内容,更是为了培养成功协作的艺术。这需要一种AI目前尚不具备的社交智能。

研究人员建议,在AI训练目标中纳入对协调行为的奖励机制,引导AI学习成功的合作模式,而不仅仅是生成高质量的代码。开发者还可以引入新机制,验证AI智能体是否真正履行了承诺,并创建类似合同的协议(附带签名确认)。此外,还应加强对代码集成质量的定期检查,并通过AI屏幕共享等技术手段,优化通信渠道,提升信息表达的清晰度,确保结果可验证。

"通过CooperBench,我们认识到,AI智能体虽然能像人类一样说话,但在语言如何在社交语境中发挥作用这一点上,它们还有很长的路要走,"朱浩总结道。

本研究得到斯坦福大学以人为本人工智能研究院的部分资助。

Q&A

Q1:CooperBench研究发现AI编程智能体协作时存在哪些主要问题?

A:CooperBench研究发现,两个AI编程智能体协作时性能会急剧下降,能力损失近一半。主要问题包括:无法有效区分"在哪里修改代码"和"修改什么内容";会忽视协作方的警告并直接覆盖其代码;频繁发送无意义的状态更新;对直接提问不予回应;以及未能兑现已做出的承诺。研究人员将这种现象称为"协调差距"。

Q2:为什么AI智能体的语言沟通能力强,协作效果却反而更差?

A:斯坦福研究人员发现,AI模型虽然具备流畅的语言表达能力,但这种能力并未转化为真正的社交协调行为。AI被训练成不以社交方式使用语言,因此语言流畅性反而掩盖了协作中的失败,而非解决问题。简单来说,AI"会说话"但不"懂社交",缺乏人类在团队合作中自然具备的信任维护和冲突规避意识。

Q3:如何改善AI编程智能体的协作能力?

A:研究人员认为,改善AI协作能力的关键在于专项训练,而非优化提示词。具体建议包括:在训练目标中纳入对协调行为的奖励机制;引入类似合同的协议机制以确保智能体履行承诺;加强对代码集成质量的定期检查;以及通过AI屏幕共享等技术手段强化通信渠道,提升协作透明度和结果可验证性。

http://www.rkmt.cn/news/1457777.html

相关文章:

  • AUTOSAR SPI实战避坑:从SyncTransmit阻塞到AsyncTransmit回调,你的车规级通信选对了吗?
  • 多层组织光传输仿真工具:支持自定义参数与三类光学响应输出
  • STM32F103 DAC输出不稳定?排查这几点让你的模拟电压更精准(附ADC闭环验证)
  • 2026年知名的上海排烟窗/三角型排烟窗/电动排烟窗口碑好的厂家推荐 - 行业平台推荐
  • 2026年靠谱的深圳整厂打包回收/深圳闲置设备回收/深圳厂房拆除回收高口碑品牌推荐 - 品牌宣传支持者
  • 用泡沫芯材DIY战斗机器人:低成本入门机器人制作全攻略
  • 用Python跑通癌症风险因素组合分析全流程:从体检数据离散化到高置信规则输出
  • 从蓝牙到Wi-Fi:拆解GMSK和OFDM,看主流无线通信协议背后的调制技术选型
  • 记录Linux io(文件io)
  • AUTOSAR SPI实战避坑:SyncTransmit卡死?AsyncTransmit回调丢失?从源码角度捋清调用机制
  • 别再只做词频统计了!用jieba自定义词典挖掘文本的‘专业密度’
  • 线上 SVM 核函数选择耗时不明?一次关于 Python 闭包无侵入监控的硬核实战
  • PHP对象关系映射与PDO实战
  • DeepONet非线性算子学习深度解析:从理论到实战的高效应用指南
  • 从cfssl到kubectl:一份给开发者的K8s TLS证书“避坑”实操指南(含常见报错排查)
  • 3步打造你的QQ空间数字回忆档案馆:永久保存青春时光的终极方案
  • STCTS语义编解码:语音通信的80bps革命
  • 具身智能研究现状与未来前景(十):未来前景与核心挑战——通向通用具身智能的关键路径
  • 告别EV2400!用STM32F407自制BQ40Z50电池监控器,成本直降(固件BQ40Z50-R1)
  • 第00篇:CSS导学文档
  • GenZ混合模型:基础模型与统计建模的融合实践
  • 从游戏引擎到飞控:手把手教你用UE4+Rflysim+Simulink搭建沉浸式无人机HIL仿真环境
  • 保姆级教程:用BC35-G模块和AT指令,5分钟搞定NBIOT设备接入OneNET平台
  • AntiDupl:开源智能图片去重工具完全指南
  • Claude 3.5 Sonnet 的 artifacts 功能,怎么实现一键生成办公文档?
  • 2026年6月市场做得好的同步带厂商推荐,同步轮/同步带/齿轮/橡胶同步带/同步带轮,同步带供应商口碑推荐 - 品牌推荐师
  • 版权合规型AI音乐生成系统上线倒计时:国家广电总局AI内容标识SDK强制接入指南(2024Q3生效)
  • 深入GL3224固件升级工具:如何手动添加任意SPI Flash芯片支持(以Winbond/GigaDevice为例)
  • 为什么你的Llama3风控插件总超时?揭秘GPU推理链路中5个隐性延迟黑洞
  • Linux设备树dtb文件头fdt_header详解:用C代码和二进制视图教你手动解析