当前位置：首页 > news >正文

AI编程智能体协作失败：两个模型合作效果不如一个

news 2026/6/4 3:50:59

两个模型协同工作的表现竟不如单个模型独立完成，这一发现暴露了人工智能能力中的关键短板。

表面上看，这似乎是个简单的命题：如果AI智能体能够独立编写代码，那么两个模型合作是否应该表现得更好？要实现AI智能体相互协作、并与人类协同工作的美好愿景，AI必须成为优秀的协作者。然而现实表明，AI更像是"独行侠"。斯坦福大学的研究人员近期在一项名为"CooperBench"的新研究中，专门探讨了AI的协作能力问题。

"这是一种协调的诅咒，"斯坦福大学博士后学者、该预印本研究的第一作者朱浩表示。这项研究近期在4月举办的ICLR研讨会上进行了展示。"单个模型的表现优于两个智能体分工合作的效果。"

"在协作过程中，AI的性能实际上会急剧下降，"该研究的通讯作者、计算机科学助理教授Diyi Yang指出。"当前最优秀的编程智能体在配对协作时，能力损失近一半。这说明，制约AI协作的关键瓶颈不是编程技能，而是社交智能。"

协作是人类软件团队的核心能力。人类能够合理分工、沟通进展、以互补的方式开展工作，并对队友的成果进行验证。而这些恰恰是AI目前所缺乏的能力。

"尽管模型的语言能力很强，但它们并不将语言用于社交行为，因此也就不具备在协作场景中可靠运作所需的协调能力，"朱浩说，"它们被训练成不以社交方式使用语言，这是一个问题。"

为此，研究团队设计了一套包含650多项真实软件工程任务的测试集，要求两个智能体使用Python、TypeScript、Go和Rust四种编程语言之一进行协作。这些任务被特别挑选为具有潜在冲突性，正是这种战略性的重叠区域，让真正的协作既如此重要，又如此困难。每个智能体都可以编辑代码、执行本地命令，并且能够实时向协作方发送消息。

两个智能体的代码随后被合并并接受评估，结果令人失望。研究人员将此称为"协调差距"，更值得注意的是，这种差距在中等技术难度的任务上最为明显——而这个"不太难也不太容易"的甜蜜区间，原本被认为是两个智能体最有机会发挥协作优势的地方。

研究人员原本预期，赋予AI智能体相互通信的能力会提高协作成功率，但结果发现这几乎没有任何影响。他们将原因归结为AI在处理空间协调与语义协调时的混乱——即分不清"在代码的哪个位置进行修改"和"需要进行什么修改"这两个层面的问题。

研究人员能够实时观察智能体之间的通信内容。以下是一段真实对话，生动展现了AI所面临的挑战：

智能体A："等一下，智能体B！如果你把章节标题和我的guid类型都加到你的分支里，肯定会产生合并冲突！"

智能体B："我会把完整的章节（第72至81行）加入我的分支，其中包括章节标题、你的guid类型，还有我的hash_sha256类型。"

在这段对话中，智能体B无视了智能体A的警告，直接覆盖了其代码。它表面上承认了智能体A的顾虑，却依然我行我素，最终交付了一个不兼容的设计。人类协作者在社会层面上几乎不可能做出这样的举动——无视警告本身就有损信任，而直接覆盖对方代码更是一种公然冒犯。

朱浩对这类对话感到意外。他原本以为，只要模型能够"说英语"，更紧密的协调自然会随之而来，但结果恰恰相反：智能体流畅的语言表达能力，往往掩盖了失败，而非化解了问题。

研究人员还观察到其他社交层面的失范行为：频繁发送重复且低价值的状态更新、对直接提问置之不理，以及未能兑现已承诺的任务。

尽管AI目前的协作能力不尽如人意，但研究人员相信这是一个可以解决的问题。不过，解决之道并非更好的提示词工程，而是需要对AI进行协作能力的专项训练——就如同学校布置团队任务，不仅是为了学习课程内容，更是为了培养成功协作的艺术。这需要一种AI目前尚不具备的社交智能。

研究人员建议，在AI训练目标中纳入对协调行为的奖励机制，引导AI学习成功的合作模式，而不仅仅是生成高质量的代码。开发者还可以引入新机制，验证AI智能体是否真正履行了承诺，并创建类似合同的协议（附带签名确认）。此外，还应加强对代码集成质量的定期检查，并通过AI屏幕共享等技术手段，优化通信渠道，提升信息表达的清晰度，确保结果可验证。

"通过CooperBench，我们认识到，AI智能体虽然能像人类一样说话，但在语言如何在社交语境中发挥作用这一点上，它们还有很长的路要走，"朱浩总结道。

本研究得到斯坦福大学以人为本人工智能研究院的部分资助。

Q&A

Q1：CooperBench研究发现AI编程智能体协作时存在哪些主要问题？

A：CooperBench研究发现，两个AI编程智能体协作时性能会急剧下降，能力损失近一半。主要问题包括：无法有效区分"在哪里修改代码"和"修改什么内容"；会忽视协作方的警告并直接覆盖其代码；频繁发送无意义的状态更新；对直接提问不予回应；以及未能兑现已做出的承诺。研究人员将这种现象称为"协调差距"。

Q2：为什么AI智能体的语言沟通能力强，协作效果却反而更差？

A：斯坦福研究人员发现，AI模型虽然具备流畅的语言表达能力，但这种能力并未转化为真正的社交协调行为。AI被训练成不以社交方式使用语言，因此语言流畅性反而掩盖了协作中的失败，而非解决问题。简单来说，AI"会说话"但不"懂社交"，缺乏人类在团队合作中自然具备的信任维护和冲突规避意识。

Q3：如何改善AI编程智能体的协作能力？

A：研究人员认为，改善AI协作能力的关键在于专项训练，而非优化提示词。具体建议包括：在训练目标中纳入对协调行为的奖励机制；引入类似合同的协议机制以确保智能体履行承诺；加强对代码集成质量的定期检查；以及通过AI屏幕共享等技术手段强化通信渠道，提升协作透明度和结果可验证性。

查看全文

http://www.rkmt.cn/news/1457777.html