当前位置：首页 > news >正文

深度研究代理在多轮过程反馈下的评估研究

news 2026/6/11 16:28:03

深度研究代理在多轮过程反馈下的评估研究

来源: arXiv:2606.09748v1
作者: Rishabh Sabharwal, Hongru Wang, Amos Storkey, Jeff Z. Pan
领域: 机器学习, ICML
优化说明: 本文作为领域专家对原始内容进行了优化，保留了实验步骤、脚本和资源下载链接等全部原始内容信息。

摘要

现有的深度研究代理（DRA）基准测试仅评估单次输出，忽略了关键问题：DRA能否在反馈引导下改进其报告？为此，我们进行了多轮评估，研究两种反馈设置：

自反思（Self-Reflection）：代理在不接收外部诊断信号的情况下修订报告。
过程级反馈（Process-Level Feedback）：代理接收针对研究策略差距的指导。

为此，我们设计了**研究间隙推断（Research Gap Inference, RGI）**方法，通过分析满意和不满意的评价标准模式来推断研究过程差距。我们的分析揭示三个关键发现：

在自反思下，代理以几乎相等的速率采纳和回归评价标准，产生微乎其微的净改进；
一轮过程级反馈带来显著增益，规范化评分提高约8–15分，采纳率约为35–40%；
这些增益不会在后续轮次中累积，因为代理在重写全报告以解决剩余差距时，会回归最多24%的先前已满足标准。

即使在目标指导的情况下，可靠的多轮改进对我们评估的 DRA 架构仍然难以实现。

代码与结果公开地址: https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs

1. 引言

深度研究代理（DRA）通过制定研究计划、搜索网络和综合来源来解决复杂、开放-ended的问题（Google DeepMind, 2024; OpenAI, 2025; Perplexity AI, 2025）。然而，大多数基准测试仅评估单次输出：代理接收查询、生成草稿，由 LLM-as-judge 根据标准集评估（Du et al., 2025; Li et al., 2026; Zhong et al., 2026）。然而，实践中用户通常不将初稿视为最终输出，而是通过迭代反馈来完善报告。因此，多轮评估对于准确评估这些系统的能力至关重要。

自然地将单次评估扩展到多轮的一种方法是向生成的报告提供反馈。最简单的方法是自反思，即代理在没有外部诊断信号的情况下审查和改进其输出，测试代理是否能自我诊断自身缺陷。然而，Huang et al. (2023) 和 Tyen et al. (2024) 表明，LLM 通常无法可靠地识别自身错误，且自我纠正后性能有时会恶化。另一种方法使用 LLM-as-judge 根据任务特定标准集评估报告，然后基于评判者的解释生成反馈。这种标准级反馈产生具体的内容请求（如"讨论 X"），测试代理是否能纳入这些补充内容。

而标准级反馈关注报告中的具体内容差距，但经常忽略代理进行研究的更深层问题，如依赖不恰当的来源、范围界定过窄或完全忽略相关子主题。为解决这些问题，我们需要一种关注研究过程差距的反馈——我们称之为过程级反馈。这种类型的反馈对测试代理是否能适应其搜索策略、来源选择和解析框架以产生更全面和有根据的报告至关重要。然而，在 DRA 背景下，这仍未被探索。

为enable此研究，我们设计了**研究间隙推断（RGI）**方法，为多轮 DRA 评估生成过程级反馈。在评估报告后，RGI 分析满意和不满意标准模式，推断研究过程差距，并提供关于研究策略的指导，要求代理在后续轮次中独立定位相关证据和分析。

我们评估了三个模型（GPT-4.1-mini、GPT-4.1 和 DeepSeek-V4-Flash），在模块化多智能体框架LangChain Open Deep Research (LC-ODR)（LangChain AI, 2025）中，研究它们在DRACO（Zhong et al., 2026）的复杂研究任务下的表现。实验发现：在自反思下，代理在没有外部诊断信号时执行更多网络搜索并咨询更多来源，但未能将努力定向到相关差距，导致净改进微乎其微。相比之下，一轮过程级反馈使平均规范化评分提高约12分，采纳率约为37%。然而，这些增益不会在后续轮次中可靠地累积。

主要贡献

过程级反馈用于多轮 DRA 评估：我们研究过程级反馈作为多轮 DRA 评估的补充视角，针对代理进行研究的差距。为此，我们设计了 RGI 方法，从满意和不满意标准模式推断研究过程差距。
DRA 行为的深入分析：除了基于标准的评估，我们通过追踪级诊断（如网络搜索量、来源覆盖率和标记使用量）分析代理行为，理解研究策略和输出质量如何在反馈设置和轮次间变化。

2. 相关工作

深度研究基准测试

深度研究代理的基准测试在任务设计和评估方法上快速发展。DeepResearch Bench（Du et al., 2025）建立了长格式深度研究报告的基准，包括检索和引用评估。DRACO（Zhong et al., 2026）在10个领域使用专家设计的任务特定标准集评估复杂、真实的研��任务，而DeepResearch Bench II（Li et al., 2026）和ResearchRubrics（Sharma et al., 2025）通过详细、可验证的标准进一步强化了基于标准的评估。其他基准关注特定设置（如企业深度研究、实时环境和前沿科学探索）。然而，大多数基准评估仅单次输出而非对反馈的迭代修订。

交互式和多轮深度研究

最近的工作开始检查交互设置中的深度研究。IDRBench（Feng et al., 2026）使用参考接地用户模拟器评估交互深度研究，关注研究过程中的澄清和适应。与我们的工作最相关的是 Chen et al. (2026)，它评估标准级反馈（源自单个标准失败）下的多轮修订。我们的方法互补：我们研究当代理获得过程级指导（识别其研究过程差距）时如何适应研究策略，过程级反馈从满意和不满意标准的模式推断，并额外通过追踪级诊断分析代理行为。

LLM 自我纠正

先前研究表明，LLM 可以通过迭代自反馈改进输出（Madaan et al., 2023; Shinn et al., 2023），但在没有外部信号时难以自我纠正，瓶颈在错误检测而非纠正（Huang et al., 2023; Tyen et al., 2024）。我们的自反思设置测试了 DRA 的上下文，其中代理必须自主识别和纠正自身报告中的缺陷。

3. 实验框架

3.1 任务、数据集和代理

任务定义：给定用户查询 q，深度研究代理 A 产生报告 r₁ = A(q) 通过自主搜索网络、收集证据并综合发现到长格式引用文档。我们将此扩展到多轮设置：在后续轮次 t > 1，代理接收原始查询 q、前次报告 r_{t-1} 和反馈 f_{t-1}（从 r_{t-1} 评估生成），并产生修订报告 rₜ = A(q, r_{t-1}, f_{t-1})。所有报告使用相同的任务特定标准集评估，以测量改进和回归 across turns。

数据集：DRACO
DRACO 是一个复杂、开放-ended研究任务的基准，每个任务对专家设计的标准集，涵盖四个维度：

维度	缩写	描述
事实准确性	FA	测量报告是否包含正确、可验证的事实
分析的广度和深度	BD	评估相关维度的覆盖和分析的彻底性
呈现质量	PQ	评估结构、格式和呈现
引用质量	CQ	检查主张是否由适当来源支持

每个标准获得二元 MET/UNMET 裁决并携带签名权重：正标准指定理想内容，负标准指定应避免的错误模式。

代理：LC-ODR
我们使用LC-ODR，一个开源模块化多智能体框架，将研究任务分解为四个阶段：规划器生成结构化研究简报，监督者将其分解为并行子任务分配给研究代理（进行网络搜索和提炼证据），报告者综合所有输出到连贯、引用支持的报告。每次 LC-ODR 调用执行完整的规划、研究和生成周期，每轮重写报告。我们选择 LC-ODR 因为其模型无关设计（使相同脚手架下的受控比较成为可能）和本原生 LangSmith 集成（支持每轮追踪提取）。这种完整重写行为并非 LC-ODR 独有——当前专有 DRA（如 OpenAI Deep Research、Gemini Deep Research）或开源 DRA（如 Tongyi Deep Research、DR-Tulu）均遵循单次规划-搜索-写作范式，因此外部修订循环对所有情况必要。

3.2 生成过程级反馈

为在每轮提供过程级反馈，我们使用RGI，它分析满意和不满意标准的模式以识别研究过程差距。然后生成关注关键研究主题的反馈，如研究哪些领域更深入、寻求哪些类型证据或分析、加强哪些分析方面。代理必须独立找到并综合相关证据以解决这些差距。

输入信号：反馈生成器使用 r_{t-1} 在 FA、BD 和 CQ 标准集上的结构化摘要。对于 FA 和 BD，我们包含通过和失败的标准，因为通过标准作为对比信号：分析满意和未满足标准模式揭示研究过程差距（如代理是否处理了广泛主题但缺乏深度，或充分覆盖某些子主题而忽略其他）。失败标准附带评判者简要解释以更好地刻画每个差距。我们包含 CQ 标准，因为它们提供上游诊断证据（如报告是否使用了适当来源类型或遗漏了预期来源）。最后，我们排除 PQ，因为它关乎写作和格式，不提供推断研究过程差距的有用见解。

反馈生成：使用这些信号和原始任务查询，反馈生成器分两步产生过程级反馈。首先，按主题或实体聚类相关通过和失败以识别主要研究过程差距，使用通过作为对比以解释失败并检查 CQ 信号是否解释下游 FA 或 BD 不足。其次，将此诊断转换为简洁反馈消息，围绕两到三个研究主题组织，指定代理应深入调查的领域和应优先的证据或分析类型。我们指导生成器不重复标准集或评判解释。完整生成过程提示模板见附录 B.2 和 D。

4. 实验

4.1 实验设置

由于多轮评估的高成本，我们评估三种模型配置作为研究代理：GPT-4.1-mini、GPT-4.1和DeepSeek-V4-Flash。所有三个模型使用 LC-ODR 脚手架。对每个模型，我们首先生成初始报告 r₁，然后进行两次修订轮次。除非另有指定，每个修订轮次接收从即刻前报告生成的过程级反馈。我们还运行自反思设置一次在 Turn 2，其中代理使用常量反馈（不提供外部诊断信号）修订 r₁，以研究两个不同反馈设置下的 DRA 行为。

反馈生成器：在所有模型间固定。评判遵循 DRACO 评估配置（Zhong et al., 2026）。我们随机采样50 个任务从 DRACO，同时保留原始领域分布。完整模型配置、数据集采样和领域覆盖细节在附录 A。

4.2 评估指标

我们报告 DRACO 的规范化评分（标准集加权聚合）和通过率（未加权满足标准比例）。为测量报告如何在轮次间变化，我们使用两个额外指标（Chen et al., 2026）：

采纳率（Incorporation rate）：测量修订满足先前未满足标准的频率。
回归率（Regression rate）：测量修订失去先前满足标准的频率。

此外，我们报告净标准增益（Net criterion gain），测量两个轮次间满足标准的净变化。

公式：

Incorporation rate t = ∣ { i : unsat t − 1 ( i ) ∧ sat t ( i ) } ∣ ∣ { i : unsat t − 1 ( i ) } ∣ (1) \text{Incorporation rate}_t = \frac{|\{i : \text{unsat}_{t-1}(i) \land \text{sat}_t(i)\}|}{|\{i : \text{unsat}_{t-1}(i)\}|} \tag{1}Incorporation ratet=∣{i:unsatt−1(i)}∣∣{i:unsatt−1(i)∧satt(i)}∣(1)

Regression rate t = ∣ { i : sat t − 1 ( i ) ∧ unsat t ( i ) } ∣ ∣ { i : sat t − 1 ( i ) } ∣ (2) \text{Regression rate}_t = \frac{|\{i : \text{sat}_{t-1}(i) \land \text{unsat}_t(i)\}|}{|\{i : \text{sat}_{t-1}(i)\}|} \tag{2}Regression ratet=∣{i:satt−1(i)}∣∣{i:satt−1(i)∧unsatt(i)}∣(2)

Net gain t = ∣ { i : unsat t − 1 ( i ) ∧ sat t ( i ) } ∣ − ∣ { i : sat t − 1 ( i ) ∧ unsat t ( i ) } ∣ (3) \text{Net gain}_t = |\{i : \text{unsat}_{t-1}(i) \land \text{sat}_t(i)\}| - |\{i : \text{sat}_{t-1}(i) \land \text{unsat}_t(i)\}| \tag{3}Net gaint=∣{i:unsatt−1(i)∧satt(i)}∣−∣{i:satt−1(i)∧unsatt(i)}∣(3)

所有规范化评分和通过率以百分比点报告，平均 across 50 采样任务。

4.3 主要结果

整体轨迹

模型	设置	规范化评分	通过率	采纳率	回归率
GPT-4.1-mini	Turn 1	37.76	45.89	—	—
SR Turn 2	40.18 (+2.42)	48.64 (+2.75)	15.40	12.90
RGI Turn 2	53.11 (+15.35)	59.91 (+14.02)	34.78	14.52
RGI Turn 3	54.45 (+1.34)	60.92 (+1.01)	27.46	18.59
GPT-4.1	Turn 1	44.77	51.55	—	—
SR Turn 2	44.86 (+0.09)	51.94 (+0.39)	15.58	14.74
RGI Turn 2	56.19 (+11.42)	62.22 (+10.67)	36.88	16.87
RGI Turn 3	51.22 (-4.97)	58.86 (-3.36)	27.17	23.57
DeepSeek-V4-Flash	Turn 1	57.20	63.94	—	—
SR Turn 2	56.66 (-0.54)	63.84 (-0.10)	26.18	15.99
RGI Turn 2	65.35 (+8.15)	71.10 (+7.16)	39.61	13.41
RGI Turn 3	69.36 (+4.01)	74.59 (+3.49)	31.52	8.96

关键发现：

自反思产生微小或负向变化：规范化评分对 GPT-4.1-mini 仅 +2.42，GPT-4.1 仅 +0.09，DeepSeek-V4-Flash 为 -0.54。
一轮过程级反馈产生显著增益：GPT-4.1-mini +15.35、GPT-4.1 +11.42、DeepSeek-V4-Flash +8.15。
增益不会可靠地在 Turn 3 累积：GPT 模型中 Turn 3 规范化评分下降或微增，DeepSeek-V4-Flash 维持 +4.01 增益但比 Turn 2 增益小得多。

自反思下的 DRA 行为

在自反思下，所有三个模型仅有边际增益。理解原因，我们检查纳入和回归率：GPT 模型几乎相同（GPT-4.1: 15.58% vs 14.74%，GPT-4.1-mini: 15.40% vs 12.90%），意味着代理以大致相等的速率恢复和失去标准。DeepSeek-V4-Flash 显示更高的总体交换（26.18% 纳入 vs 15.99% 回归），但绝对计数（199 纳入 vs 198 回归）几乎抵消，净增益仅 +1。绝对值上，GPT-4.1 在自反思下净增益仅 +13 标准，而 RGI Turn 2 为 +208。

过程级反馈主要改善覆盖度和事实锚定

过程级反馈的最大增益出现在 BD（分析深度）上：GPT-4.1-mini +29.96、GPT-4.1 +22.85、DeepSeek-V4-Flash +16.28。FA（事实准确性）也有显著改善（GPT-4.1-mini +13.51、GPT-4.1 +10.65、DeepSeek-V4-Flash +8.04），表明所有三个模型在给定充分过程级反馈时能独立定位缺失事实。CQ（引用质量）也有间接增益（GPT-4.1-mini +10.27、GPT-4.1 +8.23、DeepSeek-V4-Flash +5.16），当代理查询更多适当来源以解决 FA 和 BD 差距时，引用质量作为副产品改善。而 PQ（呈现质量）显示混合和不一致的变化（GPT-4.1-mini +4.41、GPT-4.1 -1.57、DeepSeek-V4-Flash -4.32），由于 PQ 完全排除从过程级反馈，这些波动可能反映重写噪声而非任何有意义的诊断信号。

第三轮是条件性而非单调递增

第三轮结果取决于 Turn 2 的"剩余空间（headroom）"。对于 GPT 模型，Turn 3 增益集中在 Turn 2 得分较低的任务上，而退化聚集在 Turn 2 得分较高的任务上。Turn 3 帮助主要在 Turn 2 留有大量可恢复空间时有效，一旦 Turn 2 报告达到中等分数，完整重写暴露更多满足标准到回归风险。

4.4 分析

代理行为差异解释 Turn 3 回归模式

为理解为什么 DeepSeek-V4-Flash 在 Turn 3 回归远少于 GPT-4.1 和 GPT-4.1-mini，我们测量引用保留率（Turn 2 URL 重新出现在 Turn 3 的分数）和文本重叠（从 r₂ 到 r₃ 的 5-gram 和 7-gram 召回率）：

模型	引用保留	5-gram	7-gram	回归率
GPT-4.1-mini	37.22%	6.59%	5.09%	18.59%
GPT-4.1	27.01%	1.79%	0.82%	23.57%
DeepSeek-V4-Flash	53.96%	26.68%	22.47%	8.96%

GPT 模型：在轮次间有效重启研究和写作（GPT-4.1 仅保留 Turn 2 引用的 27.01% 和 1.79% 的 5-grams）。DeepSeek-V4-Flash：保留 53.96% 的引用和 26.68% 的 5-grams，意味着它建立在先前报告和来源基础上而非替换它们。这种模式直接对应 Turn 3 回归率：GPT 模型在轮次间更激进重写，必须独立重新满足每个先前满足标准但频繁失败。DeepSeek-V4-Flash 维持可比 Turn 3 纳入率（31.52% vs 27.17%-27.46%），确认它解决剩余差距同时保留已满足内容。

追踪和报告特征

自反思下，所有三个模型增加研究活动相对于 Turn 1，但无人实现有意义的分数增益，确认额外努力本身不替代目标指导。RGI Turn 2 显示明确行为转变：所有三个模型生成更长报告、发出更多网络搜索调用、产生更高引用计数。在 Turn 3，两个 GPT 模型收缩字数和引用计数，然而 DeepSeek-V4-Flash 继续扩展报告（从 9,295 到 10,184 词）并增加引用计数（从 65.5 到 75.6）。有趣的是，唯一 URL 访问数急剧下降（从 630.7 到 369.3），即使平均引用计数增加和规范化评分继续上升。此模式表明 DeepSeek-V4-Flash 建立在先前报告和引用上而非进行全新搜索。

计算成本

DeepSeek-V4-Flash 在资源使用上基线更高：在 Turn 1 消耗约 3× 输入标记，发出 4× 网络搜索调用。此差距在 Turn 3 进一步扩大，DeepSeek-V4-Flash 消耗4.04M 输入标记（1.58× 其自身 Turn 1）且操作在超过两倍延迟（683s vs 289s）。当前完整重写 DRA 架构不提供任何结构机制保留先前覆盖，迫使模型隐性补偿，在显著更高计算下。

案例研究

案例 1：过程级反馈驱动恢复（任务 021）

此任务要求自 2022 年来深度检测研究生效的研究生水平综合，涵盖技术进展、伦理关注和监管框架。Turn 1 报告规范化评分为50.0，广泛主题覆盖但具体技术方法检索浅。RGI 反馈针对三个过程级差距：检测方法处理保持在调查级别而非接触具体系统；监管覆盖读作高级政策摘要而非扎根于原始立法文本；基准到部署讨论缺乏量化根据。

Turn 2 报告改进到 79.0（+29.0）：DRA 直接解决所有三个差距。在 FA 上，DRA 恢复欧盟 AI 法案的形式标识、其 Article 50 义务和 August 2026 合规日期。在 BD 上，它量化基准到部署下降为 45-50% AUC 并添加多模态和音频检测方法。一个 BD 回归发生：Turn 1 中的性别伤害统计在重写中消失。

案例 2：检索失败限制恢复（任务 004）

此任务要求 CME 集团现金生成效率的定量财务分析，要求来自官方 SEC 文件的季度数字。Turn 1 报告评分14.0，代理依赖来自第三方聚合器的年化数据而非季度文件。RGI 反馈建议使用季度文件而非全年聚合、咨询完整债务披露而非部分摘要、聚合所有承诺流动性来源。

Turn 2 报告下降到 10.1（-3.9）：代理部分行动此指导，恢复 Q1 2024 OCF（$892.7M）、公司revolver能力和一个先前缺失的票据。然而，它声明 Q1 2025 OCF 不可用，导致所有下游 OCF 依赖计算失败且 BD 分数从 28.6 下降到 0.0。先前正确值也回归：Q1 2024 净收入移到不正确数字，$500M 2028票据从债务表中消失。此案例说明当目标证据在代理检索范围外时，反馈无法诱导恢复，完整重写放大了回归风险。

5. 结论

我们研究了 DRA 如何响应多轮过程级反馈，使用 RGI 生成识别研究策略差距的反馈。我们的实验表明，虽然 DRA 无法 consistently 自我诊断其研究差距，但当在过程级引导时有效适应研究策略，产生显著更好的报告在仅一轮修订后。然而，这些改进不会可靠地累积：后续重写回归先前满足标准，此模式我们追踪到当前 DRA 框架中普遍的完整重写范式。模型隐性保留更多先前内容回归更少，但在显著更高计算成本下，表明此架构限制无法在模型级别单独有效补偿。这些结果表明，可靠的多轮改进将需要具有明确保留先前覆盖机制的架构同时解决剩余差距。

局限性和未来工作

本研究评估 LC-ODR 内三个模型和 50 个 DRACO 任务。在不同框架（包括多智能体管道和单智能体架构）上的测试将帮助确定结果泛化程度。
扩展到完整 DRACO 基准将加强发现稳健性。
过程级和标准级反馈的直接比较非平凡（前者涵盖所有通过和失败标准，后者仅关注失败标准），留待未来工作。
研究自适应反馈策略（如基于每轮剩余空间变化反馈粒度）和设计具有显式内容保留机制的多轮感知 DRA 架构是 promising directions。

资源与下载链接

资源	链接
论文源码 (arXiv)	https://arxiv.org/html/2606.09748v1
代码仓库	https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs
LC-ODR (LangChain)	https://github.com/langchain-ai/open_deep_research
DRACO 基准	https://arxiv.org/abs/2602.11685

附录

A. 完整实验设置

模型配置：

研究代理：gpt-4.1-mini-2025-04-14、gpt-4.1-2025-04-14、deepseek-v4-flash
反馈生成器：gpt-4.1-2025-04-14，temperature=0.7
评判器：gpt-5.2，reasoning_effort=“none”，temperature=0
搜索工具：Tavily，max_results=5，topic=“general”，include_raw_content=True

数据集采样：随机采样 50 个 DRACO 任务，覆盖所有10个领域：

Finance (10), Shopping/Product Comparison (8), Academic (6), Technology (5), General Knowledge (5), UX Design (4), Law (3), Medicine (3), Needle in a Haystack (3), Personalized Assistant (3)

B. 反馈生成扩展细节

B.1 信号选择详情

FA 和 BD：包含通过和失败标准，通过标准作为对比信号。
CQ：仅作为上游诊断证据（不直接转换为反馈）。
PQ：完全排除（不推断研究过程差距）。

B.2 反馈生成过程

反馈生成器分两步：

研究过程差距分析：聚类相关通过和失败、使用通过解释失败、识别主要研究过程差距、检查 CQ 信号。
过程级反馈：转换为简洁反馈消息，围绕两到三个研究主题组织。

提示模板（完整提示见附录 D.3）：

系统提示：定义反馈生成器角色、任务说明和约束
反馈生成提示：包含研究gap分析和反馈消息生成指令

C. 扩展结果

C.1 每领域结果：详细领域级别规范化评分、通过率、纳入率和回归率在附录表格 6-9。

C.2 标准级动态和净增益：完整标准集级别纳入、回归和净增益在附录表格 10。

C.3 Turn 3 剩余空间分析：Turn 3 增益在 Turn 2 得分较低任务上集中，退化在 Turn 2 得分较高任务上聚集。Pearson 相关性为 -0.50 (p<0.001) 对于 GPT-4.1 和 -0.34 (p<0.05) 对于 GPT-4.1-mini，确认中等负关系。

C.4 追踪和报告特征诊断：完整追踪级指标在附录表格 12。

C.5 案例研究详情：完整任务查询和过程级反馈在附录图 4-5。

D. 提示模板

D.1 评判器提示：来自 DRACO 基准的 LLM-as-a-judge 提示。

D.2 自反思提示：

Feedback: Please reflect on your current report and revise it.

D.3 反馈生成提示：完整反馈生成提示（附录 D.3）包含系统提示、研究gap分析指令和反馈消息生成约束。

D.4 代理修订提示：

You previously wrote a research report on the following query: --- ORIGINAL QUERY --- {original_query} --- YOUR PREVIOUS REPORT --- {prev_report} --- USER FEEDBACK --- {feedback} Please revise your report based on the feedback above...