当前位置：首页 > news >正文

Prompt-Hacking：比 p-hacking 更隐蔽的显著性幻觉

news 2026/6/7 1:43:14

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

作者：连小白 (连享会)
邮箱：lianxhcn@163.com

分类：LLM 与实证研究方法
Title: Prompt-Hacking：比 p-hacking 更隐蔽的显著性幻觉
Keywords: LLM 标注, prompt 敏感性, LLM hacking, p-hacking, 测量误差, 因果推断, 计量识别, 文本分析, 社会科学方法论
提要：用 LLM 标注数据，准确率 90% 就够了吗？一组最新研究表明：只需调整 prompt 和模型配置，就可能把原本不显著的结论制造成显著结果，也可能让已有显著结论消失甚至反向。问题不在于 LLM 不能用，而在于不能把 LLM 输出直接当成干净数据。

Source：

Kosch, T., & Feger, S. (2025). Prompt-Hacking: The New p-Hacking? (Version 2). arXiv. Link (rep), PDF, Google.
Baumann, J., Röttger, P., Urman, A., Wendsjö, A., Plaza-del-Arco, F. M., Gruber, J. B., & Hovy, D. (2025). Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation (Version 2). arXiv. Link (rep), PDF, Google.

图 1：Prompt-Hacking、p-hacking 与 LLM-Hacking 的关系
显著性不只可能来自回归设定，也可能来自变量生成过程。使用 LLM 标注文本时，prompt、模型、temperature 和输出解析规则，都可能影响最终进入回归的变量。

假设你正在用 LLM 对一批企业财报做情绪分析。

你精心设计了 prompt，对比了不同模型的表现，反复打磨指令，最终在验证集上跑出了 91% 的准确率。于是，你把 LLM 生成的情绪变量纳入回归模型，结果很显著。论文中，你很自然地写道：「LLM 标注与人工标注的一致率为 91%，说明该变量具有较高可靠性。」

这是目前很常见的做法。看起来每一步都合乎规范：有 prompt，有验证集，有准确率，有稳健性检验，还有回归结果。

问题在于，这个流程隐藏着一个被系统性低估的风险：Prompt-Hacking。

它类似于 p-hacking，但发生得更早，也更难被发现。p-hacking 是反复调整回归设定、样本区间或控制变量，直到得到显著结果；prompt-hacking 是反复调整 prompt、模型和输出解析规则，直到 LLM 生成出能支持研究假设的变量。

更麻烦的是，很多 prompt-hacking 并不是研究者故意造假。研究者只是觉得这个 prompt「更清楚」，那个模型「效果更好」，某种输出格式「更稳定」。这些选择单独看都合理，连在一起却可能把数据生成过程变成一条隐蔽的研究者自由度通道。

1. 从 p-hacking 到 prompt-hacking

Kosch & Feger (2025) 把这一现象称为「prompt-hacking」。他们的类比很直接：p-hacking 是利用统计分析环节中的自由度，prompt-hacking 是利用 LLM 交互和标注环节中的自由度。

两者的共同点是：研究者在没有清楚约束的选择空间中反复尝试，直到得到更符合预期的结果。

差别在于，p-hacking 发生在数据分析阶段。读者和审稿人至少还可以查看变量定义、回归设定、样本筛选和稳健性检验。prompt-hacking 则发生在数据生成阶段。等变量被构造出来以后，prompt 如何改过、模型如何试过、输出如何筛过，往往已经没有痕迹。

需要说明的是，本文标题沿用「prompt-hacking」这一更容易传播的说法，但后文讨论的风险并不只来自 prompt 改写。更严格地说，它属于 Baumann et al. (2025) 所说的LLM hacking：研究者在使用 LLM 生成标注变量时，可以在模型选择、prompt 设计、temperature 设置、输出解析规则、标签映射规则等多个环节做出看似合理但会影响下游结论的选择。

prompt 是其中最直观的一环，但不是唯一自由度。

2. 问题到底有多严重？

Baumann et al. (2025) 做了一项规模很大的实证研究。他们复制了 21 篇已发表社会科学论文中的 37 个标注任务，使用 18 个 LLM，生成超过 1,300 万条标签，检验 2,361 个假设。

他们关注的不是「LLM 能不能标注」，而是一个更尖锐的问题：如果研究者可以在 LLM 配置空间中选择，科学结论会有多不稳定？

结果相当刺眼：

通过少量 LLM 配置调整，94.4% 的零假设可以被制造出虚假显著性；
98.1% 的真实效应可以被隐藏；
68.3% 已经显著的效应可以被完全逆转，即符号方向错误，也就是 Type S error；
即使使用当前较强的模型，并遵循标准研究流程，错误结论的比例仍然约为 31%；使用较小模型时，这一比例接近 50%。

这些数字不是理论推演，而是基于已发表论文中真实标注任务的实验性复制。

不过，需要把这个结论说准确。Baumann et al. (2025) 并不是说这 21 篇原论文都有问题，也不是说原论文结论都不可信。它说明的是：一旦研究者把类似标注任务交给 LLM pipeline 处理，模型和 prompt 配置选择就可能把原本稳定的研究流程变成高度敏感的测量流程。

这对使用 LLM 做文本标注的经管社科研究尤其关键。因为许多研究中的核心变量本来就是从文本中抽取出来的：企业战略表述、管理层语调、ESG 披露、政策支持强度、新闻情绪、创新叙事、监管压力、风险提示、组织文化等。只要变量来自 LLM 标注，prompt 选择就可能影响回归中的 YiYi、DiDi 或 XiXi。

还有一个更容易被忽视的发现：p 值越接近 0.05，被 LLM 配置选择逆转的风险越高。那些原本就在显著性边缘的结论，在 LLM 标注环境下面临的威胁最大。

这也是 prompt-hacking 比一般测量误差更麻烦的地方：它并不只是让估计变得更有噪声，而是可能系统性地把结果推向研究者想看到的方向。