当前位置: 首页 > news >正文

Prompt-Hacking:比 p-hacking 更隐蔽的显著性幻觉

温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。

作者:连小白 (连享会)
邮箱:lianxhcn@163.com

  • 分类:LLM 与实证研究方法
  • Title: Prompt-Hacking:比 p-hacking 更隐蔽的显著性幻觉
  • Keywords: LLM 标注, prompt 敏感性, LLM hacking, p-hacking, 测量误差, 因果推断, 计量识别, 文本分析, 社会科学方法论
  • 提要:用 LLM 标注数据,准确率 90% 就够了吗?一组最新研究表明:只需调整 prompt 和模型配置,就可能把原本不显著的结论制造成显著结果,也可能让已有显著结论消失甚至反向。问题不在于 LLM 不能用,而在于不能把 LLM 输出直接当成干净数据。

Source

  • Kosch, T., & Feger, S. (2025). Prompt-Hacking: The New p-Hacking? (Version 2). arXiv. Link (rep), PDF, Google.

  • Baumann, J., Röttger, P., Urman, A., Wendsjö, A., Plaza-del-Arco, F. M., Gruber, J. B., & Hovy, D. (2025). Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation (Version 2). arXiv. Link (rep), PDF, Google.


图 1:Prompt-Hacking、p-hacking 与 LLM-Hacking 的关系
显著性不只可能来自回归设定,也可能来自变量生成过程。使用 LLM 标注文本时,prompt、模型、temperature 和输出解析规则,都可能影响最终进入回归的变量。

假设你正在用 LLM 对一批企业财报做情绪分析。

你精心设计了 prompt,对比了不同模型的表现,反复打磨指令,最终在验证集上跑出了 91% 的准确率。于是,你把 LLM 生成的情绪变量纳入回归模型,结果很显著。论文中,你很自然地写道:「LLM 标注与人工标注的一致率为 91%,说明该变量具有较高可靠性。」

这是目前很常见的做法。看起来每一步都合乎规范:有 prompt,有验证集,有准确率,有稳健性检验,还有回归结果。

问题在于,这个流程隐藏着一个被系统性低估的风险:Prompt-Hacking

它类似于 p-hacking,但发生得更早,也更难被发现。p-hacking 是反复调整回归设定、样本区间或控制变量,直到得到显著结果;prompt-hacking 是反复调整 prompt、模型和输出解析规则,直到 LLM 生成出能支持研究假设的变量。

更麻烦的是,很多 prompt-hacking 并不是研究者故意造假。研究者只是觉得这个 prompt「更清楚」,那个模型「效果更好」,某种输出格式「更稳定」。这些选择单独看都合理,连在一起却可能把数据生成过程变成一条隐蔽的研究者自由度通道。

1. 从 p-hacking 到 prompt-hacking

Kosch & Feger (2025) 把这一现象称为「prompt-hacking」。他们的类比很直接:p-hacking 是利用统计分析环节中的自由度,prompt-hacking 是利用 LLM 交互和标注环节中的自由度。

两者的共同点是:研究者在没有清楚约束的选择空间中反复尝试,直到得到更符合预期的结果。

差别在于,p-hacking 发生在数据分析阶段。读者和审稿人至少还可以查看变量定义、回归设定、样本筛选和稳健性检验。prompt-hacking 则发生在数据生成阶段。等变量被构造出来以后,prompt 如何改过、模型如何试过、输出如何筛过,往往已经没有痕迹。

需要说明的是,本文标题沿用「prompt-hacking」这一更容易传播的说法,但后文讨论的风险并不只来自 prompt 改写。更严格地说,它属于 Baumann et al. (2025) 所说的LLM hacking:研究者在使用 LLM 生成标注变量时,可以在模型选择、prompt 设计、temperature 设置、输出解析规则、标签映射规则等多个环节做出看似合理但会影响下游结论的选择。

prompt 是其中最直观的一环,但不是唯一自由度。

2. 问题到底有多严重?

Baumann et al. (2025) 做了一项规模很大的实证研究。他们复制了 21 篇已发表社会科学论文中的 37 个标注任务,使用 18 个 LLM,生成超过 1,300 万条标签,检验 2,361 个假设。

他们关注的不是「LLM 能不能标注」,而是一个更尖锐的问题:如果研究者可以在 LLM 配置空间中选择,科学结论会有多不稳定?

结果相当刺眼:

  • 通过少量 LLM 配置调整,94.4% 的零假设可以被制造出虚假显著性;
  • 98.1% 的真实效应可以被隐藏;
  • 68.3% 已经显著的效应可以被完全逆转,即符号方向错误,也就是 Type S error;
  • 即使使用当前较强的模型,并遵循标准研究流程,错误结论的比例仍然约为 31%;使用较小模型时,这一比例接近 50%。

这些数字不是理论推演,而是基于已发表论文中真实标注任务的实验性复制。

不过,需要把这个结论说准确。Baumann et al. (2025) 并不是说这 21 篇原论文都有问题,也不是说原论文结论都不可信。它说明的是:一旦研究者把类似标注任务交给 LLM pipeline 处理,模型和 prompt 配置选择就可能把原本稳定的研究流程变成高度敏感的测量流程。

这对使用 LLM 做文本标注的经管社科研究尤其关键。因为许多研究中的核心变量本来就是从文本中抽取出来的:企业战略表述、管理层语调、ESG 披露、政策支持强度、新闻情绪、创新叙事、监管压力、风险提示、组织文化等。只要变量来自 LLM 标注,prompt 选择就可能影响回归中的 YiYi​、DiDi​ 或 XiXi​。

还有一个更容易被忽视的发现:p 值越接近 0.05,被 LLM 配置选择逆转的风险越高。那些原本就在显著性边缘的结论,在 LLM 标注环境下面临的威胁最大。

这也是 prompt-hacking 比一般测量误差更麻烦的地方:它并不只是让估计变得更有噪声,而是可能系统性地把结果推向研究者想看到的方向。

图 2:Prompt-Hacking 如何进入实证回归
LLM 标注不是回归之前的普通技术预处理,而是变量生成过程的一部分。prompt、模型和解析规则一旦影响标签,就可能进一步影响处理组边界、结果变量测量和核心回归系数。

温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。

http://www.rkmt.cn/news/1476850.html

相关文章:

  • 到底为什么PHP要有反射?
  • 从游戏到生产力:AIDA64、Cinebench、3DMark全场景CPU压力测试指南
  • 从机载雷达到5G基站:缝隙天线阵列设计的‘变’与‘不变’(附现代设计工具链)
  • 3分钟极速上手:全能网盘直链解析工具实战指南
  • 【CSDN原创检测机制深度解密】:AI生成内容的5大绕过陷阱与3条合规红线
  • 2026年氟塑料液下泵头部企业实测排行盘点:耐磨脱硫泵/耐腐泵/耐腐耐磨液下泵/耐腐耐磨砂浆泵/耐腐耐腐循环泵/选择指南 - 优质品牌商家
  • 数字电路课设别再头疼了!手把手教你用CD4518和74LS00搞定电子钟(附Proteus仿真文件)
  • 【C++11新章】列表初始化详解
  • 2026年合肥3+2学校推荐工作:趋势洞察与优质选择 - 2026年企业资讯
  • 通辽自建房装修技术解析:通辽装修工作室/通辽装饰/通辽专业的装修/通辽精装修/通辽靠谱装修/通辽二手房翻新/选择指南 - 优质品牌商家
  • 硬件分拣系统(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 如何判断 SFT 到什么程度就可以开始做 RL
  • 2022年软考-公司人事管理—软件设计师—东方仙盟
  • 2026年当下,如何选择一家靠谱的烘焙烤箱销售厂家?这份业内推荐请收好 - 2026年企业资讯
  • TMS320F280049C ADC实战:从ePWM触发到多通道采样,一个电机控制工程师的配置笔记
  • 黑客必备的一体化黑客工具
  • SPI驱动开发实战:轮询、中断与DMA模式详解与性能优化
  • 2026年Q2非晶带焊料评测:银焊膏、锡焊膏、锡青铜焊膏、镍焊膏、阻流剂、预制成型件、颗粒焊料、黄铜焊膏、定制焊料选择指南 - 优质品牌商家
  • 2026年通辽市名气TOP5装饰公司客观盘点:通辽靠谱装修/通辽二手房翻新/通辽别墅装修/通辽大宅装修/通辽大平层装修/选择指南 - 优质品牌商家
  • C语言如何直接控制硬件指针、内存与寄存器
  • 基于 Harmony 6.0 应用的健身训练计划生成器实现
  • 电动扫地机厂家突围策略:6大核心步骤+实操案例,破解竞争困局
  • 避坑指南:为什么NetBackup客户端一重启就报错25?深入分析vxpbx_exchanged服务
  • Mac/Linux下conda创建虚拟环境报InvalidArchiveError?一个权限问题引发的‘血案’与终极修复
  • 我把 LangGraph、RAG、Memory 、MCP 都拼进了 AI 助手, 领导说,你 太牛了
  • 电子阅读器成阅读首选,作者们喜爱的几款设备推荐
  • 小米手机2定价策略解析:供应链博弈与期货定价模式
  • 从零到一:基于项目实战的前端开发知识体系完全指南
  • 一张文章最多能加几个CSDN AI引流卡片?官方未公开的3个硬性阈值与动态限流逻辑揭秘
  • 基于 Harmony 6.0 应用的老人跌倒检测应用首页实现