[论文学习]Token级差分隐私于大型语言模型：DP-Fusion 方法深入分析-尧图网站建设

📅 发布时间：2026/6/26 23:26:42

Token-Level Differential Privacy for LLMs / DP-Fusion

1. 核心问题与动机

大型语言模型（LLMs）在训练后部署阶段，会处理大量未见过的上下文资料，例如使用者提示、工具呼叫结果或外部资料库检索内容（RAG）。这些上下文可能包含敏感资讯，如个人识别资讯（PII：姓名、地址、病历、帐单等）、密码或医疗记录。

LLM 的生成输出可能无意中「洩漏」这些敏感 token，即使是正常使用也可能被对手透过membership inference、reconstruction attacks或jailbreak 提示提取。

传统解决方案的局限

Scrubbing / NER Redaction：使用命名实体识别（NER）移除或替换敏感 token，产业界广泛採用。但过度移除会严重损害文本效用（utility），且相邻上下文仍可能间接洩漏资讯（如代名词透露性别）。
Prompt Engineering / Paraphrasing：指示模型改写文件以避免洩漏 PII，效用较佳，但无形式化保证，易受 jailbreak 攻击，且白盒攻击者仍能高成功率推断敏感资讯。
既有 DPI 方法（如 DP-Decoding：混合 uniform distribution；DP-Prompt：logits clipping + exponential mechanism）：提供一定隐私，但效用/隐私权衡差，或仅在训练阶段有效，推论阶段保证不足。

动机

需要在推论阶段（inference-time）实现token-level的差分隐私（Differential Privacy, DP），提供可证明保证（provable bounds），同时维持高文本品质。适用情境包括医院文件隐私化、RAG 私有检索、私有 ICL（In-Context Learning）等。

DP-Fusion聚焦「文件隐私化（document privatization）」：将含敏感 token 的文件改写成隐私保护版本，供 LLM 使用。

2. 结果与成果（DP-Fusion 方法核心）

DP-Fusion是一种Token-Level Differentially Private Inference (DPI)机制，其核心创新在于混合（fusion）两个 LLM 前向传递的输出分布：

建立公开基准（public baseline）：移除所有敏感 token 群组，运行 LLM 得到 baseline 分布。
针对每个隐私群组（privacy groups）（可依 NER 信心度或类型如 NAME、DATE 分组）：运行 LLM 得到含该群组的私有分布。
混合分布：使用参数β（或 λ）控制混合，使最终输出分布与 baseline 的统计距离（Rényi divergence）有界，从而限制敏感 token 对生成 token 的影响。
自迴归生成改写文件，ϵ 参数控制 trade-off（ϵ=0 完全隐藏敏感资讯；ϵ 较大则提升品质）。

理论保证

基于Rényi DP（RDP）与近似 DP（(ε, δ)-DP），证明敏感 token 群组对输出 token 的影响有界。即使对手可适应性查询（包含 jailbreak），攻击优势仍受限。
支援多群组隐私预算分配（per-group privacy budgets），NER oracle 品质越高，保证越强（与其他方法不同）。
对邻近资料集（add/remove token）的影响有形式化界限。

实证成果

效用：在 perplexity 等指标上，比相关 DPI 方法低约6 倍（大幅更好），文本品质接近原始。
隐私：理论与经验隐私均大幅优于 baseline（scrubbing、prompt engineering、DP-Decoding、DP-Prompt）。攻击成功率显着降低。
实验涵盖多种 LLM、资料集与攻击者模型，展示稳定 trade-off。
额外好处：可缓解 prompt injection，且计算成本为多次前向传递（可接受于本地部署）。

GitHub 提供完整程式码、PyPI 套件与部署 demo，方便複製使用。

3. 分析与洞见

优势与创新点

细粒度（token-level）：超越 document-level 或 sentence-level DP，更精准保护特定敏感部分。
可扩展性：NER oracle 可替换（未来更好 tagger 会直接提升效能），隐私保证随 oracle 改善而增强。
实用性：适用开源 LLM，本地运行避免第三方信任问题；ϵ 参数提供直观控制。
对比洞见：既有方法常过度 sanitization 或无保证；DP-Fusion 在 utility/privacy Pareto 前沿明显领先，平衡了 scrubbing 的激进与 paraphrasing 的脆弱。

限制与边缘案例

计算开销：每个群组需额外 LLM 呼叫，对于极长上下文或多群组可能昂贵（可优化如 batching 或近似）。
NER 依赖：false negative（漏标敏感 token）仅享经验保护；false positive 则被纳入保证（较安全但略增开销）。
攻击者模型：假设灰盒（知方法与模型权重，但无 logits 存取），对更强白盒或 side-channel 攻击需额外考量。
效用边界：极低 ϵ 下仍可能影响连贯性，尤其高度依赖敏感上下文的任务（如特定医疗诊断）。
泛化：主要验证文件改写，延伸至一般 RAG/ICL 需更多实测；多语言或非英文资料集效果待验证。

更广洞见

反映 LLM 部署从「训练隐私」转向「推论隐私」的重要性。DP-Fusion 提供一套框架，可延伸至其他生成任务。
强调「oracle + mechanism」组合：更好敏感检测 + 强 DPI 机制是未来方向。
隐私不是二元，而是可调控光谱；形式化保证让系统设计者能量化风险与合规（e.g., GDPR）。
潜在社会影响：促进 LLM 在医疗、金融等敏感领域安全部署，降低再识别风险，但也需注意过度隐私可能损害可用性。

4. 结论

DP-Fusion是 LLM 推论阶段 token-level 差分隐私的重大进展，提供可证明、细粒度且实用的解决方案，有效解决既有方法在保证与效用上的双重不足。

透过分布融合机制，它在保护敏感 token 的同时，显着提升生成文本品质，为私有 RAG、文件 sanitization 等应用开闢新路径。

论文不仅贡献理论框架与实证优势，还开放程式码，具高度可複製性。未来方向可能包括降低计算成本、整合更先进 NER/检测器、多模态延伸，或在更大规模模型上的验证。

此工作强化了「隐私为预设」的 AI 部署理念，对负责任 AI 发展具有重要意义。

论文连结

arXiv：https://arxiv.org/abs/2507.04531
PDF：https://arxiv.org/pdf/2507.04531.pdf