【RAG安全】Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases

📅 发布时间：2026/6/20 5:27:30

Abstract

随着检索增强生成（RAG）系统在各类现实服务中的广泛应用，其安全性疑问日益引发关注。RAG 体系利用从私有知识库中检索信息，增强大语言模型（LLM）的生成能力，但一旦这些私有信息被意外泄露，可能导致严重的隐私泄露风险。本文提出了一种黑盒攻击方法，可自动且自适应地迫使 RAG 体系泄露其私有知识库。与现有方法不同，该攻击无需任何先验知识，仅借助开源 LLM 与相关性机制，即可生成高效查询，从而最大限度地提取隐藏知识。在多种 RAG 架构与领域上的实验表明，该方法在覆盖率与泄露率上均显著优于最新对比方案，且完全基于开源模型，可在普通家用设备上运行。研究结果再次强调，RAG 系统亟需更强大的隐私防护机制。

1 Introduction

，最近的研究（Zeng 等人，2024；Qi 等人，2024；Cohen 等人，2024）强调，RAG 系统容易受到特定提示增强的攻击，这些攻击可以“说服”LLM 在一定程度上返回其输入上下文中的内容，其中包含检索到的私有信息片段。就是Retrieval-Augmented Generation (RAG)（Lewis 等人，2020；Guu 等人，2020）允许大语言模型（LLM）在不依赖繁重的重新训练或微调过程的情况下，输出更准确、基于事实且最新的信息。RAG 能够应用于任何将 LLM 与外部知识库配对的场景，这些知识库通常包含对当前任务十分宝贵且有时是私有的信息。信息检索技术用于获取与当前输入高度相关的知识片段，随后用于增强和提升生成语言的质量。In-Context Learning（ICL）（Brown，2020）提供了一种容易有用的方式，通过扩展输入提示（Ram 等人，2023）将检索到的知识提供给 LLM。尽管知识库的格式和内容在不同应用之间可能有所不同，但它通常囊括必须保密以确保隐私和安全的敏感信息。例如，RAG 系统可以部署为客户支持助手（Bhat 等人，2024），供组织内部员工启用以简化工作流程（RoyChowdhury 等人，2024），或集成到医疗支持聊天机器人中（Park，2024；Wang 等人，2024；Raja 等人，2024），在这些场景中，历史医疗记录有助于新病例的初步筛查。RAG 架构的广泛普及引发了关于隐私和数据安全的重大且往往被忽视的担忧（Zhou 等人，2024）。特有

我们进一步深入这一方向，展示确实许可通过一个自动化程序攻击 RAG 系统，该脚本由一个易于获取的开源 LLM 和句子编码器(sentence encoder)驱动。我们提出了一种基于相关性的机制，以促进对（隐藏的）私有知识库的探索，从而避免总是泄露知识库中同一子部分的信息。我们攻击代码的目标是最大化对私有知识库的估计覆盖率，从而尽可能提取其中的所有信息。总之，本文的贡献包括：

(i) 通过展示如何利用 RAG 框架的漏洞构建一个全自动的知识提取软件，提升对 RAG 框架中隐私风险的认识；

(ii) 提出一种无目标的黑盒攻击，旨在窃取 RAG 系统中的私有知识库。该攻击不依赖于对目标系统的任何先验知识（黑盒），可以在标准家用电脑上执行，无需依赖任何在线付费 API 或外部服务，仅运用开源代码和模型；

(iii) 提出一种新颖的自适应策略，通过基于相关性的机制，在完全未知的环境中逐步探索隐藏的私有知识库；

(iv) 展示该攻击在不同 RAG 调整下的可迁移性，并与所有最新的相关方法进行比较，这些途径要么不是完全黑盒，要么依赖外部服务（按量付费），要么不具备自适应能力。

我们的工作进一步揭示了 RAG 架构的关键漏洞，强调了采取特定隐私和安全导向措施以应对此类攻击的重要性。本文结构如下：第 2 节介绍背景概念；第 3 节介绍我们的算法；第 4 节介绍相关研究；第 5 节为实验部分；最后，第 6 节总结并提出未来研究方向。

2 Background

RAG 系统的基础。就是大语言模型（LLM）因其在与人类进行令人信服的语言交互方面表现出卓越能力（Li 等人，2022；Kamalloo 等人，2023；Zhu 等人，2023；Jiang 等人，2024b），在工业界和学术界都获得了广泛关注，同时也带来了在训练时未见过的新知识上适配模型的日益增长的需求。例如，在基于 LLM 的现实场景（如虚拟助手（Cutbill 等人，2024；García-Méndez 等人，2024；Kasneci 等人，2023））中，知识库或待执行任务可能随时间变化，模型需通过一次或多次微调过程进行适配（De Lange 等人，2021；Zhang 等人，2023；Bang 等人，2023），可能涉及模型的一部分或新增部分（Hu 等人，2022a），但这可能导致遗忘先前学到的知识（Lin 等人，2023）。另一种方式是保持模型参数冻结，依据 ICL（Brown，2020；Wei 等人，2022；Dong 等人，2022；Yu 等人，2023；Li，2023）供应新知识，即将信息追加到输入提示（上下文）中，这也