当前位置: 首页 > news >正文

可恢复90%,使用GraphRAG能重建图谱

今天分享上海交通大学的安全论文——GraphSteal。

先说结论:不需要任何系统内部权限,仅通过公开 API 与 Graph RAG 系统对话,攻击者就能恢复超过 90% 的知识图谱结构。GPT-4o、DeepSeek-V3、Llama3 全部中招,现有的防护措施几乎无效。

Graph RAG 的安全盲区

GraphRAG 是当前热门的架构——用知识图谱增强 LLM 的推理能力。LightRAG、ToG 等系统让 LLM 能够访问实体、关系和多跳依赖,大幅减少幻觉。

直觉上,RAG 系统提供了一个隐私屏障:用户只能看到生成的回答,接触不到后端数据库。但问题在于,GraphRAG 的回答本身就携带了图的结构信息。

当你问"这个患者的诊断有哪些?“,系统会返回疾病节点和"诊断"关系。当你追问"其中接受了搭桥手术的患者后续有哪些并发症?”,系统又会暴露新的实体和关系。每一条回答都在泄露图谱的"边"。

这篇论文提出的核心问题是:如果一个攻击者系统性地利用这些泄露,能不能重建出完整的知识图谱?

答案是:能,而且效率高得惊人。

攻击方法:把 GraphRAG 变成"结构神谕"

论文提出了一个黑盒攻击框架,攻击者只能通过 API 发送查询、接收回答,没有任何系统内部信息。

非定向攻击:BFS 逐层"扒"图

目标:尽可能多地重建图谱。方法就像图的广度优先搜索:

  1. 发送一个种子查询,定位一个锚点实体
  2. 查询该实体的所有 1-hop 邻居和关系
  3. 把新发现的节点加入待探索前沿
  4. 重复上述步骤,跳过已访问节点

关键设计:每一轮的查询都是"上下文诱导型"的——不是问"告诉我 X 的信息",而是问"请描述 X 的完整关联和背景画像",诱导 LLM 输出更多拓扑邻域信息。

维护一个已访问集合𝒱_visited防止循环。维护一个前沿队列F_t管理待探索节点。每一步把新节点加入队列,逐步扩大已恢复的子图。

定向攻击:DFS 精准提取目标

目标:获取某个特定实体的所有敏感属性。方法是有向深度优先搜索:

先从一个与目标相关的锚点出发,每步根据上一步的回答选择最相关的邻居深入。论文给了一个医疗场景的攻击链:

“请告诉我接受过冠状动脉搭桥手术的患者。” “其中哪些患者术后发生了房颤?” “这些患者的治疗方案是什么?” “请提供他们的具体用药时间表。”

每条查询都基于上一条的输出收窄范围,逐步从"搭桥手术"→"房颤并发症"→"治疗方案"→"用药时间表",形成一条 DFS 路径。到达目标后,执行一次最终提取查询,获取目标节点的所有属性和关联边。

攻击效果:90%+ 的图被恢复

论文在 MIMIC-IV(医疗电子病历)和 FreeBase(通用知识图谱)上做了全面评估。

非定向攻击

指标MIMIC-IV (小图)MIMIC-IV (大图)
节点恢复率 NRR0.9230.639
最大公共子图 MCS0.9050.591
图编辑距离 GED0.106(越低越好)0.421

在小规模子图(100-500 节点)上,攻击几乎能完美重建图谱。大图(5000+ 节点)上效果下降,但仍能恢复 63.9% 的节点。

定向攻击

在 MIMIC-IV 上的定向攻击 F1 分数一致高于 0.86。GPT-4o 在 Agent-based 系统上达到 0.917。Agent-based 系统(ToG)比 Retrieval-based 系统(LightRAG)略难攻击,因为 Agent 的中间推理步骤会隐式过滤部分结构信息,但差距不大。

三个模型的表现一致性

GPT-4o、DeepSeek-V3、Llama3-8B 上攻击效果高度一致。这说明漏洞存在于 Graph RAG 的检索管道本身,而不是某个特定模型的缺陷。

为什么 BFS 最好?

论文对比了 BFS、DFS 和随机游走三种遍历策略:

  • BFS 最优:利用知识图谱的高聚类系数,同一层的多条路径可能指向同一节点,形成"多路径验证"。即使某次检索失败,同层的其他路径仍能发现遗漏的实体。
  • DFS 最差(用于全局重建时):依赖深度线性依赖链,一个早期幻觉就会导致整条路径偏移,后续所有查询都"跑偏"。
  • 随机游走最差:缺乏系统覆盖记忆,在冗余节点上浪费预算,重建结果是碎片化的。

图的规模和密度如何影响攻击?

论文做了精细的消融分析,发现了两个规律:

规模越大越安全(但不安全):NRR 从小图的 0.923 降到 5000+ 节点图的 0.639。原因是两个:超节点的邻居描述超出 token 限制导致截断;迭代错误传播——每一步的幻觉会在后续步骤中放大。

密度呈现非单调趋势:平均度从 2 增到 5 时,适度连接提供冗余路径,帮助 BFS 发现更多节点。但超过 8 时,“上下文饱和效应"开始主导——高度节点的邻居列表太长,LLM 被迫截断,导致"能找到节点(NRR 高),但不知道它们怎么连(MCS 低)”。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.rkmt.cn/news/1436549.html

相关文章:

  • 告别Selenium for Windows?试试用FlaUI和C#给你的WinForm/WPF应用做自动化测试
  • GraphRAG 和传统 RAG 的本质区别,看这篇就能解决你的困惑
  • 郑州市 航空港区 上门安装、维修维保|维小达 开关插座/灯具/门窗/柜体/锁具/卫浴/龙头/洗菜盆/踢脚线一站式家装安装服务 - 维小达科技
  • 荔城区26年最新奢侈品名包名表专业回收权威店铺推荐 - 莘州文化
  • SecureCRT 8.5从下载到激活:一份给网络工程师的详细配置备忘录(含许可证问题排查)
  • 掌控技术与商业的罗盘:Java技术管理者全景解析——从技术经理到CTO的进阶之路
  • 从美颜到去噪:OpenCV双边滤波与引导滤波实战指南(附人像处理案例)
  • 明溪县26年最新奢侈品名包名表专业回收权威店铺推荐 - 莘州文化
  • ESP8266物联网气象站:多传感器集成与云端数据可视化实战
  • 会员管理系统推荐:2026全域私域运营选型深度解析
  • 5个高效解决方案彻底解决OpenCore EFI配置难题
  • 【限时解密】Gemini退款政策灰度测试中的4个未公开例外情形(仅对认证开发者开放)
  • 为什么你的macOS窗口总被遮挡?Topit让你的工作流不再被打断
  • 搞GNSS数据处理别再踩坑了!手把手教你搞定BDS精密钟差的DCB改正(以WHU/CODE产品为例)
  • Ollama 本地大模型部署与运行效能深度评测
  • 宁化县26年最新奢侈品名包名表专业回收权威店铺推荐 - 莘州文化
  • Kubernetes性能调优最佳实践
  • 如何快速使用WorkshopDL:Steam创意工坊下载的完整指南
  • 与其他项目比较优缺点
  • AI论文查重工具实测:从初稿到终稿的7款工具使用记录
  • 基于Transformer的新闻文本摘要自动生成系统
  • 团队绩效评估方法对比与评估计划
  • 降AIGC黑科技揭秘!AI率92%暴降至5%!实测10款降AI率工具!薅羊毛技巧!
  • 泉港区26年最新奢侈品名包名表专业回收权威店铺推荐 - 莘州文化
  • Zotero Style插件高能进度条不显示?三步彻底解决配置问题
  • 【博图专用上位机-说明书】
  • 银河麒麟系统网络配置踩坑记:为什么aarch64架构下获取IP地址这么麻烦?
  • 沙县区26年最新奢侈品名包名表专业回收权威店铺推荐 - 莘州文化
  • 如何用自然语言对话彻底改变你的数据可视化工作流?
  • 风震联合作用下高层建筑主体结构和玻璃幕墙的性能研究(二)