当前位置: 首页 > news >正文

GCFExplainer: Global Counterfactual Explainer for Graph Neural Networks

论文信息

论文标题:GCFExplainer: Global Counterfactual Explainer for Graph Neural Networks
论文作者:
论文来源:ICLR 2023
论文地址:link
论文代码:link

Abstract

1. GNN 的应用场景与可解释性需求

1)广泛应用领域

  明确图神经网络(GNN)在计算生物学(如蛋白质功能预测、药物分子活性判断)、自然语言处理(如文本语义依赖建模)、计算机安全(如网络攻击路径分析)等领域的实用价值,说明其已成为解决结构化数据任务的核心模型之一。

2)可解释性的必要性

  指出 GNN 本质是 “黑箱模型”—— 虽能输出高精度预测结果,但无法直观呈现 “为何做出该预测”。随着 GNN 在药物发现、医疗诊断等高风险领域的应用,解释其预测逻辑逐渐成为刚需:既有助于开发者识别模型缺陷(如对特定结构的偏见),也能增强用户对模型的信任。

2. 反事实推理的核心逻辑

  为解决 GNN 可解释性问题,文中聚焦 “反事实推理” 这一关键思路,其核心定义与目标如下:
  • 核心逻辑:通过对输入图进行最小化修改(如增删单条边、修改单个节点标签),使 GNN 的预测结果从 “原类别” 变为 “目标类别”,进而通过 “修改内容” 反推模型关注的关键特征。
  • 举例说明:若 GNN 判定某分子为 “致突变(非期望类)”,反事实推理需找到 “仅修改少量原子 / 化学键,使分子变为‘非致突变(期望类)’” 的方案,该方案即 “反事实示例”,可解释 “哪些结构导致分子致突变”。

3. 现有反事实解释方法的核心局限

  明确现有方法仅支持 “实例级局部推理”,存在两大关键缺陷,这也是本文研究的出发点:

局限类型
具体表现
实际影响
无法提供全局追索策略
仅能为单个输入图生成专属反事实示例,无法总结适用于 “一类图” 的通用规则
如药物发现中,无法得出 “所有含某类官能团的分子,需如何修改以具备抗癌活性”,开发者需逐一分析每个分子,效率极低
造成人类认知过载
反事实示例数量随数据集规模(可能达数千至数百万图)线性增长
以含 10 万图的分子数据集为例,若每个图对应 1 个反事实示例,10 万条结果远超人类单次可理解、可分析的信息容量,失去 “解释” 的本质意义

4. 本文核心目标与解决方案

1)研究目标

  突破局部推理局限,实现 GNN 的 “全局反事实解释”:即找到少量(规模可控)、具代表性的反事实图集合,使其能为 “绝大多数输入图” 提供有效反事实解释(无需为每个输入图单独生成示例)。

2)核心方案:GCFExplainer 算法

  提出 GCFExplainer 作为解决方案,其核心设计思路由 “两大关键技术” 支撑,确保能高效找到全局反事实集合:
  • 技术 1:基于图编辑图的顶点强化随机游走(VRRW)
    • 先构建 “编辑图”(元图):将输入图及 “经单步编辑生成的潜在反事实图” 作为节点,边代表 “两图可通过单步编辑(增删节点 / 边、改标签)转化”,形成结构化搜索空间;
    • 再执行 VRRW:通过 “强化访问‘覆盖输入图多、与已有示例差异大’的节点”,从海量潜在反事实图中筛选出 “覆盖度高、多样性强” 的候选集,避免盲目搜索。
  • 技术 2:贪心总结策略
    • 从候选集中迭代选择 “加入后,能最大程度提升‘被解释输入图比例(覆盖度)’” 的反事实图,最终形成规模固定(如 10 个)的全局反事实集合,确保 “数量少、效果优”。

5. GCFExplainer 的实验性能优势

  基于真实图数据集(如分子图、蛋白质图)的实验,验证 GCFExplainer 显著优于现有主流局部反事实解释器,具体优势体现在 4 个维度:

性能维度
具体表现
核心价值
追索覆盖度提升
较当前最优局部方法(如 RCExplainer),覆盖度提升 46.9%
用相同数量的反事实图,能解释更多输入图,全局解释能力更强
追索成本降低
较最优局部方法,输入图与对应反事实图的 “编辑距离(修改量)” 降低 9.5%
反事实示例的 “修改量更小”,更符合 “最小化扰动” 原则,解释的可信度更高
与数据集特性一致性更强
生成的反事实图更贴合输入图的固有特性(如分子图的连通性、蛋白质图的结构完整性)
避免生成 “不符合真实场景” 的反事实示例(如非连通的分子图,现实中无法存在),提升解释的实用性
抗 adversarial 攻击能力更优
即使输入图受 “随机边翻转(如误加 / 误删少量边)” 干扰,GCFExplainer 仍能保持稳定的解释性能
在数据存在噪声或恶意攻击的场景下(如医疗数据采集误差、网络安全中数据被篡改),解释结果仍可靠

6. 扩展方案:K-GCFExplainer

  针对 “输入图存在明显聚类结构” 的场景(如分子数据集中,部分分子含 “羟基” 官能团、部分含 “羰基” 官能团,形成天然簇),提出 GCFExplainer 的扩展算法 K-GCFExplainer:
    • 核心改进:在 GCFExplainer 基础上加入 “图聚类组件”,先通过 K-medoids 算法(基于图编辑距离)将输入图分为 K 个簇,再对每个簇独立运行 GCFExplainer 生成候选集,最后合并所有簇的候选集并贪心总结;
    • 性能优势:实验显示,在 4 个数据集的 3 个中,K-GCFExplainer 性能优于原始 GCFExplainer,且支持 “分簇并行计算”,大幅提升对大规模数据集的处理效率(scalability)。

 

 

 

http://www.rkmt.cn/news/141.html

相关文章:

  • Spring Boot 笔记
  • 使用通义灵码快速生成换装、瘦身程序 #Qwen3-Coder挑战赛# - yi
  • 软件工程第一次作业-tanglei
  • xtrabackup 8.0日常管理
  • 从KPI管理转向更困难的OKR管理的企业都在想什么
  • Day03 课程
  • 【Python】使用matplotlib绘图,显示中文字符。
  • Linux服务器中代码仓库(gitea+drone)搭建
  • IK Multimedia TONEX MAX 1.10.2 逼真音色建模
  • 重塑云上 AI 应用“运行时”,函数计算进化之路
  • 一客一策:Data Agent 如何重构大模型时代的智能营销?
  • MySQL函数
  • 工业主板:工业自动化与智能设备的强大心脏
  • 2025网络赛1 C、D
  • 【URP】Unity Shader Tags
  • 存储器的性能指标 计算机组成原理第三章
  • idea gitee 更新已取消 解决方案
  • 历年 CSP-J/S 数学类真题知识点整理
  • Log4j2 CVE-2021-44228 漏洞复现
  • TeX 的 ctex 宏包的基本用法
  • 原子操作并不能保证数值的准确与一致性
  • mybatis-plus引入
  • 79、制作表头不能用合并后居中
  • 01bfs 对 dij最短路的优化,以及一些易错点
  • 数据结构与算法-21.堆-排序
  • 学习笔记-安全概述
  • Adobe Animate CC2018安装包下载与安装教程
  • 完整教程:以数据与自动化驱动实验室变革:智能化管理整体规划
  • 软件工程第一次作业
  • Windows11新系统激活设置PIN码步骤转圈