当前位置: 首页 > news >正文

中介与交互作用分析【9天实用统计学公益训练营Day6-1】

关注公众号的朋友都知道,郑老师我之前连续4年开设了“30天学会医学统计学”,从理论到实操,一步一步教会大家统计学、SPSS课程。

2026年,我们对这门课程进行全新升级!课程时间大幅度缩短,内容大幅度提升!

我称为:9天实用医学统计学公益训练营。

课程介绍:“9天实用医学统计学”公益训练营即将启动,更高效、更高级的统计课

本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课!不是骗人入坑收费的广告。本课程公益视频课定期开课,欢迎您参与学习。

欢迎报名

本公众号“医学论文与统计分析”,后台回复“报名”,加入微信学习群吧。

Day 6-1 中介分析

本章节主要介绍的是“中介作用”与“交互作用”分析。这两块内容一般来说并不是医学数据分析的主角,往往起到的是辅助性的作用,在医学论文里通常是锦上添花。

但在某些特定场合,它们的作用非常大。

  • 例如在护理研究中,我们经常用到中介作用分析;在临床数据分析中,我们经常开展的亚组分析,就属于交互作用分析的范畴。

因此,本章节将花较短的时间,把这两块内容合在一起分别做介绍。

中介作用分析

我们先来了解一下中介变量的定义,以及它与混杂变量的区别。

所谓的中介变量,我想很多人都明白。当我们探讨暴露因素导致疾病发生发展的过程时,有些变量会起到一个中介的作用。

  • 比如说吸烟导致心脏病的发生,那么可能吸烟会先引发高血压,再导致心脏病;

  • 再比如吸烟导致肺癌,那么吸烟可能先产生慢阻肺(COPD),再产生肺癌。

这里的“高血压”和“慢阻肺”都不是混杂因素,但它们又是我们流行病学病因推断中必须排除、必须考虑的,尤其在统计建模的时候,是必须妥善处理的一类外部因子,这就是中介变量

暴露因素(X)对结果(Y)的产生,有些是直接的影响,叫直接作用;有些是间接的影响,叫间接作用

比如X通过M产生的叫间接作用,而X对Y直接作用,就不通过M来发挥作用。因此,暴露因素对结果的作用,在本章节来看有两条路径。

那么中间变量跟混杂变量的区别呢?

我想大家也比较清楚。混杂变量与X有关,又与Y有因果关系,但它不是M;如果是M的话,它就是中间变量。

所以大家要学会区别中间变量跟混杂变量。

特别注意!!

这两种变量有时候是很难区分的,因为从数据层面来看,它们对暴露因素与结局的关联性(比如HR或OR值)都会有干扰。而且,我们很难通过统计学方法去区分谁是中介、谁是混杂。

一般情况下,这需要从专业领域知识、文献知识以及以往的理论知识来做出判定。这是开展因果推断必须要思考的必要过程。如果你不好好思考,把它搞混了,那么结果就会出错。

  • 比如,如果我们有混杂因素,在回归分析时纳入混杂因素,的确可以控制混杂偏倚。

  • 但是,如果我们把中介变量与暴露因素一起纳入构建一个多因素回归模型,就会扭曲暴露因素的作用

大家注意,暴露因素(X)对结果(Y)的总效应,是直接作用和间接作用两条路径加起来的总和。

  • 但如果这个时候,你把中间变量放进模型,那么间接的这条路径就被“阻断”了,剩下的X对Y的作用就只剩下直接作用。这样算出来的直接作用是不充分的,结果是有问题的。

因此,你必须要学会从专业领域知识出发,很形象地展现X对Y的作用。

这种形象化的展现,我之前讲过可以用DAG(有向无环图)这个工具。

  • 当然,必须跟你们说,DAG本身也不能自动区分谁是中介、谁是混杂,都需要自己有一定的专业知识来判定。

当你能够分析出混杂和中介之后:

如果是混杂因素,我们在回归的时候就会纳入混杂变量,把它控制掉;

如果是中介变量,那有两种状况:

  • 如果你只是分析暴露因素的总效应,那么中介变量千万不要放到模型里,否则会扭曲暴露因素与结果的关联性;

  • 如果你想分析中介效应,那就要考虑专门的中介效应分析方案。

如果你不讨论中介效应,就千万不要把中介变量放入到模型里。

√传统中介分析:乘积法

现在我们来了解一下传统中介分析方法--“乘积法”的分析步骤,主要分为四步:

第一步:建立X与Y的关系,计算X的总效应(系数为c)。

第二步:看自变量与中介变量的关系,构建模型,算出a,即X对中介变量(M)的作用。

第三步:同时把X和M纳入模型,此时算出的有两个效应:一个是X对Y的直接效应(系数为c'),另一个是M对Y的作用(系数为b)。

第四步:计算中介效应。中介效应就是a乘以b,中介效应占总效应的比例就是(a*b)/c

我们把这个示意图展示一下:

  • X对Y的总效应是c;

  • X对Y的直接效应是c';

  • X对M的作用是a;

  • M对Y的作用是b。

那么a乘以b就是我们的中介效应(间接效应)。a乘以b加上c'就是总效应c。

所以,你想知道中介效应占比,那就是a乘以b除以c。

案例:血清中Klotho与糖尿病肾病的关系,以全身炎症指数为中介

我们还是拿之前讲过的文章举例,研究血清中某些指标含量与死亡的关系,以全身免疫炎症指数(SII)作为中介。

首先,我们可以分析X对Y的总效应,因为其结局是生存时间,我们构建Cox回归模型,得到的回归系数或者HR反映的是c,即总效应。

其次,要评价暴露因素对中介(SII)的作用,即X对M的作用才是a,我们也可以构建回归模型,回归系数Beta就是我们想要的结果。

然后,我们分析X对Y的直接作用(c'),这个时候模型里面加入了中介变量,当模型加入了中介变量,X对Y的作用只剩下直接作用。

此外,我们还能得到中介变量对Y的作用(b)。

因此,我们就可以得到a、b、c和c'。

我们把回归系数a乘以b,这就是我们的间接作用,也就是中介作用。

  • 比如总效应c等于0.07,那意味着中介变量参与的中介作用在总效应的比重就是7%。

这里的算法,我们风暴统计平台没有额外提供特殊的黑箱操作,一般就是用传统的乘积法,结合Bootstrap法(自助法),可以获得中介效应占比的95%置信区间。

√自然中介效应(Natural Effects)

接下来,我们讲讲现在流行的做法,叫“自然中介效应”

我们刚才讲的是传统方法,即路径系数乘积法,一般通过回归系数a乘以b来估计中介效应。

  • 它隐含的假设是所有的变量都是线性的、无交互的。

  • 在复杂的模型中存在交互或者非线性的情况下,传统方法可能会有偏倚。

而“自然中介效应”是在反事实框架下得到的--它通过比较同一个体在不同反事实情境下的潜在结果,做一个差异来定义效应。

反事实框架如何与中介效应结合?

各位,我们之前讲过反事实框架,通过反事实会得到一个事实人群跟反事实人群两组之间的差别,这就是我们说的效应。

同样,我们要评价中介效应,也可以通过比较事实人群跟反事实人群的差别,这样得到的中介效应就叫自然中介效应,或者说自然直接效应和自然间接效应。

  • 这种反事实框架下的自然效应,不依赖特定的模型形式,甚至不依赖特定的关系,有些时候X跟Y没有线性关系也是没问题的。

“受控效应”的概念

我们再来说一下,我们传统的中介效应叫“受控效应”,也就是将中介变量强制固定为某一个特定值,然后讨论X对Y的影响。

这种回归方法就是传统的乘积法,利用回归方法算出的中介效应就是受控效应分析。

这是一种干预情境下的一个效应,不一定自然发生,所以我们叫受控效应。

“自然效应”的概念

所谓的“自然效应”呢,强调了一个关键理念:中介变量被设定为其在自然状况下出现的一个值。

在自然情况下你是怎么样子的,那我们找到一个反事实的状态下,然后比较一下出来的结果,那就是很真实的了。

所以,自然效应就是让中介变量取反事实状态下的自然值,通过比较事实跟反事实下的两种结果之间的差值,就可以计算出自然中介效应。

这个概念理解起来是有点难的,在一般情况下你可以先忽略,你可以把它等同于在反事实框架下计算的中介效应。

“自然间接效应(NIE)”的概念

这里就有“自然间接效应(NIE)”,它衡量的是中介变量所传导的效应。

这里的反事实定义是:如果保持暴露因素不变,将中间变量改变为“有暴露”和“无暴露”两种互为反事实的状态,它们之间结局的差异,就是自然间接效应(即中介效应)。

我们同时可以理解为:当所有人都接受暴露,但是将其中介变量人为地设置为未暴露的时候,结局就会发生什么变化?

“自然直接效应(NDE)”的概念

“自然直接效应(NDE)”是另外一个东西,是我们讲的暴露因素的直接效应,衡量暴露因素直接影响结局的效应。

它的反事实状态就是:保持中介变量不变,比较“有暴露”和“无暴露”两种反事实状态下的结局差异性。

  • 比如说,如果所有人的中介变量都固定为未暴露时,我们施加暴露和未暴露,这两者之间两种潜在结果的差别,就是我们的自然直接效应。

大家可以想象一下,假如中间变量不变,那么在这种情况下,暴露因素的事实人群跟反事实人群的比较,不就是我们讲的直接效应吗?

反正,自然直接效应跟自然间接效应都是反事实框架下的产物。大家其实不需要死记硬背去理解它,但现在这种研究中介效应是比较时髦的。

像R语言大部分的中介效应的包,分析的都是自然直接效应和间接作用。

比如说现在这个自然中介作用,比如我们传统的mediation包,它产生的中介效应也就是反事实框架下的自然中介效应。

但现在更加完善的一个包叫CMAverse,这个包是我比较推荐的,我们风暴统计平台用的也是这个包。

  • 那么它就可以得到自然直接效应、自然间接效应,还有中介效应占比,这三个是最重要的。

它这个得到的效应就是HR值。

√传统回归中介vs自然中介

所以,我们可以再总结一下传统回归中介跟自然中介的区别:

传统的回归中介:用路径系数法,通过路径系数乘积,一般需要严格的模型假设,比如有线性关系、不能有交互。我们得出的作用名词叫“间接效应”跟“直接效应”。

反事实框架下的自然效应:我们的理论基础是潜在结果反事实。

  • 通过比较两种不同的潜在结果,可以产生我们想要的结果。

  • 它对不同的情景下,包括线性、非线性、有交互、无交互的情景下都是适用的,所以它更灵活,是比较在因果推断中也比较推崇的。

  • 所以它产生的效应,名词叫“自然间接作用”“自然直接作用”

今后大家看到这两个名词,应该能够条件反射地理解出来,它的中介效应是基于什么样的理论基础来开展的。

反正现在总体来说,我研究过这么多包,我觉得多数主要是基于自然效应的理论模式与模型,基于反事实框架下去计算自然间接作用和自然直接作用。

最后提醒:要学习本推文的完全对应的课程视频,请发送关键词“报名”至公众号,加入高校公益免费课程群来学习吧

关于郑老师团队及公众号

全国较大的医学统计服务平台,专注于医学生、医护工作者学术研究统计支持

郑老师团队可以提供诸多统计支持:

各式统计课程、临床试验设计

构建预测模型与真实世界研究

“双库”保发表训练营、医学数据库挖掘

详情联系助教小董咨询(微信号aq566665

http://www.rkmt.cn/news/1422245.html

相关文章:

  • 5分钟快速上手:Switch大气层系统终极安装指南
  • 艾尔登法环帧率解锁终极指南:如何突破60帧限制,畅享高刷游戏体验
  • 基于树莓派Pico W与热成像传感器的Roomba智能配送机器人改造指南
  • 3分钟解锁B站缓存视频:让珍藏内容重获自由的终极方案
  • 提升推理性能,大模型量化剪枝与多 GPU 并行训练策略
  • DIY便携暖风机:基于焦耳热效应与3D打印的迷你加热器制作指南
  • 保姆级教程:用1Password搞定GitHub强制2FA,附Recovery Codes保存指南
  • 3个思维转变:如何用PVE Tools重构你的虚拟化运维工作流?
  • 内容创作团队利用Taotoken多模型能力提升文案生成效率的实践
  • 庭审长录音转文字怎么选?从本地部署到云端工具的实测
  • MATLAB一键计算六区交通最短路线并生成带标注的可视化路径图
  • 华为路由器NAT配置保姆级教程:从Easy IP到地址池,手把手搞定内外网互通
  • 从“骨架跃迁”到“靶点预测”:药效团模型在新药发现中的3个实战应用场景解析
  • 新材料企业AI智能体平台服务商权威推荐名单,道可云上榜!
  • 汇编调试不求人:一文吃透Debug所有核心命令(R/D/E/U/A/T/P/G实战详解)
  • 用80年代动画解码开源文化:模块化、许可证与社区治理的趣味类比
  • 电路设计与制作全流程:从原理图到PCB实战指南
  • Adobe-GenP 3.0:5分钟免费解锁Adobe全家桶的终极方案
  • 高校成绩预测实战包:联邦学习多算法PyTorch实现+Streamlit交互看板+真实/模拟双数据集
  • Lindy审计流程自动化上线倒计时:最后72小时必须完成的4层验证与3份签字确认清单
  • Lindy课程管理自动化升级路径(2024教育科技白皮书级方法论)
  • 电路设计入门:从欧姆定律到PCB实战,构建你的第一个LED闪烁器
  • 交通数据时序预测代码包:含LSTM、GRU及CNN混合模型训练与效果对比图
  • 告别手动拖拽!用这个Unity编辑器扩展,一键搞定Substance Painter贴图与材质匹配
  • 基于Arduino与NRF24L01的智能车库门监控系统设计与实现
  • 2026 年 5 月海南公司注册代办哪家好?正规代理记账财税机构排名推荐top5 - 资讯速览
  • Win10搞不定新耳机?可能是UAC3.0的锅!一文讲清USB音频协议兼容性那些坑
  • Java 程序员第 40 阶段02:从零搭建 Java 大模型完整项目,开发环境搭建与工程初始化
  • 歌词滚动姬:5分钟制作专业LRC歌词的终极免费工具
  • 为你的 RTX 显卡找个好管家:在 Ubuntu 20.04 上优雅安装与管理 NVIDIA 驱动(附版本切换技巧)