保姆级教程：用R语言mediation包搞定NHANES数据的中介效应分析（附完整代码）-尧图网站建设

📅 发布时间：2026/6/30 16:51:09

零基础掌握NHANES数据中介分析：R语言mediation包全流程实战

第一次接触NHANES数据的中介效应分析时，我被复杂的抽样设计和权重处理搞得晕头转向。记得当时为了赶一篇关于环境暴露与健康结局的论文，连续三天卡在R报错上——直到发现mediation包能完美解决加权数据分析的问题。这份教程将带你完整走一遍从数据清洗到结果可视化的全流程，包含我踩过的坑和验证过的解决方案。

1. 环境准备与数据加载

工欲善其事，必先利其器。在开始分析前，我们需要配置好R环境和NHANES数据。不同于普通数据集，NHANES的特殊性在于其复杂抽样设计，这要求我们在每个分析步骤中都考虑权重问题。

首先安装必要的包（如果尚未安装）：

install.packages(c("survey", "mediation", "mice", "ggplot2"))

加载NHANES数据时，必须同时载入抽样权重变量。以下代码演示如何从NHANES官网下载并预处理2017-2018周期的数据：

library(haven) nhanes_data <- read_xpt("https://wwwn.cdc.gov/Nchs/Nhanes/2017-2018/DEMO_J.XPT") health_data <- read_xpt("https://wwwn.cdc.gov/Nchs/Nhanes/2017-2018/BMX_J.XPT") merged_data <- merge(nhanes_data, health_data, by = "SEQN")

注意：NHANES数据通常需要合并多个文件，SEQN是唯一标识符。建议使用dplyr包的left_join进行高效合并。

处理缺失值时，链式方程多重插补（MICE）是高分论文的标配方法。以下代码演示如何处理含30%以上缺失的变量：

library(mice) # 删除缺失率>30%的变量 missing_threshold <- 0.3 missing_prop <- colMeans(is.na(merged_data)) vars_to_keep <- names(missing_prop[missing_prop <= missing_threshold]) filtered_data <- merged_data[, vars_to_keep] # 执行多重插补 imputed_data <- mice(filtered_data, m=5, maxit=50, method='pmm', seed=500) complete_data <- complete(imputed_data, 1)

2. 构建加权回归模型

中介分析的核心是建立三个关键模型：自变量→因变量（总效应）、自变量→中介变量、以及控制自变量后中介变量→因变量。对于NHANES数据，每个模型都需要整合抽样权重。

首先创建survey设计对象：

library(survey) nhanes_design <- svydesign( id = ~SDMVPSU, strata = ~SDMVSTRA, weights = ~WTINT2YR, nest = TRUE, data = complete_data )

假设我们研究环境污染物（X）通过炎症标志物（M）影响骨密度（Y）的路径，模型构建如下：

# 模型1：总效应（X→Y） model_total <- svyglm( BMD ~ VOC + age + gender + income, design = nhanes_design ) # 模型2：X→M路径 model_mediator <- svyglm( inflammation ~ VOC + age + gender + income, design = nhanes_design ) # 模型3：X+M→Y路径 model_outcome <- svyglm( BMD ~ inflammation + VOC + age + gender + income, design = nhanes_design )

关键点：所有模型必须使用相同的权重变量和设计结构，否则效应估计会出现偏差。

3. 实施中介分析

mediation包的优势在于它能无缝衔接survey对象。以下是执行加权中介分析的完整代码：

library(mediation) set.seed(123) # 保证结果可重复 mediation_result <- mediate( model.m = model_mediator, model.y = model_outcome, treat = "VOC", # 自变量 mediator = "inflammation", # 中介变量 boot = TRUE, # 使用bootstrap计算置信区间 sims = 1000, # 建议实际分析中设置≥5000 design = nhanes_design # 传递survey设计 )

结果解读重点关注几个关键指标：

ACME（Average Causal Mediation Effect）：中介效应平均值
ADE（Average Direct Effect）：直接效应
Prop. Mediated：中介效应占比

用summary()查看详细结果时，特别注意bootstrap置信区间是否包含0：

summary(mediation_result) # 输出示例： # Estimate 95% CI Lower 95% CI Upper p-value # ACME 0.0321 0.0112 0.0543 0.01 # ADE 0.0412 -0.0032 0.0856 0.07 # Prop. Mediated 0.4381 0.2132 0.7123 0.01

4. 结果可视化与报告撰写

将复杂的中介分析结果直观呈现是论文加分项。以下是三种专业级可视化方法：

1. 效应分解图（使用ggplot2）：

library(ggplot2) effects <- data.frame( Effect = c("Total", "Direct", "Indirect"), Estimate = c( mediation_result$tau.coef, mediation_result$z1, mediation_result$d1 ), CI_lower = c( mediation_result$tau.ci[1], mediation_result$z1.ci[1], mediation_result$d1.ci[1] ), CI_upper = c( mediation_result$tau.ci[2], mediation_result$z1.ci[2], mediation_result$d1.ci[2] ) ) ggplot(effects, aes(x=Effect, y=Estimate)) + geom_point(size=3) + geom_errorbar(aes(ymin=CI_lower, ymax=CI_upper), width=0.1) + labs(title="Mediation Effect Decomposition", y="Effect Size") + theme_minimal()

2. 路径系数图（建议使用semPlot包）：

library(semPlot) path_model <- ' # 直接路径 BMD ~ c*VOC + b*inflammation + age + gender + income # 中介路径 inflammation ~ a*VOC + age + gender + income ' semPaths( semPlotModel_lavaanModel(path_model), whatLabels = "est", layout = "tree", edge.label.cex = 1.2, sizeMan = 8 )

3. Bootstrap分布可视化：

plot(mediation_result, group.plots = TRUE)

在论文方法部分，应明确报告以下关键信息：

使用的R包及版本（mediation 4.5.0+）
权重变量名称及处理方式
Bootstrap次数和随机种子
完整模型公式
缺失数据处理方法

结果部分建议采用三线表呈现效应估计：

效应类型	估计值	95% CI	P值
总效应	0.073	(0.032, 0.114)	<0.01
直接效应	0.041	(-0.003, 0.086)	0.07
中介效应	0.032	(0.011, 0.054)	0.01
中介占比	43.8%	(21.3%, 71.2%)	0.01

5. 高级技巧与疑难排解

实际分析中常遇到几个典型问题：

问题1：模型不收敛

检查变量尺度差异过大（如年龄和实验室指标）
对连续变量进行标准化处理：

complete_data$VOC_std <- scale(complete_data$VOC)

问题2：置信区间过宽

增加bootstrap次数（sims=5000+）
检查多重共线性：

car::vif(model_outcome)

问题3：处理分类中介变量当M为二分类变量时，需要设置binary.M = TRUE：

mediation_result <- mediate( model.m = glm(mediator_binary ~ X + covariates, family=binomial), model.y = svyglm(Y ~ M + X + covariates, design=design), treat = "X", mediator = "mediator_binary", binary.M = TRUE, sims = 1000 )

mediation vs mma包对比：

特性	mediation包	mma包
支持加权数据	是（通过survey）	否
计算速度	较快	较慢（尤其bootstrap）
多中介变量支持	需分层分析	原生支持
交互效应检测	手动设置	自动检测
结果可视化	基础图形	更丰富

对于NHANES数据，我强烈推荐mediation+survey组合，特别是在需要发表高质量论文的场景下。曾有个项目同时用两种方法分析，最终mediation的结果更稳定，审稿人也没有提出方法论质疑。