链接:简析基因 - EzyGene 生物信息分析平台
第一步:注册一个github网站
通过GitHub · Change is constant. GitHub keeps you ahead. · GitHub进入官网
找到右上角的sign up,点击后如下
按照要求依次填上相关信息,点击下面绿色框Create account完成注册
第二步:从OpenGWAS获取token信息
通过链接进入网站
点击API下面的API account & docs,进入如下界面
点击Sign in with Github,输入刚才注册的github账号后进入如下界面
找到Token界面,点击Reset后,在value一行显示出你的token,将其复制下来,得到你的token
第三步:打开简析基因官网,输入你得到的token
通过简析基因 - EzyGene 生物信息分析平台进入简析基因官网
在上方的云平台找到转录组
点击进入后,找到孟德尔随机化后,点击第一个基于eQTL数据库研究基因和疾病因果关系
进入后的界面如下:
在输入token上将原本的token删除,输入你自己刚才复制得到token
第四步:输入结局变量
打开 OpenGWAS 进入Gwas网站
在Datasets下点击Explore datasets,进入如下界面
以乳腺癌为例,我们想要搜索的结局变量是乳腺癌,那我们就在Trait这一列输入breast cancer 进行搜索,如图所示得到的都是乳腺癌的数据:
挑选我们所需要的那组乳腺癌数据,在前面找到它的编号,如ieu-a-1168,填写在结局变量一行中
第五步:在上传关注的基因集一栏中上传你所挑选出的基因
上传的基因文档如下图所示(文件使用TXT格式)
将文档上传后,在后续的选项中我们通常将筛选与暴露因素强相关的snp的p阈值设置为5*10^-8(0.00000005),点击提交得到结果
第六步:结果解读
按照上述操作后我们得到的结果可以在历史任务中看到结果
点击下载得到压缩包,打开压缩包得到结果,如图所示:
孟德尔随机化分析的森林图:
1.横轴(X轴):标注为“MR effect size for 'DBH' on 'Breast cancer'”,即“DBH对乳腺癌的孟德尔随机化效应量”。这个效应量通常是指基因预测的DBH水平每增加一个单位时,乳腺癌发生风险的对数比值比(log(OR))或β系数。横轴上的数值(图中显示范围为-0.2到0.2)表示效应量的大小——正值提示DBH水平升高可能增加乳腺癌风险,负值提示可能降低风险,0表示无因果效应。
2.中心参考线:在效应量为0的位置通常会有一条垂直的虚线(图中虽未明确画出,但标准森林图均有此线),它是无效线。如果某个研究估计值的置信区间跨过这条线,说明该估计在统计学上不显著(P>0.05)。
3.点估计(中央方块):图中应有一个方块或圆点,其位置对应横轴上的某个数值,代表本次MR分析得到的效应量点估计值(即最可能的真实效应大小)。方块的大小通常反映该估计值的精度(标准误越小,方块越大),但本图简化版可能未体现。
4.误差线(横线):穿过方块的横向线段代表95%置信区间(CI)。它的长度表示效应量估计的不确定性——线段越长,说明结果越不精确;若整条线段完全位于0的同一侧(全为正或全为负),则通常认为效应在统计学上显著(P<0.05)。
5.图中的具体数值:本例中,图下方只显示了“0.2 0.0 0.2”的刻度,表明横轴范围从-0.2到+0.2。您需要找到方块的中心位置(比如假设在0.05附近)及其置信区间(例如从-0.03到0.13)。如果该区间包含0,则不能认为DBH对乳腺癌有显著的因果效应;如果全部在0的右侧,则提示DBH升高可能增加乳腺癌风险。
6.标题信息:“Breast cancer (GWAS) || id:ieu-a-1168”指明了乳腺癌的遗传关联数据来源——这是来自公开GWAS数据库(如IEU OpenGWAS)的特定数据集,ID为ieu-a-1168,确保结果的溯源性和可重复性。
孟德尔随机化散点图:
这是一张孟德尔随机化(Mendelian Randomization, MR)散点图,用于评估原发性胆汁性胆管炎(PBC)与胃癌(Gastric cancer)之间是否存在遗传层面的因果关联。为了让您轻松看懂,我为您分步解读:
1. 这张图想回答什么问题?
它想探究:如果一个人携带了“易患胆汁性胆管炎”的基因变异,是否也会增加或降低他患胃癌的风险?(即 PBC 对胃癌是否具有因果推动作用)。
2. 坐标轴怎么看(每个点代表什么)?
- X 轴(横轴):表示每个工具变量(SNP)对“原发性胆汁性胆管炎”的遗传效应大小(即该基因让人更易得 PBC 的程度)。
- Y 轴(纵轴):表示同一个SNP 对“胃癌”的遗传效应大小。
- 图中的每一个小圆点:代表一个独立的 SNP(基因位点)。如果一个点在图中明显偏离中心,说明该基因同时影响两种疾病。
3. 图中的五条线(五种方法)怎么看?
图例中的五种颜色/线条(IVW、MR Egger、Weighted median 等)是五种不同的统计学回归模型。
- 核心看“斜率(倾斜度)”:如果线条呈明显向上的趋势(正斜率),说明“易患 PBC”的基因效应越大,患胃癌的风险也越高,提示 PBC增加胃癌风险;如果向下倾斜(负斜率),则提示 PBC降低胃癌风险;如果线条基本水平(斜率接近 0),则提示两者没有明确的因果关系。
- 主要参考 IVW(逆方差加权):图中通常将 IVW 作为主要结果(若标注为首位),它相当于综合所有 SNP 后给出的“最终平均因果效应”。
4. 如何快速判断结果是否可靠?
- 看所有点是否大致沿着某条线分布。如果五种方法的线方向高度一致(例如都是正斜率),说明结论稳健。
- 如果各条线方向互相冲突(例如 IVW 向上,MR Egger 向下),则说明可能存在基因多效性(即这些基因通过其他未知通路影响胃癌,导致结果不可靠)。