当前位置: 首页 > news >正文

全球首个同时融合3类信息的生物医药标准化图谱格式

动机

多组学数据分析是精准医学科研发现的关键,但将组学分析结果转化为全新科研假说仍存在显著难题:领域专家需人工梳理海量关联生物医药先验知识以生成假说,该方式主观性强、难以规模化落地。大语言模型(LLM)可加速科研发现,但其推理性能依赖结构化、可溯源且完备的生物医药先验知识;而现有生物知识零散分布于海量异构数据库,各库命名体系不统一,难以整合为标准化资源支撑AI规模化解析,制约人工智能依托生物数据开展科学发现。

Fuhai.Li@wustl.edu

#生物医药 #知识图谱 #多组学 #实体匹配 #阿尔茨海默 #大模型 #可视化GUI

引言

图1 BioMedGraphica与现有主流生物医药知识图谱数据库对比

对比维度:生物实体完备性、实体文本注释/先验知识、多组学数据与文本知识映射能力

方法

BioMedGraphica数据源总述

图1 BioMedGraphica整体架构总览图

上图:多数据库实体数据整合流程;

下图:关联关系标准化与知识图谱构建流程;

中图:平台完整处理管线:基于用户输入完成实体识别、关系构建,输出适配AI建模的标准化图谱文件。

实体数据库收集与说明

表2 实体数据源信息汇总

收录数据库全称、对应实体类型、原始数据条目总量

关系数据库收集与说明

表3 关系数据源基础信息汇总

收录数据库全称、关联2端实体、边类型、原始关联条目数量;末列代表各数据库原始数据集总记录数

图2 BioMedGraphica整合实体与关联关系概览图

(A) 数据源与实体分布:左侧标注OMIM、HGNC、Ensembl等数据源,定义启动子、基因、转录本等11类实体;右侧柱状图为原始全量图谱(BMG)与去孤立节点连通图谱(BMGC)的实体数量对数刻度柱状图。

(B) 实体关联和弦图:不同色块代表各类实体,外圈刻度量化各类实体跨类型关联总边数,内部弦线表征实体间关联方向与规模,并标注各类关系编号(如R1:启动子-基因、R2:基因-转录本)与关键关联的边总量。

关联关系整合方案

表4 标准化后各类关联关系数据汇总

字段:关联类型、数据源、原始边数、匹配后唯一边数、整合最终总边数

结果

本研究开发一体化平台BioMedGraphica,整合43个数据库资源,涵盖11类实体、30种关联关系,构建统一文本先验知识图谱,包含2,306,921个实体与27,232,091条关联边。本文提出「文本-数值图(TNG)」 全新数据结构:文本信息承载转录起始位点、生物学功能、作用机制等先验知识,数值表征各类生物定量特征,依托图谱关联实现生物学机制挖掘。TNG打通先验知识库与用户自有实验数据,是构建新型图分析模型的优质标准化数据结构。

一体化生物医药文本先验知识图谱

表5 全量图谱与连通图谱各类实体数量统计

BMG = 原始全量BioMedGraphica图谱,BMGC = 剔除孤立节点的连通子图谱;表格统计各实体数量、占比、连通图谱实体在全量图谱中的占比。

表6 各类关联关系统计汇总

统计全量图谱/连通图谱各类关系的边数量与占比;启动子-基因为虚拟生成关系,数据分别标注2套图谱数值。

实体识别算法

图3 BioMedGraphica软件实体匹配与整体处理管线

(A) 双匹配策略原理:标准化ID实体采用精准硬匹配,疾病/药物/表型/暴露采用预训练大模型语义软匹配;

(B) 实体名称与用户特征名称嵌入空间示意图;

(C) 基于余弦相似度筛选候选匹配、人工确认生成映射字典;

(D) 多平台实体匹配性能对比柱状图;

(E) 平台全流程:用户文件导入→实体识别→匹配映射→关系筛选与节点自动补全→输出带文本注释的AI就绪图谱。

数据获取与平台实操演示

实例分析:基于BioMedGraphica构建文本-数值图

图4 BioMedGraphica网页端GUI界面及埃默里血管队列数据集实操

(A) 平台文件上传界面,支持上传4类输入文件用于TNG构建;

(B) 知识图谱可视化预览:高亮所选实体与关联,自动标注缺失实体类型并支持虚拟节点补充;

(C) 软匹配候选结果页面:展示候选BMG编号,需人工确认映射关系;

(D) 任务输出压缩包目录结构,内含图谱特征矩阵、实体-ID映射文件;详细操作教程参考项目README文档链接。

数据

附带使用教程、案例代码,项目源代码GitHub

https://github.com/FuhaiLiAiLab/BioMedGraphica

HuggingFace数据集仓库公开下载知识库数据集

https://huggingface.co/datasets/FuhaiLiAiLab/BioMedGraphica

官方网页在线试用

https://app.biomedgraphica.org

详细总结

思维导图

参考

Bioinformatics. 2026 Jun 5:btag355. doi: 10.1093/bioinformatics/btag355.

BioMedGraphica: An All-in-One Platform for Joint Textual Biomedical Prior Knowledge and Numeric Graph Generation

260605BioMedGraphica.pdf

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

http://www.rkmt.cn/news/1479940.html

相关文章:

  • 深入解析RMS有效值:从概念到电源噪声测量的工程实践
  • Windows触控板三指拖拽:如何用开源项目实现macOS级手势体验
  • 突破macOS限制:如何让10美元鼠标超越苹果触控板
  • FPGA开发工具演进:从Quartus II 7.1看EDA工具的核心技术与设计流程
  • AI与大模型新闻日报 | 2026-06-07
  • AICoverGen终极指南:5分钟将任何声音变成AI歌手
  • STM32中断优先级配置详解:从NVIC原理到实战避坑指南
  • 嵌入式开发实战:代码签名技术如何成为知识产权保护的利器
  • 京东自动化脚本终极指南:7天搭建全自动京豆获取系统
  • ‌高考,不是终点,是起点的加速器
  • 别再手动调间距了!用LaTeX subfigure宏包搞定多图排版(附完整代码)
  • 51单片机外部RAM时序实测:从理论到示波器波形分析
  • 工控电气元件选型实战:从型号解码到系统配置避坑指南
  • 从Wi-Fi滤波器到5G天线:品质因数Q值如何影响你每天用的无线设备性能?
  • MSP430F149定时器Timer_A深度解析:从原理到PWM与捕获实战
  • 51单片机驱动Nokia 5110液晶屏:从硬件电路到图形显示全解析
  • 硬件工程师实战指南:从接口到PCB的ESD系统防护设计
  • 别急着删缓存!遇到conda的InvalidArchiveError,先试试这三步排查法(附conda clean详解)
  • Altera Quartus浮动许可服务器部署实战:从原理到避坑指南
  • 51单片机驱动数码管:MAX7219芯片原理、驱动代码与电路设计详解
  • 宜宾市2026年上门黄金回收白银回收铂金回收测评,五家全城可上门实体店整理 - 干豆腐啊
  • 从木兰事件看技术研发:制度、人性与工程真实性的反思
  • 三线与四线PWM风扇拆解:从电路原理到选型实战
  • 从华强北到全球供应链:芯片分销的江湖、角色与工程师协作指南
  • PHP数据缓存策略与更新模式
  • 2026邢台黄金回收白银回收铂金回收怎么变现?实地探访 5 家本地老牌回收店铺 - 中安检金银铂钻回收
  • Quartus II 5.0在Windows系统安装与破解全攻略
  • 信阳黄金回收白银回收铂金回收去哪卖?5 家实地探访靠谱门店汇总 2026 - 中业金奢再生回收中心
  • 抖音视频下载终极指南:10分钟掌握douyin-downloader完整教程
  • 网络技术19-TLS/SSL握手协议——数据传输的“加密隧道“