开源、网页端、集成式小分子质谱鉴定
摘要
高分辨质谱(HRMS)是依托质谱图谱与大型化学数据库比对、实现小分子化合物去重的核心技术。但现有多数化学数据库对质谱数据处理、质荷比定向检索的支撑能力不足,难以满足化合物快速鉴定的需求。针对该问题,本研究搭建了整合型数据库OctoChemDB,该平台汇聚并标准化处理了PubChem、MassBank、GNPS等多个开源资源库的化学、生物及质谱图谱数据。本研究配套开发了表述性状态转移应用程序接口(REST API),支持外部工具与软件通过自定义参数对数据库进行程序化检索,也是研发人员将OctoChemDB数据接入自有分析流程与应用程序的核心入口。基于该接口,本团队搭建了网页应用,用户可依托该平台开展质荷比检索、分子式预测、同位素相似度评估、碎裂规律分析,同时获取相关文献与专利信息。该网页端直观展示了底层数据库与接口的实际应用效果,可显著提升小分子鉴定效率。本文通过3,4-亚甲二氧基甲基苯丙胺(MDMA)、咖啡因2个研究案例验证平台实用性,结果表明该平台可有效推导化合物结构假设、完成实验图谱与数据库标准图谱的匹配,并简化化合物去重分析流程。本项目所有内容(含源代码)均已开源,项目地址
https://github.com/cheminfo/octochemdb
访问地址
https://octochemdb.cheminfo.org/
luc.patiny@epfl.ch
#高分辨质谱 #小分子鉴定 #整合数据库 #REST接口 #化合物去重 #质谱图谱 #数据聚合
结果与讨论
开源数据库遴选
表1开源数据库整合概况
本表汇总了所选开源数据库信息,列明各数据库的入库条目数量及最新文献来源
开源数据库的同步与数据聚合
图1数据同步与聚合流程
数据同步阶段,插件每24小时自动检测外部数据库更新;下载更新数据后,通过「无立体异构-互变异构体统一标识(NoStereoTautomerID)」完成数据标准化。数据聚合阶段,将各类数据条目关联并整合为统一数据文档,同时参照美国国家生物技术信息中心(NCBI)标准完成物种分类数据归一化。整合后的数据库配套REST接口,可检索获取分子式、单同位素质量、专利、PubMed文献摘要等相关数据。
API检索与网页应用界面概述
图2 OctoChemDB首页界面——质谱数据处理入口
(1) 用户首先导入质谱图谱;
(2) 选取对应分子离子的单同位素质量;
(3) 系统根据用户自定义参数(元素范围、电离方式、质量精度)开展计算;
(4) 最终输出候选分子式列表。问号图标为用户帮助菜单;
(5) 点击问号按钮可直接查看平台使用说明文档;
(6) 结果导出功能支持将数据保存为JSON文件,或复制为制表符分隔表格,适配各类表格软件。
图3 OctoChemDB质谱库检索界面——基于碎裂规律拓展碎片离子分析
(1) 用户选取特征碎片峰;
(2) 设置质量精度、峰数量等参数;
(3) 点击按钮启动数据库检索;
(4) 检索结果按余弦相似度排序,可据此识别结构相似化合物的2级质谱图谱。
图4 OctoChemDB文献检索界面——检索PubChem中目标分子式对应的天然产物与生物活性化合物
(1) 选中化合物结构后,文献面板自动调取关联数据;
(2) 可查看该化合物的立体异构体与互变异构体;
(3) 点击链接可直接查阅PubMed文献摘要;
(4) 检索范围包含PubMed摘要、专利与生物活性实验数据。绿色数字代表单篇文献中涉及的化合物数量,便于用户筛选目标化合物相关度更高的文献。
详细总结
思维导图
数据源整合与数据规模
OctoChemDB整合了10个国际主流开放数据库,覆盖化学结构、质谱图谱、文献、专利、生物活性、物种分类6大类数据,2025年9月入库总条目规模:
参考
Anal Chem. 2026 Mar 3;98(8):6102-6108. doi: 10.1021/acs.analchem.5c06761.
OctoChemDB: An Aggregated Database for Small Molecule Identification Using High-Resolution MS Data
260216OctoChemDB.pdf
注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。
