当前位置：首页 > news >正文

别再手动查文献了！用TCMSP+PubChem搞定中药成分收集，附Excel模板

news 2026/6/15 17:19:22

中药网络药理学研究的高效数据采集方法论

第一次接触网络药理学研究时，最让我头疼的就是中药化学成分的数据收集工作。记得当时为了完成一个简单的中药复方研究，整整花了两周时间在不同数据库和文献中反复查找、比对、整理数据，结果还因为格式不统一导致后续分析频频出错。这种低效的手工作业方式，在网络药理学这个需要处理海量数据的领域显得尤为不合时宜。

经过多个项目的实践，我总结出了一套标准化数据采集流程，能够将原本需要数周的工作压缩到几天内完成，且数据质量更高。这套方法的核心在于合理利用专业数据库的批量查询功能，配合经过优化的Excel模板，实现从原始文献到标准化化学信息的快速转换。下面将详细介绍如何运用TCMSP、PubChem等工具构建高效工作流。

1. 中药成分采集的三大数据源

网络药理学研究的第一步，也是最为基础性的工作，就是准确全面地收集中药化学成分信息。传统的手工文献查阅方式不仅效率低下，而且容易遗漏重要成分或产生数据格式混乱。现代研究应当充分利用以下三类数据源的组合优势：

1.1 专业数据库的批量查询

TCMSP数据库（Traditional Chinese Medicine Systems Pharmacology Database）是目前最常用的中药成分数据库之一。其优势在于：

提供中药成分的**类药性(DL)和口服生物利用度(OB)**等关键药代动力学参数
可直接导出成分的SMILES结构式和CAS登记号
关联了部分成分的已知靶点信息

典型查询流程示例：

访问TCMSP官网(https://old.tcmsp-e.com/)
在"Herb name"字段输入中药英文名（如"Angelica sinensis"）
设置筛选条件（建议OB≥30%且DL≥0.18）
导出全部结果到CSV格式

注意：TCMSP收录的中药拉丁名可能与《中国药典》不一致，建议先通过数据库的浏览功能确认准确名称。

对于TCMSP未收录或信息不全的中药，可以尝试以下补充数据库：

数据库名称	网址	主要特点
ETCM	http://www.tcmip.cn	包含中药-成分-靶点-疾病网络
BATMAN-TCM	http://bionet.ncpsb.org.cn	提供成分靶点预测功能
TCMID	http://www.megabionet.org/tcmid	收录复方配伍信息

1.2 文献数据的结构化提取

当数据库信息不足时，仍需借助文献检索补充成分信息。高效处理文献数据的关键在于：

建立标准化提取模板：预先设计包含所有必要字段的Excel表格
批量下载相关文献：利用CNKI、PubMed的高级检索功能
使用文献管理软件：如EndNote或Zotero进行去重和分类

我开发的Excel模板包含以下关键字段：

1. 编号（自动生成） 2. 中文名称（从文献提取） 3. 英文名称（优先使用IUPAC名） 4. CAS号（用于PubChem查询） 5. SMILES（结构式编码） 6. 分子量（用于后续筛选） 7. 来源文献（DOI或PMID）

1.3 实验数据的整合策略

对于通过LC-MS等实验手段新发现的成分，需要特别注意：

质谱数据需转换为标准分子式
新化合物应通过PubChem验证
建立内部编号系统与已知成分区分

实验数据与数据库信息的整合流程：

将实验得到的分子式输入PubChem
核对匹配结果中的结构信息
对全新化合物标注特殊标识
统一导入主成分列表

2. 化学成分信息的标准化处理

收集到原始成分数据后，标准化处理是保证后续分析质量的关键步骤。这个阶段常见的问题包括同物异名、结构重复和关键信息缺失等。

2.1 成分去重与合并

中药成分经常存在多种命名方式，需要通过技术手段识别实质相同的化合物。推荐的处理流程：

CAS号优先原则：具有唯一CAS号的成分直接合并
SMILES比对：对无CAS号的成分进行结构相似性比较
手动校验：对相似度高的成分进行人工确认

使用OpenBabel工具进行批量SMILES比对：

obabel -ismi input.smi -osmi -O output.smi --unique

2.2 关键信息的补充完善

对于缺少SMILES或CAS号的成分，可通过以下方式补充：

PubChem批量查询：
- 准备成分英文名称列表
- 使用PUG-REST API进行批量查询
- 解析返回的JSON数据提取所需字段

示例API调用：

import requests def get_cas_from_pubchem(compound_name): url = f"https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/name/{compound_name}/property/CAS/JSON" response = requests.get(url) if response.status_code == 200: return response.json()['PropertyTable']['Properties'][0]['CAS'] return None

化学结构转换工具：
- 对于只有分子式的成分，使用ChemDraw或MarvinSketch生成结构
- 导出为标准SMILES格式
- 通过InChIKey进行唯一性验证

2.3 数据质量验证

在进入下一步分析前，必须对数据集进行完整性检查：

必填字段验证：确保每个成分至少有1种标识符（CAS/SMILES/InChIKey）
结构有效性检查：使用RDKit等工具验证SMILES的化学合理性
来源追溯：记录每个成分的数据来源，便于后续核查

验证SMILES有效性的Python代码片段：

from rdkit import Chem def is_valid_smiles(smiles): mol = Chem.MolFromSmiles(smiles) return mol is not None

3. 从化学成分到靶点网络的构建

获得标准化的成分信息后，下一步是建立成分-靶点的关联网络。这一步骤将直接影响后续的PPI分析和通路富集结果。

3.1 靶点预测的多策略融合

不同数据库和预测工具各有侧重，建议采用组合策略提高靶点覆盖度：

数据库直接查询：
- TCMSP和ETCM中已有的实验验证靶点
- DrugBank中的已知药物-靶点对
计算预测方法：
- SwissTargetPrediction（基于2D相似性）
- PharmMapper（基于药效团匹配）
- SEA（相似性 ensemble approach）

各预测工具的特点比较：

工具名称	输入要求	优势	局限性
SwissTargetPrediction	SMILES	界面友好，结果直观	仅预测人类靶点
PharmMapper	3D结构文件	不受相似性限制	需要结构优化
SEA	SMILES	考虑多靶点协同	预测结果较宽泛

3.2 靶点数据的标准化处理

不同来源的靶点标识符需要统一为标准的Gene Symbol，处理步骤包括：

标识符转换：
- 使用UniProt的ID mapping工具
- 或DAVID基因功能分析工具的转换功能
物种过滤：
- 保留Homo sapiens的靶点
- 去除物种不符或未明确的条目
置信度筛选：
- 实验验证靶点优先保留
- 预测靶点根据多个工具的一致性进行筛选

批量UniProt ID转换示例：

import pandas as pd from bioservices import UniProt u = UniProt() mapping = u.mapping(fr="UniProtKB_AC-ID", to="Gene_Name", query="P12345,P67890")

3.3 网络构建与初步分析

使用Cytoscape构建成分-靶点网络时，建议：

节点属性完整：区分成分节点和靶点节点
边权重设置：根据关联强度（实验/预测）设置不同权重
拓扑分析：计算度中心性等关键指标

网络文件的基本结构示例：

source,target,interaction_type quercetin,PTGS2,inhibition kaempferol,AR,activation

4. 高效工作流的实现技巧

通过以下优化措施，可以进一步提升整个研究流程的效率：

4.1 自动化脚本的应用

针对重复性高的操作，可以开发小型自动化脚本：

文献数据提取：
- 使用Python的pdfminer库解析PDF文献
- 正则表达式匹配化学名称和CAS号
数据库批量查询：
- 利用各数据库提供的API接口
- 设置合理的请求间隔避免被封禁
数据清洗转换：
- OpenRefine工具处理混乱的命名
- Pandas库进行表格数据的合并与去重

4.2 质量控制的关键点

在整个流程中需要特别关注的质量控制环节：

成分收集阶段：确保覆盖主要活性成分，避免重要成分遗漏
靶点预测阶段：设置合理的置信度阈值，平衡假阳性和假阴性
网络分析阶段：检查核心靶点的生物学合理性

4.3 常见问题解决方案

在实际操作中经常遇到的问题及应对策略：

问题1：TCMSP查询不到目标中药
- 解决方案：检查拉丁名拼写，尝试同属不同种，或使用ETCM补充
问题2：PubChem中同分异构体难以区分
- 解决方案：结合文献报道的主要活性构型，或全部保留后续验证
问题3：不同预测工具的靶点结果差异大
- 解决方案：取多个工具的交集，或根据药理实验数据验证

经过多个项目的实践验证，这套方法能够将中药成分数据收集的时间缩短70%以上，且数据质量显著提高。关键在于建立标准化的工作流程，合理利用各种工具的批量处理功能，避免手工操作带来的误差和低效。

查看全文

http://www.rkmt.cn/news/1529893.html

跳出播放器思维，私有化视频会议平台EasyDSS一站式视频平台，重塑企业私有化融媒体/视频会议系统需求！

从操作细节看“ChatGPT品牌优化”：出海企业可以关注的五个方向

上海英国留学社科类面试网站：清晰指南重点技巧呈现 - 虚拟星辰

免费AI背景移除插件终极指南：OBS背景移除插件完整教程

MultiLogin终极指南：如何让正版与外置登录玩家在同一服务器畅玩

多维聚合实战：从OLAP立方体到实时流式聚合工程化

3分钟彻底优化Windows 11：Win11Debloat一键清理工具完全指南

淮北各区黄金回收价格实测六家正规店大盘减3-10元上门快 - 余生黄金回收

解锁音乐自由：3步掌握Unlock-Music音频解密终极指南

OpenCore Simplify：智能自动化黑苹果EFI配置解决方案

如何快速掌握STM32与LCD显示屏的完美组合：终极实战指南

宝珀官方维修服务中心｜2026年6月宝珀全国官方门店地址与售后热线电话汇总 - 资讯快报

【学术干货】多机器人协同与视觉-语言模型机器人操作：Science Robotics前沿论文解读

NLP数据契约驱动框架：可验证、可复用的数据基础设施

5分钟快速掌握Unity游戏去马赛克：六大智能插件完整指南

2026山西太原青少年成长矫正机构排名｜8 大正规封闭式网瘾厌学叛逆专门教育学校，家长择校必备 - 辛云教育资讯

匿名投票的小程序怎么做｜2026免费匿名投票工具推荐｜防刷投票教程｜校园企业评选模板 - 微信投票小程序

PowerQUICC III e500核心寄存器深度解析与嵌入式开发实践

2026南京名包磨损回收攻略｜边角磨损五金掉色划痕贬值、修复避坑与保值变现指南 - 开心测评

济南青岛燃气灶安装更换服务 - 简单到家专业上门 - 简单到家

终极指南：用FanControl打造Windows电脑静音散热系统

昆山美美超声仪器怎么样？2026年国内十大品牌实力排行榜TOP2 - 品牌推荐大师

别再用GUI点点点了！手把手教你用SUMO命令行+XML文件创建你的第一个仿真路网

华为OD机试真题新系统【进制转换后自定义排序】

六款真正离线可用的开源AI工具实测指南

告别图层导出噩梦：Photoshop批量导出插件拯救你的设计时间

2026芜湖屹东金属材料贸易有限公司行业竞品测评 - 百航

Whisper本地部署实战：中文语音转文字全流程指南

廊坊安次区卖黄金去哪儿？跑了五家店，终于把“无损耗、零扣费”的门道摸清了 - 行行星