有机化学真的在指数增长吗?数据告诉你另一个故事
「每年发表数千篇新反应文献,有机化学真的在爆发式增长?」——这可能是过去十年化学界最常见的一句误解。当我们将数千万条具体反应拆解为反应类型后,一幅截然不同的图景浮现出来。
标签:有机合成 | 化学信息学 | 反应模板 | 数据质量 | AI 合成规划
一个被误读的「指数增长」
2005 年,Grzybowski 团队在Angewandte Chemie发表了一篇开创性论文,首次从网络视角分析有机化学的演化:所有已知的分子和反应构成了一个**「有机化学网络」(Network of Organic Chemistry, NOC),其节点为分子,边为反应。研究发现,这个网络呈无标度分布,分子数量和反应连接数随时间呈指数级增长**。
这一结论此后被广泛引用,甚至演化为一种乐观论调:「有机化学知识增长如此之快,只有纯数据驱动的 AI 系统才能跟上节奏。」但这里存在一个关键的逻辑漏洞——
具体反应实例 ≠ 新反应类型。
每年发表的数千篇文献中,大量反应只是已有反应类型的重复应用:不同的底物、不同的取代基、不同的保护基组合……这些都算「新反应」,但本质上仍然是酯化反应、酰胺键形成、Suzuki 偶联等早已成熟的化学变换。真正全新的反应类型/反应方法学的增长速度,远不如想象中那么快。
如何定义「反应类型」?
要对反
