1. 项目概述与核心挑战在计算催化领域我们这些从业者一直面临着一个经典的“精度-广度”权衡难题。密度泛函理论DFT计算是探索催化剂表面反应机理的黄金标准但其高昂的计算成本让我们在面对复杂的反应网络或大规模材料筛选时捉襟见肘。机器学习原子间势MLIPs的出现就像给这个领域装上了一台涡轮增压发动机——它通过学习海量的DFT数据能以百分之一甚至千分之一的成本快速预测原子系统的能量和受力从而让高通量筛选和长时间尺度的分子动力学模拟成为可能。然而这台“发动机”的燃料——训练数据——的质量直接决定了它的性能上限。过去几年像Open Catalyst 2020OC20这样的大型数据集极大地推动了通用MLIPs的发展但它们为了追求数据规模在计算精度上做了妥协。一个最关键的妥协就是自旋极化的缺失。对于氨合成、费托合成这些依赖铁、钴、镍等第一行过渡金属的关键工业催化过程自旋极化对吸附能和反应能垒的影响是决定性的。忽略它就像试图用黑白照片去理解彩色世界的细节模型在预测这些磁性材料的催化性能时其可靠性会大打折扣。AQCat25项目的诞生正是为了填补这个关键缺口。它不是一个替代品而是一个强有力的补充。这个数据集包含了1350万个高保真度的DFT单点计算明确为12种关键磁性元素如Fe, Co, Ni, Cr等启用了自旋极化计算并将平面波截断能提高到了500 eV。更重要的是它引入了OC20中未包含的6种新元素Li, Ba, La, Ce, Mg, F并包含了20种过渡态吸附物构型极大地扩展了模型的化学空间。但真正的挑战从这里才开始。我们手头现在有两套“语言”不同的数据OC20低保真度无自旋和AQCat25高保真度有自旋。简单地用新数据去微调Fine-tune一个在OC20上预训练好的模型会导致灾难性的遗忘——模型很快会“忘记”如何在广阔的OC20化学空间中进行预测。我们的核心任务就是设计一种策略让一个单一的MLIP模型能够流利地“说”这两种语言既能精准处理自旋极化系统的高保真物理又不丢失其原有的广泛泛化能力。这本质上是一个多保真度、多物理机制的模型适应问题。2. 核心方案多保真度联合训练与条件化架构面对混合数据集的挑战我们探索了多种模型适应策略最终确立了一套行之有效的方案。其核心思想不是让模型在两种数据分布之间“二选一”而是教会它根据输入系统的物理上下文动态调整其内部的“思维模式”。2.1 从灾难性遗忘到协同学习训练策略演进我们首先尝试了最直接的直接微调策略拿一个在OC20上训练好的EquiformerV2模型直接在AQCat25数据上继续训练。结果如图5所示模型在AQCat25测试集上的性能确实得到了提升力MAE从~100 meV/Å降至~18 meV/Å但代价是在OC20验证集上的性能出现了严重滑坡能量MAE从~300 meV激增至~440 meV。这清晰地展示了灾难性遗忘——模型为了适应新的、分布不同的数据覆盖了之前学到的知识。为了解决这个问题我们转向了联合训练策略。具体来说我们主要比较了两种方法联合微调从OC20预训练模型开始在每一个训练批次中同时混合来自AQCat25和OC20的数据进行训练。OC20数据在这里充当了“记忆锚点”防止模型遗忘旧知识。从头开始联合训练不依赖任何预训练权重直接用混合的AQCat25和OC20数据初始化并训练一个新模型。实验表明图6两种联合策略都能有效缓解性能漂移。随着混合数据中OC20比例的增加模型在OC20验证集上的性能逐渐回归基线。一个经济高效的平衡点是使用200万2M个OC20样本进行联合微调这能以较低的计算成本在保持AQCat25性能的同时最大程度地保留OC20的泛化能力。然而联合训练引入了一个新问题模型必须同时处理来自不同保真度高/低和不同物理机制自旋开/关的数据。这就像让一个学生同时学习两套略有矛盾的教材如果不加以区分学习过程会产生干扰。2.2 架构创新引入FiLM进行显式条件化为了让模型能区分不同的数据“语境”我们借鉴了计算机视觉中的特征线性调制技术。FiLM的核心思想很简单但非常有效它根据输入的条件信息这里是“自旋状态”和“保真度等级”两个二元标签生成一组缩放和平移参数对神经网络中间层的特征进行逐通道的仿射变换。在我们的实现中图2我们将“自旋开/关”和“高/低保真”这两个上下文标签编码为嵌入向量通过一个小型多层感知机MLP处理输出一个调制向量β。这个β向量被加到EquiformerV2模型每一层的标量通道特征上。你可以把它理解为给模型增加了一个“情景开关”。当模型处理一个自旋极化、高保真的铁表面吸附系统时FiLM模块会生成一组特定的β微妙地调整网络内部的特征表达使其切换到处理这类系统的最佳“模式”而当处理一个无自旋、低保真的铜表面系统时又会切换到另一组参数。这种显式的条件化带来了显著的好处。从图6的结果可以看到在联合训练中引入FiLM模块的模型EV2-inFiLM, EV2-inmidFiLM相比普通的EV2模型在AQCat25测试集上的力预测精度有稳定提升尤其是在混合了OC20数据时能有效避免性能下降。这表明FiLM成功地将不同物理域的知识进行了隔离和协调减少了梯度冲突让模型能更和谐地“消化”混合数据集。实操心得条件化标签的设计在设计FiLM的输入条件时我们最初尝试了更复杂的编码如具体的截断能数值或自旋多重度。但最终发现简单的二元标签是/否在效果和稳定性上是最好的。这提醒我们在将物理先验注入模型时并非信息越详细越好关键在于找到最能区分数据分布本质特征的那个抽象维度。二元标签抓住了“计算设置是否包含关键物理效应”这一核心足以引导模型建立正确的映射。3. 数据集构建的权衡与优化实战构建一个用于训练基础模型的大规模数据集永远是在计算成本、化学多样性和数据质量之间走钢丝。AQCat25的构建过程充满了这类工程权衡其中一些经验教训对任何想构建类似数据集的人都极具参考价值。3.1 采样策略如何在有限预算下捕获最大信息量我们最初为每个材料表面slab生成了4个不同的吸附物-表面松弛轨迹目的是在固定计算预算下增加构型多样性。但事后分析表明这并非最优选择。如图4b-e所示模型的性能提升与数据集中独立材料表面的数量强相关。在从250个表面增加到1000个表面的过程中性能提升显著但从4000个增加到10000个时就进入了收益递减区域。这背后的逻辑是对于吸附能模型学习不同材料的表面特性如晶格常数、电子结构比学习同一个表面上吸附物的细微位置变化更重要。后者在单个松弛轨迹的前几十步中已经得到了充分采样。因此我们得到的核心教训是对于旨在训练通用MLIP的数据集应优先保证材料空间的度而非单个系统构型的深度。在未来的项目中我们会选择为每个表面只计算一个吸附物-表面组合把省下的计算资源用于探索更多样化的材料。3.2 计算截断用80%的成本换取95%的收益DFT松弛计算通常需要迭代数百步直至收敛每一步都是一次昂贵的单点计算。我们深入分析了“只计算松弛轨迹前k步”这一策略的性价比图4e。结果令人振奋仅计算前40-80帧而非完整的800帧就能以约20%的计算成本获得接近使用全轨迹训练模型95%的性能。这是因为松弛过程早期高受力状态的帧包含了关于势能面曲率的最丰富信息对训练力预测模型至关重要。而后期接近平衡的低受力帧虽然对精确确定最小能量有用但其信息密度较低存在大量冗余。对于总能量模型这个策略的优势更加明显因为它完全不需要计算裸表面的松弛能量作为参考。我们的建议是在设计以模型微调或训练总能量模型为目标的数据集时主动截断长松弛轨迹是最高效的成本控制手段。3.3 数据清洗与陷阱警惕“有机材料”这个异类在模型评估中我们发现了一个性能异常差的子类完全由非金属元素H, O, N, C, S, P, F, Cl, Br, I, Se组成的“有机”材料系统。如图8所示这类系统的能量预测误差远高于其他材料类型金属、类金属等。问题根源在于吸附能的计算方式E_ads E_slabads - E_slab。对于金属或刚性材料松弛后的裸表面结构E_slab相对稳定。但有机材料表面柔软在吸附物存在下可能发生显著重构导致轨迹中E_slabads对应的表面结构与单独松弛得到的E_slab参考结构差异巨大。这种“参考失配”引入了巨大的误差。避坑指南吸附能模型的局限性这个案例清晰地暴露了吸附能模型在处理柔性体系时的固有缺陷。如果你的研究涉及有机框架、聚合物或生物分子界面强烈建议优先选择或开发总能量模型。总能量模型直接预测系统的绝对能量无需依赖一个可能不匹配的参考态从根本上避免了这个问题。在AQCat25中我们最终在分析时将这类有机材料单独剔除以避免其巨大的误差掩盖模型在其他材料上的真实性能趋势。4. 模型训练、评估与结果深度解析有了高质量的数据和正确的架构训练过程的细节和评估方式同样决定了最终模型的成败。我们在此分享从超参数选择到评估指标设计的全流程经验。4.1 训练配置与超参数选择我们基于EquiformerV2架构进行实验主要对比了3100万参数31M和1.53亿参数153M两种模型规模。所有训练均使用AdamW优化器权重衰减设为1e-3。一个关键的超参数是损失函数中能量项与力项的权重比λE : λF。我们发现在直接微调AQCat25时增大能量损失的权重λE100能显著提升能量预测精度见表6但这通常会导致力预测精度的小幅下降。在联合训练中我们采用了更平衡的λE : λF 4 : 100比例以保持模型在力和能量预测上的综合性能。对于学习率从头训练时我们设置得较高4e-4而对于微调任务则采用较低的学习率7e-5或8e-5以防破坏预训练模型中已有的宝贵知识。所有训练都采用了带线性热身的余弦退火调度并使用指数移动平均来平滑模型权重获得更稳定的最终检查点。4.2 超越平均误差分片评估揭示系统性偏差仅仅报告整个测试集上的平均绝对误差MAE会掩盖很多重要信息。我们进行了深入的分片评估按材料类型、元素新旧是否在OC20中出现过和自旋处理对结果进行拆解图8。这些分析带来了关键洞察自旋处理的代价在所有模型和训练策略下自旋开启系统的预测误差 consistently 高于自旋关闭系统。这符合预期因为自旋极化引入了额外的物理复杂性且训练数据中自旋开启样本的比例相对较低。引入FiLM条件化后自旋开启系统的性能提升尤为明显证明了其有效性。新旧元素泛化包含AQCat25新元素的系统其预测误差普遍高于全部由OC20老元素构成的系统。这说明模型对于训练数据分布外的元素组合其泛化能力仍有待提高。联合训练策略特别是结合FiLM有助于缩小这一差距。材料类型差异模型对金属系统的预测最为准确其次是类金属对纯非金属系统的预测误差最大。这延续了OC20数据集中的已知趋势可能与金属表面更规整的电子结构和更强的吸附作用有关。4.3 终极考验全局最小吸附能搜索对于催化应用而言模型在松弛轨迹上的平均误差固然重要但其找到给定吸附物-表面组合的全局最小吸附构型的能力更为关键。我们构建了一个小型密集数据集109个组合每个50个初始吸附位点来模拟真实的催化剂筛选任务。我们使用训练好的MLIP直接进行结构松弛无需DFT单点修正然后与DFT计算得到的全局最小值进行比较。结果图7令人鼓舞从头开始联合训练并加入FiLM条件的31M参数模型其成功找到与DFT结果相差在0.1 eV以内的全局最小构型的成功率达到了约70%显著优于直接微调的模型约65%更远超原始OC20预训练模型约60%。这个下游任务的性能与模型在标准验证集上的能量MAE趋势一致证明了我们的训练目标和评估指标是有效的。4.4 模型选择指南效率与性能的平衡综合所有实验结果表2我们可以给出一些实用的模型选择建议追求最佳性能如果你需要最好的绝对精度且计算资源充足从头开始联合训练的大模型153M参数是首选。结合FiLM条件化和大量OC20数据20M它能达到当前技术下的最优性能。兼顾效率与通用性对于大多数应用场景基于31M参数模型进行联合微调是一个性价比极高的选择。使用2M OC20数据进行回放replay训练并加入FiLM条件化能以最小的计算开销获得一个在AQCat25新域和OC20旧域上都表现稳健的模型。快速原型与特定域应用如果你的目标完全集中在自旋极化催化系统且不关心模型在传统非磁性材料上的表现那么直接在AQCat25上微调一个预训练模型是最快的方法。只需警惕其严重的领域遗忘问题。5. 常见问题、排查与未来方向在实际部署和使用这些多保真度MLIP模型的过程中我们遇到并总结了一系列典型问题及其解决方案。5.1 模型部署与推理中的典型问题问题1如何为新的输入结构设置正确的条件化标签自旋/保真度这是使用FiLM类模型的第一步也是最容易出错的一步。我们的规则是自旋标签如果系统中包含Ce, Co, Cr, Cu, Fe, Mn, Mo, Ni, Os, Ru, V, W中的任何一种元素则设置为“自旋开启”1否则为“自旋关闭”0。这是基于这些元素在催化条件下通常表现磁性。保真度标签如果输入结构的来源或预期精度与AQCat25数据集的高保真设置ENCUT500 eV, 高斯展宽0.1 eV相匹配则设置为“高保真”1。如果其设置更接近OC20ENCUT350 eV, Methfessel-Paxton展宽0.2 eV则设置为“低保真”0。一个常见的错误是对所有预测都使用“高保真”标签这可能导致对源自OC20风格数据的结构产生系统性偏差。问题2模型对某些元素或材料类型的预测出现巨大偏差Outliers。首先检查这些系统是否属于我们之前提到的“有机材料”类别。如果是吸附能模型的误差可能本就很大。其次检查是否包含了模型从未见过的新元素如La, Ba。虽然AQCat25引入了这些元素但数据量相对较少模型对其的泛化能力可能不足。解决方案对于关键应用考虑在目标元素或材料类型的小规模高精度数据上对模型进行额外的针对性微调。问题3联合训练模型的预测结果介于纯OC20模型和纯AQCat25模型之间感觉“不伦不类”。这正是多保真度模型的预期行为。它不是一个在某个单一域上性能极致的专家而是一个“通才”。它的优势在于稳健性和广泛适用性。如果你需要一个在特定、明确域内性能极致的模型那么专门用该域数据训练的单一模型仍是更好的选择。多保真度模型的价值在于当你需要处理来源混杂、物理设置不一的数据流时它能提供一个统一的、可靠的预测接口。5.2 性能调优与排查清单如果你的模型性能不及预期可以按照以下清单进行排查排查项可能原因检查与解决措施能量误差极大1. 参考态失配吸附能模型2. 条件化标签错误3. 输入结构存在物理不合理之处如原子过近1. 尝试切换为总能量模型或确保参考态计算与吸附态计算设置完全一致。2. 仔细核对自旋和保真度标签的设置逻辑。3. 使用ASE等工具检查原子间最小距离进行简单的几何优化。力预测不收敛1. 训练数据中高受力样本不足2. 损失函数中力权重过低1. 在数据集中增加“扰动”或分子动力学采样产生的高能态构型。2. 适当提高损失函数中力项的权重系数λF。在特定元素上表现差该元素在训练数据中代表性不足或化学环境单一收集更多包含该元素在不同化学环境下的数据进行增量训练。训练过程不稳定1. 学习率过高2. 批次内数据分布差异过大1. 降低学习率并启用梯度裁剪。2. 尝试在批次内对来自不同保真度/自旋域的数据进行均衡采样。5.3 未来展望与进阶思考这项工作为构建下一代催化MLIPs开辟了几条清晰的路径迈向总能量模型我们的实验反复印证吸附能模型在应对表面重构时存在固有缺陷。未来的数据集构建和模型训练应优先考虑总能量模型范式。这将简化数据生成流程无需单独计算参考态并从根本上提升对柔性体系的预测能力。更精细的条件化与元数据目前我们只使用了自旋和保真度两个二元标签。未来可以探索引入更丰富的元数据作为条件例如近似交换相关泛函类型、伪势信息、甚至温度和压力让模型成为一个真正的“多物理场、多尺度”模拟器。动态架构与课程学习FiLM是一种静态条件化。更先进的思路是设计动态路由机制让模型能根据输入自动选择或组合不同的专家子网络。此外在训练中采用课程学习先让模型学习简单的低保真、无自旋数据再逐步引入复杂的高保真、自旋数据可能进一步提升学习效率和最终性能。不确定性量化对于催化筛选这类决策应用模型给出预测的置信度至关重要。未来的模型应集成不确定性量化模块能够指出哪些预测是可靠的哪些需要进一步的DFT计算验证。构建AQCat25和开发多保真度训练策略的过程让我深刻体会到在机器学习应用于科学计算的道路上高质量、有针对性的数据与灵巧的模型架构和训练策略同等重要。它不是一个简单的数据堆砌游戏而是一个需要深刻理解底层物理、仔细权衡工程限制、并持续迭代的系统工程。这套从数据构建到模型训练、评估、部署的完整经验希望能为同行们在开发下一代科学计算AI模型时提供一块坚实的垫脚石。