当前位置：首页 > news >正文

破解MLIP跨域泛化难题：选择性正则化与域桥接策略

news 2026/5/25 13:40:16

1. 项目概述与核心挑战在计算材料科学和化学领域我们一直面临着一个核心矛盾量子力学级别的第一性原理计算如密度泛函理论DFT虽然精度高但计算成本极其昂贵只能处理数百个原子的体系而经典分子动力学MD或力场方法虽然能模拟百万原子但其精度和可移植性往往不足以描述复杂的化学反应和材料性质。机器学习原子间势Machine Learning Interatomic Potentials, MLIPs的出现正是为了解决这个“精度”与“尺度”不可兼得的难题。它通过学习海量DFT计算数据构建一个能够以接近DFT精度预测原子间相互作用力的神经网络模型从而将第一性原理的精度“平移”到大规模、长时间的原子模拟中。然而构建一个真正“通用”的MLIP远比想象中困难。理想中的通用MLIP应该像一个经验丰富的材料学家既能准确预测金属晶体的力学性能也能描述有机分子的构象变化还能模拟分子在催化剂表面的吸附过程。但现实是现有的许多所谓“通用”模型往往只是在特定化学域比如无机晶体或者有机小分子的数据集上表现良好一旦应用到训练数据未曾覆盖的“未知领域”预测精度就会急剧下降。这背后的根本原因在于数据的“异质性”和模型的“过拟合”。当前公开的大型DFT数据库如Materials ProjectMP、OC20催化剂表面、SPICE有机分子等它们各自聚焦于不同的材料体系晶体、表面、分子并且采用了不同的计算协议比如不同的交换关联泛函PBE, RPBE, ωB97M等、赝势、乃至是否添加色散修正如D3。这就导致每个数据库所描述的“势能面”Potential Energy Surface, PES——即体系能量随原子坐标变化的超曲面——在本质上存在系统性偏差。简单地将这些异构数据混在一起训练一个模型就像让一个学生同时学习用英式英语、美式英语和澳大利亚英语编写的不同学科的教材并且要求他用一种统一的语言来回答所有问题其结果很可能是任何一种口音都不纯正在跨领域问题上错误百出。因此本项目的核心目标就是解决这个“跨域知识迁移”的难题。我们不仅要让MLIP在它学过的领域分布内保持高精度更要让它能够将在一个领域学到的知识有效地迁移并应用到另一个未曾深入学习的领域分布外从而实现真正的、可靠的通用性。这不仅是提升MLIP实用性的关键也是加速跨化学域材料发现如新能源材料、异质结、生物-无机界面的必经之路。2. 核心思路多任务框架下的选择性正则化与域桥接面对异构数据带来的挑战直接混合训练的“蛮力”方法行不通。我们采用的策略是一种精心设计的“分而治之”与“协同学习”相结合的多任务学习框架。其核心思想可以概括为让模型学会“求同存异”。2.1 多任务学习框架的基本设定首先我们将每一个具有独特计算协议的数据集例如用PBE泛函计算的晶体数据MPtrj用ωB97M泛函计算的分子数据SPICE定义为一个独立的“任务”。模型的总参数被划分为两部分共享参数所有任务共同使用的参数。这部分参数的目标是学习所有材料体系中共通的、基础的物理化学规律比如化学键的共性、原子间相互作用的基本模式。任务特定参数每个任务独有的、一小部分参数。这部分参数就像一个“调音器”负责微调共享参数学习到的通用PES使其精确对齐到当前任务所对应的特定DFT计算协议所定义的PES上。模型的预测公式可以形式化地表示为E_T f(G; θ_shared, θ_T)。其中E_T是任务T的DFT参考能量G是原子构型f是MLIP模型θ_shared是共享参数θ_T是任务T的特定参数。这个框架的直觉是美好的共享参数捕捉共性任务参数适应个性。但在实际训练中我们发现了一个严重的问题任务特定参数容易“喧宾夺主”。2.2 过拟合与知识迁移的困境为什么需要正则化在训练初期共享参数是随机初始化的它对任何任务的预测都很差。此时模型有一个非常便捷的优化路径过度依赖任务特定参数。对于每个任务模型可以快速地将该任务的所有特性包括其DFT协议的系统性偏差都“塞进”其特定的参数里。这样模型在每个训练任务上的损失可以降得很低。但这带来了灾难性的后果共享参数学不到真正通用的知识。因为所有任务的“个性”都被各自的特定参数承担了共享参数变得无关紧要。最终模型变成了多个独立模型的松散组合失去了跨任务知识迁移的能力。当遇到一个需要结合晶体和分子知识的场景比如分子吸附在表面上时由于没有任务参数专门针对这个“混合域”而共享参数又没学到通用规律模型的预测就会失败。这就像一组翻译每人只精通一种方言却没人能说一口标准的普通话。当需要他们合作翻译一份混合了各种方言的文档时就会漏洞百出。2.3 选择性正则化约束“个性”强化“共性”为了解决上述问题我们引入了选择性L2正则化。具体来说我们在损失函数中对任务特定参数θ_T的L2范数即参数的平方和施加一个惩罚项。损失函数变为总损失预测损失 λ * ||θ_T||^2这里的λ是正则化强度系数。这个惩罚项的作用是限制任务特定参数的大小防止它们变得过大、过于复杂。注意我们选择性地只对任务特定参数进行正则化而不对共享参数做同样强度的约束。这是因为共享参数本身就需要足够的容量来学习复杂通用的表示过度约束会限制模型的表现力。我们的目标是压制“个性”的过度表达而非扼杀“共性”的学习能力。通过这项技术我们迫使模型在降低预测误差时必须更多地依赖共享参数θ_shared。共享参数因此被“逼着”去学习那些对所有任务都有效的、更本质的特征。任务特定参数则退居二线只负责做一些细微的、线性的校准工作。这样一来模型在不同任务间共享的知识共性就大大增强了跨域泛化能力自然得到提升。在我们的对比实验中见原文图1d与不进行正则化、或对所有参数进行正则化的方案相比选择性任务正则化在分布外测试例如用PBE泛函评估在混合泛函数据上训练的模型对分子的预测上取得了最佳的泛化性能。2.4 域桥接集在“知识鸿沟”上架设桥梁然而仅有正则化还不够。考虑一个极端情况任务A晶体PBE泛函和任务B分子ωB97M泛函的PES在某个原子构型空间区域C上完全不同而训练数据中区域C只出现在任务B里。即使共享参数被正则化逼得很“通用”它也无法凭空学会在区域C上如何将任务B的PES“转换”成任务A的PES因为它在区域C根本没有见过任务A的数据。这就引出了我们策略的第二块拼图域桥接集。其思想简单而有效我们从一个任务如任务B的数据中精心挑选一小部分例如0.1%具有代表性的原子构型。然后我们用任务A所采用的DFT计算协议如PBE泛重新计算这些构型的能量和力。这样我们就得到了一小批“双语对照”数据同一批原子结构同时拥有任务A和任务B两种计算协议下的标签。将这批桥接数据加入到任务A的训练集中相当于在原本互不相通的两个知识域PBE晶体域和ωB97M分子域之间架设了几座关键的“桥梁”。模型在训练任务A时不仅能学到晶体区域的PES还能通过这批桥接数据直接观察到“在分子区域PBE泛函给出的答案是什么”。这使得共享参数能够更准确地在整个构型空间内学习如何协调不同计算协议下的PES。实操心得构建DBS的关键在于“代表性”和“性价比”。我们通常从目标域希望知识迁入的域的数据中根据构型多样性如通过聚类算法或能量分布覆盖低能稳定结构和高能过渡态进行采样。0.1%的采样率是一个经验性的甜点能以极小的额外计算成本相对于生成整个DFT数据库换来泛化性能的显著提升。在我们的测试中DBS与选择性正则化产生了显著的协同效应将分布外预测误差进一步降低了约30%。3. 模型架构与训练策略详解有了优秀的方法论还需要强大的模型架构和稳健的训练策略来承载。本项目基于我们团队之前开发的SevenNet-MF架构来构建最终的通用模型——SevenNet-Omni。3.1 SevenNet-MF 架构简介SevenNet是一个等变图神经网络。等变性是MLIP的一个关键性质它保证模型的输出如能量、力会随着输入原子系统的旋转、平移、镜像等对称操作而进行相应的协变。这对于确保模拟的物理正确性至关重要。图表示将原子系统视为一个图原子是节点原子间的相互作用在一定截断半径内是边。等变特征节点和边的特征不仅是标量还包括向量、甚至高阶张量这些特征在空间旋转下会按照特定的规则变换。多层交互通过多层的等变卷积操作模型能够捕获从短程到中程的多体相互作用。SevenNet-MF 是 SevenNet 的多保真度/多任务版本其核心改进在于引入了任务特定通道。在网络的末端除了共享的主干网络输出一个基础的“通用”原子能量贡献外每个任务都有一组独立的、轻量级的参数可以理解为一个小型适配器用于对这个通用贡献进行微调以匹配特定DFT协议的基准。3.2 SevenNet-Omni 的训练数据集与课程学习SevenNet-Omni 在15个公开数据集上进行了训练涵盖了无机晶体、金属/氧化物表面、金属有机框架、有机分子、分子晶体等计算协议包括PBE、RPBE、PBEsol、r2SCAN、ωB97M等多种泛函总数据量超过2.5亿个原子构型。面对如此庞大且异构的数据直接混合所有数据开始训练是低效且不稳定的。我们采用了课程学习策略第一阶段晶体基础首先使用MPtrj、sAlex、OMat24等大型晶体数据库进行训练。这些数据相对规整有助于模型快速建立对固体中原子排列、晶格振动等基本物理图像的理解。第二阶段引入分子在晶体知识相对稳固后引入OMol25等分子数据库。此时模型已经具备了基本的化学键感知能力学习重点转向理解分子的柔性、扭转势垒、范德华相互作用等。第三阶段全面精炼最后将所有数据库包括表面吸附OC20/OC22、MOF等复杂体系一起投入训练并应用选择性正则化和DBS。此时模型已具备良好的初始化训练过程主要是精细调整共享参数和任务参数实现跨域知识的深度融合。这种由易到难、分阶段构建知识体系的方法显著提升了训练效率和最终模型的稳定性。3.3 任务嵌入的可解释性分析一个有趣的问题是模型是如何区分不同任务的我们通过主成分分析可视化了训练后各任务对应的任务特定参数可视为任务嵌入向量。结果发现见原文图1b这些嵌入向量形成了清晰的聚类主要按照所使用的交换关联泛函进行分组。例如所有使用混合泛函如ωB97M的分子数据库其嵌入向量在空间中彼此靠近而使用PBE泛函的晶体数据库则聚集在另一区域。这表明我们的模型不仅学会了完成任务还以一种可解释的方式隐式地学习到了不同DFT计算理论之间的相似性与差异性。PBE和RPBE同属GGA泛函它们的嵌入向量距离较近而它们与混合泛函或meta-GGA泛函r2SCAN的距离则较远。这种结构化的任务表示是模型能够进行有效跨保真度知识迁移的内在基础。4. 系统性评测SevenNet-Omni 如何超越现有方案我们设计了一系列从单域到跨域、从同泛函到跨泛函的严格基准测试将 SevenNet-Omni 与当前最先进的开源通用MLIPs进行了全面对比包括 UMA、DPA-3.1、eSEN、ORB、NequIP、GRACE、MACE等。4.1 单域性能固守城池不落下风首先在模型训练数据覆盖的“舒适区”内所有前沿模型都表现优异。例如Matbench Discovery 晶体基准测试模型对晶体形成能排序、晶格热导率、结构弛豫的预测能力。SevenNet-Omni 的综合性能分数与顶级单任务模型持平略优于其前身7net-ompa。晶界能对58种金属的327种晶界构型进行计算SevenNet-Omni.mpa 通道的预测误差与其它模型相当部分略优。钢中缺陷结合能预测碳-空位、溶质原子间的相互作用所有模型均能达到合理的化学精度。这些结果表明在传统的、模型熟悉的领域通过大规模数据训练得到的MLIPs均已非常成熟SevenNet-Omni 确保了其基础能力没有因追求通用性而退化。4.2 跨域/跨泛函场景核心优势的体现真正的考验在于分布外泛化。我们重点考察了几类典型场景1. 分子体系的PBE精度迁移许多通用MLIPs在混合泛函如ωB97M计算的分子数据上训练但实际模拟中特别是涉及固体表面的催化反应常需使用更快的PBE泛函。我们测试了模型将“混合泛函分子知识”迁移到“PBE泛函分子”上的能力。分子扭转势垒测试有机分子内旋转的能垒。SevenNet-Omni.mpa 通道的误差显著低于其未使用分子数据训练的版本7net-ompa并且达到了与其自身混合泛函通道.spice相近的精度。这直接证明了跨保真度知识迁移的成功。而UMA和DPA的不同通道间误差波动较大显示了其迁移效果的不稳定性。有机金属配合物反应能SevenNet-Omni 整体表现最佳。一个有趣的发现是.matpes通道基于PBE无U修正比.mpa通道基于PBEU预测更准。这是因为部分过渡金属Cr, Fe, Co, Ni在.mpa通道的训练数据中采用了PBEU而测试集的PBE-D3计算未加U这种“训练-测试”协议的不匹配导致了额外误差。这提醒我们计算协议的一致性对MLIP预测至关重要。2. 有机分子晶体预测分子晶体的内聚能需要同时准确描述分子内共价键和分子间范德华力相互作用。SevenNet-Omni.mpa 的差最低甚至优于专门在分子晶体数据上训练过的UMA.omc。这说明通过多域训练和DBS模型成功融合了来自晶体数据库的周期性边界条件处理能力和来自分子数据库的弱相互作用描述能力。3. 有机-无机杂化钙钛矿这类材料包含有机分子阳离子和无机骨架是典型的多域体系。SevenNet-Omni 在100种此类材料的形成能预测上误差最小。相比之下UMA的两个通道.omc和.omat分别因为分子能量不准和无机结构不稳而误差较大eSEN[omat]则因对小分子如F2, O2的描述不佳而拉低精度。这凸显了全面、均衡的多域知识融合的重要性。4. 分子在介质表面的吸附模拟半导体工艺中的分子吸附如原子层沉积前驱体需要模型同时理解介电基底如SiO2, Si3N4和有机分子。SevenNet-Omni 相比其纯晶体版本7net-ompa有巨大提升与表现最好的单任务模型eSEN[oam]和ORB[omat]持平或更优。这表明表面吸附这种复杂界面行为确实受益于跨域训练。5. 金属有机框架MOF的测试涵盖了均相性质热容和异相吸附CO2, H2O。在吸附能预测上SevenNet-Omni.mpa 达到了与专门为MOF优化的UMA.odac相近的水平且远优于其.odac23通道。我们发现.odac23通道虽然直接在MOF-气体相互作用数据上训练但因原始DFT计算设置较宽松引入噪声反而表现不佳。这再次强调了训练数据质量比数量更重要也说明通过高质量跨域数据如晶体和分子进行知识迁移有时能弥补单一域数据质量的不足。5. 实践指南与常见问题排查基于我们的研究为希望构建或应用通用MLIP的研究者提供以下实操建议和避坑指南。5.1 如何为你的项目选择或构建MLIP明确应用场景首先确定你的体系主要属于哪个化学域晶体、分子、表面、溶液以及你希望匹配哪种计算精度GGA, meta-GGA, 混合泛函。优先使用现成通用模型如果你的体系大致落在现有通用MLIP如SevenNet-Omni, UMA, DPA-3.1的训练域内直接使用是最快、最可靠的选择。注意选择与你的目标计算协议最匹配的“通道”。考虑微调如果现有模型在特定子领域表现不佳但你有少量该领域的高质量DFT数据可以考虑对模型进行微调。强烈建议冻结共享参数只微调任务特定参数或新增一个任务头这样可以最大程度保留模型的通用知识避免灾难性遗忘。从头训练只有当你的体系非常特殊如含有很多稀有元素、极端压力温度条件且没有合适预训练模型时才考虑从头训练。此时我们的多域训练策略选择性正则化 DBS提供了一个可参考的框架。5.2 使用通用MLIP的注意事项通道选择同一个通用MLIP的不同通道对应不同训练数据集/泛函预测结果可能有差异。对于涉及过渡金属的体系需注意训练数据是否使用了Hubbard U修正并选择与你的目标计算协议一致的通道。外推风险MLIP是强大的插值工具但外推能力有限。避免将模型用于与训练数据截然不同的原子环境如从未见过的元素组合、异常高的局部应力、完全陌生的成键类型。能量参考MLIP预测的绝对能量通常没有物理意义有意义的是能量差如反应能、吸附能、形成能。在计算能量差时务必确保所有相关构型都使用同一模型的同一通道进行弛豫和能量计算以保持能量参考的一致性。色散修正如果模型训练时未包含DFT-D3等色散修正而你希望结果包含该修正可以在MLIP预测的能量上后加上DFT-D3修正项。但要注意这种“嫁接”可能引入微小误差。5.3 常见问题与排查问题模型在弛豫时结构崩溃原子飞散。可能原因原子受力预测出现巨大错误。这通常发生在体系严重超出训练数据分布时。排查步骤检查体系中是否存在训练数据中极少出现的元素或成键。尝试使用不同的随机种子初始化原子位置重新弛豫。在弛豫初期使用更小的步长和更强的阻尼。考虑使用更保守的、在更广泛数据上训练的模型通道。问题预测的能量/力与DFT结果存在系统性偏差而非随机误差。可能原因MLIP通道的计算协议与你的DFT计算协议不匹配如泛函、赝势、色散修正、自旋设置不同。排查步骤仔细核对MLIP训练数据的DFT设置文献。在一个小的、有DFT参考的测试集上系统比较不同通道的预测误差。如果偏差是线性的可以考虑对MLIP输出进行简单的线性校正但需谨慎并说明。问题分子动力学模拟中总能量出现漂移或不物理的振动。可能原因力预测存在噪声或不守恒或者模拟步长过大。排查步骤首先在平衡构型附近进行小幅度振动检查力与能量梯度的数值一致性F -dE/dR。好的MLIP应该满足这一点。确保在MD中使用合适的积分器如Velocity Verlet和较小的步长通常0.5-1 fs。检查模型是否在训练中充分涵盖了相关温度/能量区间的构型。问题想扩展模型到新元素或新泛函如何构建DBS建议流程从现有包含新元素/泛函的数据库中或通过主动学习生成一批代表性构型。用你目标的DFT计算协议重新计算这批构型。这就是你的DBS。在现有多任务模型基础上新增一个任务头对应新的计算协议。用DBS和选择性正则化训练这个新任务头同时可轻微微调共享参数。这种方法能以最小成本扩展模型能力并借助共享参数实现知识迁移。6. 总结与展望通过系统性研究我们证实了“选择性正则化”与“域桥接集”这一组合策略是破解通用机器学习原子间势跨域泛化难题的有效途径。SevenNet-Omni模型在涵盖分子、晶体、表面、MOF的复杂基准测试中展现出的稳健且领先的性能标志着我们向构建真正“无所不能”的原子尺度模拟工具迈出了坚实的一步。这项工作更深远的意义在于它提供了一套可扩展的、原则性的框架。随着更多高质量、跨域DFT数据库的出现以及更高效的主动学习算法的应用我们可以持续向这个框架中注入新的知识。未来的通用MLIP或许不仅能无缝衔接不同的DFT泛函还能连接从量子化学到经典力场的不同尺度甚至融合实验数据成为一个统一的、不断进化的“数字原子模拟大脑”。而实现这一愿景的关键就在于如何像本文所探索的那样巧妙地设计学习机制让模型学会在浩瀚的化学空间中既能深钻特定领域的细节又能融会贯通举一反三。这条路很长但我们已经找到了一个清晰的起点。

查看全文

http://www.rkmt.cn/news/1379253.html