当前位置：首页 > news >正文

机器学习力场微调策略评估：从MACE模型到Cr-Sb2Te3热电材料应用

news 2026/5/26 22:12:39

1. 项目概述从通用势场到专用力场的迁移之路在计算材料科学领域我们正经历一场静默的革命。过去要模拟一个包含几千个原子的体系在几百开尔文温度下的动力学行为动辄需要消耗数万甚至数十万CPU小时的第一性原理计算资源这严重限制了研究的深度和广度。机器学习力场的出现就像给这个领域装上了一台“物理引擎”它通过学习海量的量子力学计算结果构建出一个能够以接近密度泛函理论精度、但计算成本低数个数量级的代理模型。然而一个普遍的困境是当我们面对一个全新的、数据稀缺的特定材料体系时是应该从零开始训练一个“专用”模型还是应该在一个庞大的“通用”基础模型上进行微调这不仅是技术路线的选择更关乎研究效率与模型泛化能力的根本权衡。我最近的工作正是围绕这个核心问题展开具体聚焦于铬掺杂的碲化锑这一典型的热电材料体系。热电材料能够实现热能与电能的直接相互转换在废热回收和固态制冷方面有巨大应用前景。而铬的掺杂可以引入磁性可能调控其电子和声子输运性质但其中的微观机制尤其是铬原子在晶格中的迁移行为却难以通过传统模拟手段细致研究。我们的目标很明确利用MACE这一先进的等变图神经网络力场架构系统评估不同的模型训练策略——包括从零训练、单一温度微调以及多温度微调——在预测该体系结构、热力学乃至动力学性质上的表现。本文将详细拆解整个流程从第一性原理参考数据的生成到MACE模型的训练与微调策略设计再到通过分子动力学和弹性带计算进行的全方位性能基准测试。你会发现看似简单的“微调”操作背后隐藏着关于模型容量、数据分布、灾难性遗忘与泛化能力的深刻物理与机器学习原理。2. 第一性原理计算构建可靠的“地面真值”任何机器学习模型的基石都是高质量的数据。对于机器学习力场这个“真值”必须来自高精度的量子力学计算。我们的所有参考数据均基于密度泛函理论生成这是目前处理周期性体系电子结构最主流且可靠的方法。2.1 计算软件与参数设置我们选择了Quantum Espresso这一开源DFT软件包。选择它并非偶然其良好的并行效率、丰富的赝势库以及对各种物理性质计算的支持使其成为大规模材料模拟的常用工具。具体参数设置是精度与效率平衡的艺术赝势对所有元素均采用超软赝势。相比于模守恒赝势超软赝势可以用更少的平面波基组达到相同的精度这对于包含碲这类重元素的体系能显著节省计算资源。截断能平面波动能截断能设置为400 eV。这个值是通过收敛性测试确定的——我们测试了从300 eV到500 eV的一系列截断能观察体系总能量的变化。当截断能达到400 eV时总能量变化小于1 meV/atom这意味着进一步增加截断能对精度的提升微乎其微但计算成本会立方级增长。K点网格对于结构弛豫和Nudged Elastic Band计算我们采用4×4×1的Monkhorst-Pack网格对布里渊区进行采样。由于我们研究的Cr-Sb2Te3是层状材料在c轴方向垂直层方向的周期性较弱因此在该方向只设置了一个K点。交换关联泛函采用PBE泛函。虽然PBE泛函在精确预测带隙方面存在不足但对于我们关心的结构、结合能以及力它能提供一个在计算成本和精度之间良好的折衷。我们的前期测试也表明PBE对于此类硫族化合物材料的结构预测是可靠的。注意参数的选择并非一成不变。对于不同的材料体系如金属、绝缘体、强关联体系最佳的泛函、赝势和K点设置可能完全不同。在项目开始前进行系统的收敛性测试是必不可少的步骤。2.2 训练数据集的构建策略生成用于训练力场的数据不是简单地对平衡结构做静态计算而是要尽可能让模型“见识”到相空间中可能出现的各种原子构型。我们主要通过从头算分子动力学模拟来生成数据。模拟条件我们在NVT系综下进行AIMD模拟使用朗之万热浴来控制温度。为了覆盖材料在实际应用中可能经历的热力学状态我们选择了三个特征温度300 K室温、600 K典型热电工作温度和1200 K接近但低于熔点的温度。同时我们考虑了不同的铬掺杂浓度以捕获掺杂对局部环境的扰动。系统规模与时长每个AIMD模拟针对一个包含120个原子的超胞进行模拟时长为10皮秒时间步长为1飞秒。这样我们总共能得到数万帧包含原子位置、能量和力的“快照”这些快照就构成了我们训练集的原始素材。特殊构型的补充仅靠AIMD数据可能无法充分采样到一些高能的过渡态构型而这些构型对于理解原子迁移等动力学过程至关重要。因此我们额外使用了微动弹性带方法来计算铬原子迁移的最小能量路径。NEB计算提供了从初始态到最终态之间一系列中间态的构型和能量这些数据对于训练一个能准确描述反应势垒的力场至关重要。所有构型的弛豫收敛标准是每个原子上不受约束的原子力小于0.01 eV/Å这是一个相当严格的标准确保了参考数据的精度。通过这种多温度、多构型的采样策略我们构建的数据集不仅包含了平衡附近的涨落也触及了势能面上一些能量较高的区域为模型学习一个全面的势能面打下了基础。3. MACE模型训练与微调策略解析有了高质量的数据下一步就是如何“教”给模型。我们使用的模型是MACE它是一种高阶等变消息传递神经网络。简单来说它的强大之处在于其严格的物理对称性约束无论体系如何旋转、平移或反演模型预测的能量和力都会随之正确变换。这保证了学习到的势函数本身就是一个标量力是能量的负梯度从根本上符合物理规律。3.1 基础训练的超参数框架为了保证不同训练策略之间的公平比较我们固定了一套核心训练超参数优化器Adam。其自适应学习率特性在训练深度神经网络时通常表现稳定。初始学习率1e-3。这是一个比较标准的初始值我们配合了学习率衰减策略。批量大小4。由于每个构型包含120个原子的数据量已经不小较小的批量大小有助于在有限显存下进行训练同时可能带来一定的正则化效果。早停策略基于验证集的力平均绝对误差。我们预留了10%的数据作为验证集当验证集损失在连续一定周期内不再下降时就停止训练防止过拟合。最大训练轮数1000。为训练提供充足的上限。这套参数是我们在多个材料体系上调试后的经验设置它不一定是最优的但作为一个统一的基线可以消除超参数差异对策略比较带来的干扰。3.2 微调策略的设计与实施微调的核心思想是在一个已经用海量数据预训练好的、具有广泛化学知识的基础模型上用我们特定体系的小规模数据进行二次训练使其专门化。我们设计了两种微调策略进行对比FT-600K模型温度微调我们从600K的AIMD轨迹中有代表性地选取了约5%的构型约1000帧作为微调数据集。选择600K是因为它接近Sb2Te3基热电材料的实际工作温度在此温度下原子具有足够的动能来探索势能面但又不会导致结构破坏。选取策略不是随机抽样而是试图覆盖该温度下观察到的全部结构变化范围包括平衡涨落和过渡构型。FT-Multi_T模型多温度微调我们从300K、600K和1200K的轨迹中等量抽取构型组合成微调数据集。这样做的目的是测试让模型同时“看到”从低温到高温的广泛热力学状态是否能提升其泛化能力尤其是对温度外推的鲁棒性。微调的底层机制在数学上很直观给定一个预训练的基础模型参数 θ₀我们在目标数据集 D_target 上直接最小化损失函数 L通常是能量和力的均方误差来优化参数θ* arg min_θ L(θ; D_target)。其特点是实现简单、收敛快可以使用较高的学习率如1e-2但存在一个著名风险灾难性遗忘。即模型在快速适应新数据的同时可能会丢失在预训练阶段学到的、与当前任务不直接相关但非常有价值的通用知识。3.3 从零训练作为对照为了凸显微调的价值我们设置了一个严格的对照实验使用相同的Cr-Sb2Te3数据集但随机初始化模型参数从头开始训练一个模型。这个模型没有任何先验的化学知识完全从零学习。我们预期它的性能会更差但究竟差多少以及在哪些方面差正是我们评估的重点。4. 性能评估超越RMSE的全面基准测试评估一个力场如果只看能量和力的均方根误差就像评价一辆车只看了它的油耗。RMSE是一个必要的指标但远不充分。一个在训练集上RMSE很低的模型可能在模拟长时间动力学时崩溃或者完全错误地预测一个关键的扩散势垒。因此我们建立了一个多层次的评估体系。4.1 传统精度指标能量与力的误差首先我们还是看一下基本的RMSE指标如表1所示。结果非常清晰从零训练的模型在训练集、验证集和测试集上的力RMSE都很高~70 meV/Å且训练集与验证集误差差距不大。这说明模型欠拟合了——它没有足够的能力捕捉数据中复杂的物理相互作用。微调模型无论是FT-600K还是FT-Multi_T其训练误差都极低~20 meV/Å但验证集误差显著升高~45-50 meV/Å显示出明显的过拟合迹象。这是用小数据集微调大模型的典型特征。然而关键在于它们的测试集误差~37-45 meV/Å远低于从头训练的模型。这说明过拟合是“良性”的模型在目标领域Cr-Sb2Te3的泛化能力反而更强。能量误差所有模型在每原子能量上的预测误差都较小1 meV/atom且微调模型更优。这符合预期因为能量是标量学习起来相对容易。这些数字和对应的能量-力 parity 图预测值 vs. DFT参考值告诉我们所有模型在“点对点”的预测上都与DFT符合得相当好。但这只是故事的开始。4.2 结构性质的再现径向分布函数分析我们通过计算径向分布函数RDF来评估模型在分子动力学模拟中再现材料局部结构的能力。RDF描述了在距离某个原子一定距离处找到另一个原子的概率是表征液体和非晶态结构的关键对晶体也能反映键长和配位层信息。模拟在600K下进行使用包含2050个原子的大超胞运行200皮秒以获取良好的统计性。图7展示了不同原子对Cr-Cr, Cr-Sb, Cr-Te的RDF结果。令人欣慰的是所有MACE模型无论训练策略如何都成功地复现了AIMD参考计算给出的关键结构特征。例如Cr-Te键的第一峰位置在~2.8 Å与DFT结果高度一致。有趣的是从零训练模型的RDF曲线反而比微调模型更平滑。这并不是因为它更准确而是出于一个实际原因从零训练的模型参数量较少计算更快因此我们在相同计算预算内可以对它进行更长时间的MD模拟从而获得更好的统计采样。而微调模型继承了基础模型的大架构单步计算成本更高限制了总模拟时间导致统计噪声稍大。这个细节提醒我们在比较不同模型的模拟结果时必须考虑计算成本这个现实因素。4.3 热力学与动力学性质的深度检验这里才是微调策略差异显现的地方。压力平衡在NVT系综模拟中我们发现未经微调的MACE基础模型会稳定在一个略微非零的平均压力上。这是因为基础模型是在大量材料的0K平衡体积数据上训练的其预测的Cr-Sb2Te3平衡晶格参数与我们体系在600K下的真实DFT值存在微小失配。而专门用本体系数据训练或微调的模型则没有这个问题。这体现了基础模型在跨体系迁移时可能存在的系统性偏差。扩散系数通过计算均方位移并提取扩散系数我们发现多温度微调的模型表现出更高的原子扩散性。这可能是因为它在训练中“见识”了1200K下接近无序或类液态的高能构型导致其学习到的势能面在原子迁移方向上更加“平坦”或势垒更低这种效应甚至延续到了600K的模拟中。热导率通过Green-Kubo方法计算热流自相关函数来评估热导率我们发现了更根本的差异。基础模型的热流自相关函数衰减极快表明它无法维持这种晶体结构中特有的、承载热量的长程振动模式。而仅用600K数据微调的模型其相关函数在前50皮秒出现了一个异常的峰值暗示可能存在结构不稳定性或突然的结构变化改变了声子行为。这深刻揭示即使局部结构性质预测得一模一样不同的训练策略也可能导致对集体现象如热输运产生定性不同的描述。4.4 关键挑战NEB计算揭示的迁移势垒预测最能暴露模型局限性的测试是使用微动弹性带方法计算一个铬原子迁移事件的最小能量路径和势垒。这是一个典型的“外推”任务NEB路径上的中间图像插值点可能对应着训练数据分布之外的高能、扭曲的过渡态构型。结果极具戏剧性见图8从零训练模型和所有微调模型在NEB优化过程中全部发生了“爆炸”行为表现为最大力急剧飙升计算被迫终止。这表明当模型遇到训练数据未覆盖的、严重扭曲的构型例如不合理的层分离时其预测变得极不稳定。MACE基础模型唯有未经任何微调的基础模型成功地收敛了NEB计算预测的迁移势垒为0.41 eV与类似间隙扩散路径的DFT计算结果约0.3 eV吻合得很好接近化学精度。这个结果发人深省。一方面它验证了基础模型通过海量数据预训练所获得的、强大的外推泛化能力即使面对从未见过的过渡态也能给出合理的物理描述。另一方面它揭示了微调的双刃剑效应在让模型专注于目标领域Cr-Sb2Te3的平衡构型并提升其“内插”精度的同时也可能以牺牲这种宝贵的、对于探索新区域过渡态的稳健性为代价即发生了“灾难性遗忘”。那个从零训练的模型虽然整体精度很差但在这个特定的外推任务上错误反而更小这更像是一种“歪打正着”的巧合而非真正的物理洞察进一步强调了系统性评估的重要性。5. 实操经验与避坑指南基于这个完整的项目流程我总结出一些对于从事MLFF开发与应用的研究者至关重要的实操心得。5.1 数据准备质量重于数量构型采样是灵魂不要只做0K的静态计算。AIMD模拟的温度范围要覆盖你感兴趣的实际条件并适当向外扩展。对于涉及扩散或反应的过程务必补充NEB或伞形采样等增强采样方法得到的过渡态数据。我们的NEB测试表明缺少这类数据模型在关键动力学性质上的预测可能是完全失败的。数据清洗与归一化DFT计算可能因各种原因SCF不收敛、离子步震荡等产生异常数据点。在构建训练集前必须仔细检查能量和力的范围剔除明显不合理的数据如力大于某个阈值。同时要对能量和力进行适当的归一化处理这能显著提升训练稳定性。验证集与测试集的严格隔离测试集必须来自完全独立的AIMD模拟轨迹而不能只是从训练轨迹中随机抽取几帧。确保测试集能代表模型需要泛化到的真实场景。5.2 模型训练与微调策略选择何时选择微调当你的目标体系与基础模型的预训练数据分布有一定相似性例如都是无机晶体材料且你拥有的专属数据量有限通常少于几千个构型时微调是最高效的策略。它能快速给你一个在目标领域表现不错的模型。微调的学习率策略通常使用比预训练更大的学习率例如1e-3 vs. 1e-4以便模型参数能够快速调整。可以采用学习率预热或余弦退火策略来稳定训练过程。警惕灾难性遗忘如果你希望微调后的模型既擅长新任务又保留基础模型的通用能力可以考虑分层微调或适配器技术。例如只微调网络最后几层而冻结前面的特征提取层。在我们的案例中由于我们只关心Cr-Sb2Te3体系可以接受一定程度的遗忘但你必须清楚这个代价。从零训练的考量只有当你的数据量足够大通常数万至上百万构型或者你的体系与现有基础模型的预训练域差异极大时才考虑从零训练。准备好投入更多的计算资源和时间进行超参数搜索。5.3 评估与验证必须超越RMSE建立多维度的评估基准绝不能只满足于低的测试集RMSE。一个完整的评估应至少包括结构性质RDF、静态结构因子、配位数分布。热力学性质在不同系综NVT, NPT下的能量、体积、压力波动以及相变温度如果可能。动力学性质扩散系数、振动态密度、热导率。反应路径与势垒使用NEB或动力学蒙特卡洛方法研究关键的迁移或反应事件。进行长时间的稳定性测试用训练好的力场运行纳秒甚至微秒级的MD模拟观察体系是否稳定能量是否漂移结构是否崩塌。这是检验力场可靠性的“试金石”。与实验数据对照如果有可能将模拟得到的晶格常数、弹性常数、热膨胀系数等与实验值进行比较。这是验证力场预测能力的最终标准。5.4 计算实践中的技巧利用预训练模型像MACE-MP、CHGNet、MatterSim等公开的基础模型是宝贵的起点。直接从这些模型开始微调可以节省大量从零训练的计算成本和时间。主动学习迭代当发现模型在某个特定区域如高能过渡态预测不准时不要盲目增加更多相似数据。应该采用主动学习策略用当前模型去采样那些预测不确定性高的区域然后对这些区域进行新的DFT计算并将结果加入训练集。这种“定向增强”能高效提升模型在薄弱环节的表现。注意单位制不同代码如Quantum Espresso输出原子单位而LAMMPS使用金属单位制和模型对输入输出的单位要求可能不同。在整个工作流中保持单位一致是避免低级错误的关键。6. 结论与展望通过这项针对Cr-Sb2Te3体系的研究我们清晰地看到在机器学习力场的应用中“微调”是一个强大但需要谨慎使用的工具。它能够以极低的成本将通用基础模型快速适配到特定材料并在该材料的大部分常规性质预测上取得优异表现。然而这种 specialization 是以牺牲模型在训练数据分布之外的泛化能力为代价的尤其是在预测远离平衡的过渡态性质时微调模型可能表现得比基础模型更差甚至不如一个简单的从零训练模型。这给我们的启示是评估一个力场必须与其最终的应用场景紧密挂钩。如果你只关心材料在平衡附近的热力学性质那么针对性的微调无疑是最佳选择。但如果你需要研究扩散、相变、缺陷反应等涉及显著原子重排的过程那么就必须对模型进行包含过渡态数据的专门训练或者谨慎评估基础模型的外推能力。未来一个更有前景的方向可能是开发更智能的微调算法例如基于不确定性的主动学习微调或者在损失函数中引入对基础模型知识的正则化项从而在获得领域特异性的同时尽可能保留宝贵的通用物理直觉。最后分享一个我在调试过程中踩过的坑早期我们曾尝试用更大的批量大小如32进行微调结果发现模型很快过拟合在验证集上的损失剧烈震荡。后来将批量大小降至4并配合适度的Dropout训练过程才变得稳定。这说明对于小数据集上的微调强正则化和小批量梯度下降带来的噪声对于防止过拟合至关重要。模型训练不仅是科学也是一门需要不断尝试和积累经验的技艺。

查看全文

http://www.rkmt.cn/news/1396211.html