当前位置：首页 > news >正文

ADAPT：基于Transformer的无图机器学习力场，突破材料缺陷模拟瓶颈

news 2026/6/10 16:17:32

1. 项目概述为什么我们需要一个“无图”的力场在计算材料科学领域我们每天都在与原子“对话”。无论是设计新型电池材料还是探究半导体中的量子缺陷核心问题都归结于一个基本物理图像给定一堆原子及其初始位置它们最终会如何排列这个问题的答案直接决定了材料的导电性、强度、光学性质乃至量子特性。传统上我们依赖密度泛函理论DFT这类第一性原理方法来计算原子间的相互作用力和体系总能量从而通过结构弛豫找到能量最低的稳定构型。DFT虽然精度高但计算成本极其昂贵一次涉及数百个原子的缺陷体系弛豫在超算上跑几天是家常便饭。这严重制约了高通量材料筛选和复杂缺陷体系的深入研究。于是机器学习力场Machine Learning Force Field, MLFF应运而生。它的目标很明确用训练好的神经网络模型去“模仿”DFT的计算结果——输入原子种类和坐标直接输出每个原子所受的力以及体系的总能量。这样一来原本需要数小时甚至数天的DFT单点计算用MLFF可能只需几毫秒实现成千上万倍的加速。过去几年基于图神经网络GNN的MLFF如MACE、CHGNet等取得了巨大成功。它们将原子视为图的节点将原子间的键连或邻近关系视为边通过消息传递机制来学习局部化学环境。这种架构天然地嵌入了平移、旋转和置换不变性等物理先验在数据有限时表现优异。然而当我们把目光投向材料缺陷——这个在半导体、催化、合金等领域至关重要的研究对象时GNN的“阿喀琉斯之踵”便暴露无遗。点缺陷如空位、间隙原子、替位杂质会扰动周围完美的晶体周期场其影响范围可能延伸到数十甚至上百个原子之外。GNN的消息传递机制本质上是局部的长程相互作用需要依靠堆叠多层网络来间接传递这极易导致两个经典问题过平滑Oversmoothing和过挤压Over-squashing。简单来说过平滑是指经过太多层后所有节点的特征变得趋同丢失了细微差别过挤压是指远距离的信息被迫通过有限的“通道”边传递导致信号失真或丢失。对于缺陷模拟缺陷核心区域与远处晶格原子的细微力场差异至关重要GNN的这些缺陷会直接导致预测精度下降甚至得到错误的稳定结构。正是在这样的背景下ADAPTAccelerated Deep Atomic Potential Transformer提出了一个大胆的设想既然GNN处理长程相互作用有困难我们能不能彻底抛弃“图”的概念回到最本质的原子坐标本身ADAPT的答案是用Transformer。它不再将原子系统视为一个图而是将其视为一个“句子”每个原子是一个“词元”Token。通过Transformer编码器中强大的自注意力机制模型能够在单层内就建立任意两个原子之间的直接关联无论它们相距多远。这种“全连接”的注意力模式使得长程相互作用得以被显式、精确地建模。实验证明在硅点缺陷数据集上ADAPT在力和能量的预测误差上比顶尖的GNN模型降低了约33%而训练成本却低了两个数量级。这不仅仅是模型的胜利更是一种建模范式的转变从依赖归纳偏好的局部消息传递转向依赖数据驱动的全局坐标直接建模。2. ADAPT架构深度解析从原子坐标到作用力ADAPT的核心创新在于其简洁而强大的架构设计。它不是一个单一的模型而是由两个独立但协同的模型组成一个用于预测原子力Force Predictor一个用于预测形成能Energy Predictor。这种分离设计带来了部署上的灵活性也引出了关于物理一致性的有趣讨论我们稍后会详细展开。我们先深入看看它的力预测模型是如何工作的。2.1 原子“词元化”从物理描述符到高维向量模型的输入是一个包含n个原子的结构。传统GNN需要费力地构建邻接图而ADAPT的第一步则直接得多为每个原子创建一个12维的特征向量也就是一个“原子词元”。这个向量包含几何信息原子的三维笛卡尔坐标 (x, y, z)。这是最核心的信息决定了原子的空间位置。元素身份信息元素周期表中的族column和周期row。这提供了原子基本的电子层结构信息。物理化学描述符这是一组精心挑选的标量属性用于刻画原子的固有性质电负性χ原子吸引电子的能力。共价半径rcov形成共价键时原子的特征半径。价电子数Nval参与成键的电子数。第一电离能Eion1移走一个电子所需的能量。电子亲和能EEA获得一个电子释放的能量。原子半径ratom原子的一般尺寸度量。摩尔体积Vmol固态元素中每摩尔原子所占的体积。注意描述符的选择论文中明确指出这12个描述符的选择部分是因为它们“自然地存在于原始数据中”。确定最优的描述符集合仍然是一个开放问题。在实际应用中研究者可以根据具体体系如有机分子、金属合金引入更相关的描述符如部分电荷、极化率等这可能是未来提升模型泛化能力的一个方向。这12维的向量虽然包含了丰富信息但对于神经网络来说维度仍然较低难以捕捉复杂的非线性关系。因此ADAPT使用一个多层感知机MLP作为嵌入层将每个原子的12维向量独立地映射到一个高维空间例如d_model256。这个高维嵌入空间就像为原子信息准备的一个“工作台”在这里线性或简单的非线性变换就能更好地逼近真实的量子力学相互作用即所谓的“神谕函数”。2.2 Transformer编码器全局注意力的魔力嵌入后的原子序列形状为 n × d_model被送入一个由k个编码器块堆叠而成的Transformer编码器。这是ADAPT区别于GNN的灵魂所在。每个编码器块的结构是标准的层归一化LayerNorm、多头自注意力Multi-Head Attention和前馈网络FFN并伴有残差连接。关键在于自注意力机制。在计算注意力时模型会为序列中的每个原子作为查询Q计算它与序列中所有原子包括它自己作为键K和值V的关联权重。这个权重通过查询向量和键向量的点积经过缩放后应用softmax得到。这意味着在计算第i个原子所受的力时模型会同时考虑第j个原子无论j是i的邻居还是远在晶胞另一头的影响其权重由它们的高维特征表示之间的相似性动态决定。与GNN的根本区别GNN局部、迭代原子A的信息要传到原子C必须经过中间的原子B如果A和C不相邻。信息在传递过程中会经过多次非线性变换和聚合可能失真。ADAPT全局、直接原子A和原子C在注意力层中直接“对话”。它们之间的“影响力”通过一次矩阵运算直接计算不受中间原子或网络深度的限制。这种全局注意力机制完美适配了缺陷体系的物理图景。一个间隙原子产生的晶格应变场其影响是随距离衰减但范围很广的。Transformer能够在一层之内就捕获这种衰减模式而GNN则需要足够深的网络来传递这种长程信号且容易在传递过程中平滑掉。2.3 力量投影与加权损失函数经过多层Transformer编码器后我们得到了每个原子更新后的高维表示。最后通过一个简单的线性投影层一个d_model×3的权重矩阵将每个原子的表示映射为一个三维力向量 (Fx, Fy, Fz)。针对缺陷的损失函数设计这是ADAPT另一个体现工程巧思的地方。在晶体缺陷中缺陷核心附近原子的受力可能比远处完美晶格中原子的受力大几个数量级。如果使用标准的均方误差MSE损失模型可能会为了降低整体误差而倾向于将所有原子的力都预测得很小甚至接近零因为完美晶格中原子的力本就接近零在数量上占优。为了解决这个问题ADAPT引入了重要性加权MSE损失。它为每个原子分配一个权重mi这个权重与该原子到所有缺陷中心距离的某种函数成反比。具体公式如下mi Π_{j∈D} (1 λ1 / (||ri - rj||^2 λ2))其中D是所有缺陷位置的集合ri是原子i的坐标λ1和λ2是超参数。这个公式的物理直觉很清晰距离缺陷越近的原子其权重越大模型在训练时会对这些原子的力预测误差施加更大的惩罚。这迫使模型必须学好缺陷核心区域这个“主要矛盾”而不是用平庸的预测去讨好“大多数”的晶格原子。论文中提到虽然这种加权损失在整体L2误差上可能略逊于普通MSE但在实际驱动结构弛豫的任务中表现更好因为这确保了缺陷区域的动力学被准确捕捉。3. 能量预测模型为什么选择MLP残差与力预测模型不同ADAPT的能量预测器采用了相对传统的MLP残差连接架构。能量是一个全局标量属性是对整个原子体系的整体描述而非每个原子的属性。这给基于Transformer的架构带来了一个挑战Transformer天然处理序列到序列的映射如何输出一个单一的、代表整个系统的值常见的解决方案有两种1) 引入一个特殊的“[CLS]”词元来汇聚全局信息2) 在Transformer输出后添加一个专门的全剧池化输出头。然而ADAPT的作者在实验中发现对于他们有限的硅缺陷数据集一个设计良好的MLP残差网络见表1在预测形成能方面竟然超越了基于Transformer解码器的方案。MLP残差网络架构其核心思想是让网络学习的是能量相对于某个基线或上一层的输出的“残差”或“增量”。网络的前向传播类似于h_{l1} h_l F(h_l)其中F是一个非线性变换MLP。这种结构在数学上类似于微分方程的数值积分如欧拉法非常适合于学习物理系统中连续的、渐进的变化。对于能量预测这种标量输出任务它避免了Transformer需要处理序列到标量的映射难题参数效率更高在数据量不是极其庞大的情况下更容易训练且不易过拟合。输入处理由于MLP需要固定长度的输入而不同缺陷体系的原子数n不同ADAPT将所有结构通过填充Padding零向量统一到220个原子。这个数字源于其数据集中硅超胞的常见尺寸6x6x6原胞共216个原子并留出了掺杂原子的余量。对于更大的体系可以重新调整这个最大长度参数。实操心得模型分离的利与弊。ADAPT将力和能量分开预测这带来了部署的灵活性如果你只关心结构弛豫只需要力就只部署力模型节省内存和计算。但它也带来了一个关键问题力不再是能量的负梯度。这意味着这个力场不是一个保守力场无法严格保证能量守恒。这对于分子动力学模拟来说是致命的因为会导致系统总能量漂移。但对于结构弛豫这个核心目标许多优化算法如FIRE、BFGS主要依赖力场的方向信息来寻找势能面的极小值对力的绝对保守性要求可以放宽。因此ADAPT的这种设计是面向特定任务缺陷弛豫的务实选择。如果未来需要做动力学模拟则需要考虑采用能保证能量-力一致性的架构或在损失函数中加入相应的物理约束。4. 性能实测精度与效率的双重胜利论文在包含6082个硅缺陷DFT轨迹的数据集上对ADAPT进行了全面测试并与当前最先进的GNN力场MACE包括在其数据上重新训练的版本以及大型基础模型MatterSim进行了对比。4.1 预测精度对比测试聚焦于100个未参与训练的复杂缺陷结构。评价指标是关键的平均绝对误差MAE。力预测MAE单位 eV/ÅADAPT (Small): 0.0126MACE (Retrained): 0.0217MatterSim (5M): 0.0335ADAPT小模型将力预测误差降低了约33%相比于重训练的MACE。更重要的是0.01 eV/Å左右的误差已经与许多DFT计算中设置的结构弛豫停止标准力收敛阈值处于同一量级。这意味着ADAPT预测的力已经足够精确可以直接用于驱动弛豫或至少能为昂贵的DFT弛豫提供一个高质量的初始结构预弛豫从而大幅减少DFT迭代步数。能量预测MAE单位 eVADAPT (MLPResidual): 0.5782 (400 epoch后)MACE (Retrained): 1.3129MatterSim (5M): 0.8289在能量预测上ADAPT的专用能量模型同样显著优于重训练的MACE并且经过充分训练后其误差比最好的预训练模型MatterSim 5M还低了30%。图4和图5中的散点图清晰显示ADAPT的预测结果黑点更紧密地分布在理想对角线yx附近说明其预测偏差更小、更一致。4.2 计算效率的碾压性优势这是ADAPT最令人印象深刻的成果之一。其效率提升主要源于架构的变革训练成本训练ADAPT小模型力预测在单张NVIDIA A100上仅需约3小时80个epoch。在相同数据集上重新训练MACE使用了16张A100耗时约680小时。效率比ADAPT的训练成本仅为MACE的1/227。这意味着原本需要近一个月集群计算的任务现在用一张高端显卡一天内就能完成。论文甚至提到作者在个人笔记本电脑上成功训练了ADAPT小模型这极大地降低了MLFF的开发和应用门槛。效率根源分析密集计算 vs. 稀疏计算GNN的核心操作是稀疏的消息传递其计算模式不规则难以充分利用现代GPU/TPU等加速器高度优化的张量核心进行大规模并行计算。而Transformer的自注意力机制本质上是大型的、密集的矩阵乘法这正是硬件加速器最擅长、优化程度最高的操作。软件生态Transformer在NLP和CV领域已有极其成熟的软件栈如PyTorch、TensorFlow的优化实现、FlashAttention等ADAPT可以直接享用这些优化成果。而GNN的稀疏操作库相对小众优化程度不及前者。4.3 全局注意力的必要性验证为了证明抛弃局部图结构、采用全局注意力的正确性论文进行了一项关键实验表3他们在训练和推理时通过一种“键-结构掩码”技术人为限制自注意力机制只允许每个原子与一定比例的其他原子如13.16% 51.3%发生交互模拟GNN的局部感受野。实验结果极具说服力当只允许13.16%的原子对发生交互时类似一个非常局部的GNN模型的力预测L2损失高达18.7。随着允许交互的比例增加到51.3%损失下降到11.13。当允许100%的全局交互时损失最低达到8.11。这直接证明了在缺陷体系中长程相互作用对于准确预测原子力是至关重要的而ADAPT的全局注意力机制正是捕获这种相互作用的关键。5. 局限、挑战与未来展望尽管ADAPT在硅缺陷体系上取得了突破但作为一种新范式它也存在明显的局限性和广阔的改进空间。5.1 当前架构的局限性数据饥渴性Transformer以其强大的表示能力著称但这种能力通常建立在海量数据的基础上。ADAPT在硅缺陷数据上的成功部分得益于一个质量较高、规模尚可的数据集6000个轨迹。对于数据更稀缺的体系如新型化合物、表面反应无图架构可能难以训练而具有强物理归纳偏置如E(3)等变性的GNN在数据效率上可能仍有优势。物理约束的缺失ADAPT没有显式地编码旋转、平移、镜像等物理对称性等变性。它依赖于从数据中学习这些不变性。对于足够大且多样的数据集这或许可行但在数据边缘可能会产生物理上不合理的预测。未来的工作可能需要将等变性约束以算法形式嵌入到架构或损失函数中。非保守力场如前所述力与能量模型分离导致力场非保守。这限制了其在分子动力学等需要严格能量守恒的场景中的应用。泛化能力待验证ADAPT目前仅在硅缺陷上验证。它在其他材料体系如金属、氧化物、其他类型的缺陷如位错、晶界乃至完美晶体上的表现如何仍需大量实验验证。5.2 实际应用中的注意事项与技巧如果你打算在自己的研究中使用或借鉴ADAPT的思路以下几点经验值得参考描述符工程是关键12个描述符是一个不错的起点但绝非金科玉律。对于你的特定体系思考哪些物理化学量最能区分原子的化学环境。例如对于带电体系部分电荷或静电势可能是重要描述符对于磁性材料可能需要考虑自旋态。损失函数的设计是导向ADAPT的重要性加权MSE损失是针对缺陷问题量身定制的。如果你的目标是体相性质或许均匀加权或基于原子类型的加权更合适。损失函数是引导模型学习重点的指挥棒。注意力机制的变体全连接注意力计算复杂度是O(n²)对于超大体系数万原子可能成为瓶颈。可以考虑引入线性注意力、局部敏感哈希LSH注意力等近似方法或利用晶体周期性引入衰减掩码在保持长程建模能力的同时控制计算成本。与第一性原理计算的协同ADAPT最适合的角色是“加速器”而非“替代品”。可以构建一个主动学习循环用少量DFT数据训练初始ADAPT模型 - 用ADAPT进行快速弛豫或采样 - 将不确定性高的新构型提交给DFT计算 - 用新数据更新模型。如此迭代既能保证精度又能最大化计算资源的效益。5.3 未来发展方向ADAPT的工作为MLFF领域打开了一扇新的大门未来的探索方向包括架构融合能否设计一种混合架构在底层使用轻量级的局部交互模块如不变点云网络快速提取局部特征在顶层使用全局注意力模块精确建模长程相互作用这样或许能兼顾数据效率和长程精度。物理引导的Transformer将等变性约束如Steerable Transformer或物理定律如库仑定律、范德华衰减以解析形式或约束条件融入Transformer的注意力权重计算中打造“物理信息Transformer力场”。扩展到复杂场景将ADAPT框架应用于带电缺陷、有限温度分子动力学、非平衡态过程以及化学反应模拟。这需要模型不仅能预测静力学还能很好地描述势能面的曲率Hessian矩阵。基础模型之路像MatterSim一样探索训练一个基于Transformer架构的、跨元素周期表的通用MLFF基础模型。ADAPT的高效性使得在大规模数据集上训练这样的模型成为更经济可行的目标。ADAPT的出现提醒我们在追求更复杂的GNN等变架构的同时有时回归本质用最直接的坐标数据和最强大的序列建模工具反而能开辟一条更高效、更精确的路径。它不仅是又一个SOTA模型更是对材料模拟领域建模思想的一次有力冲击预示着机器学习力场的研究将进入一个更加多元化、与物理内涵和计算效率深度结合的新阶段。

查看全文

http://www.rkmt.cn/news/1376570.html