当前位置：首页 > news >正文

机器学习势开发：数据剪枝与主动学习提升模型泛化能力

news 2026/5/25 12:24:10

1. 项目概述为什么数据质量比数量更重要在材料模拟和计算化学领域构建高精度的原子间势能模型机器学习势MLIPs一直是个核心挑战。传统的第一性原理方法如密度泛函理论DFT虽然精度高但计算成本极其昂贵通常只能处理几百个原子的体系对于纳米材料、缺陷动力学或相变过程等需要长时间、大尺度模拟的场景几乎无能为力。机器学习势的出现让我们看到了曙光它通过学习量子力学计算产生的数据用神经网络或高斯过程等模型来拟合原子间的相互作用能以接近DFT的精度实现分子动力学MD模拟所需的速度。然而一个普遍的误解是只要我有足够多的DFT计算数据堆出一个巨大的数据集就能训练出一个完美的势函数。现实往往很骨感。我早期尝试用“暴力”方法收集数据时发现模型在训练集上表现完美但一遇到新的、没见过的原子构型预测误差就急剧上升。这背后的问题正是数据质量。你的数据集里可能充斥着大量高度相似、信息冗余的构型比如一堆能量接近的平衡结构而真正关键的、能定义势能面复杂区域的“拐点”数据如过渡态、缺陷核心、高能垒区域却少得可怜。这就好比你想学会识别所有动物却用了一万张不同角度的猫照片和十张其他动物的照片来训练模型。因此这个项目的核心思路非常明确将“数据剪枝”与“主动学习”相结合构建一个智能化的训练数据选择与优化流程。数据剪枝负责“做减法”从海量候选数据中剔除冗余、低信息量的样本留下精华主动学习则负责“做加法”指导我们下一步应该计算哪些新的、信息量最大的原子构型。两者的结合目标是以最小的量子力学计算成本获得一个在广阔构型空间内都稳健、准确的机器学习势。这不仅关乎计算效率更直接决定了模型能否真正走出实验室应用于发现新材料、预测新性能的实际问题中。2. 核心思路拆解从“堆数据”到“选数据”的范式转变传统的机器学习势开发流程可以概括为“采样-计算-训练”的循环。开发者根据自己的物理直觉或经验手动选择一些初始结构如晶体原胞、表面、点缺陷等进行DFT计算得到能量和力然后训练模型。如果模型在新测试集上表现不佳就再凭感觉补充一些数据如此反复。这个过程高度依赖专家经验且效率低下容易陷入局部最优——你总在给你已经熟悉的区域补充数据而模型未知的、可能更重要的区域却被忽视了。我们的优化策略正是要打破这种依赖经验的“黑箱”操作建立一个系统化、可量化的数据管理框架。2.1 数据剪枝识别并剔除数据中的“水分”数据剪枝的核心思想是并非所有数据点对模型训练的贡献都是均等的。有些数据点易于学习或与其他点高度相似移除它们对模型性能影响甚微却能大幅提升训练速度并可能改善泛化能力减少过拟合风险。在原子间势能的语境下我们可以从几个维度来定义数据的“价值”几何冗余度两个原子构型如果通过旋转、平移或置换对称原子后完全一致或者它们的局部原子环境通过描述符表征的欧氏距离非常小那么它们在训练数据中就是冗余的。保留一个即可。能量/力信息量处于势能面平坦区域如平衡结构附近的构型其能量和力对原子位置的导数很小提供的信息有限。而处于势能面陡峭或复杂区域如键断裂、过渡态的构型其力值很大或变化剧烈对定义势能面形状至关重要。学习难度与遗忘性借鉴“示例遗忘”的研究在训练过程中那些被模型快速、稳定学会的样本在整个训练周期中很少被错误分类或预测其信息可能已被其他样本所涵盖重要性相对较低。基于这些原则常用的剪枝策略包括基于描述符的聚类去重使用原子局域环境描述符如ACSF、SOAP、原子向量等对所有候选构型进行表征然后应用聚类算法如K-Means, DBSCAN, 谱聚类。在每个聚类内部可以只保留中心点或一个代表性样本。这种方法能有效去除几何冗余。基于模型不确定性的筛选用一个小型、快速但不确定度估计能力强的代理模型或委员会模型对候选数据池进行预测。那些模型预测不确定性如方差、熵最高的样本往往是当前模型认知最模糊的价值最高反之不确定性极低的样本可以考虑剪枝。但需注意初始模型可能对未知区域普遍不确定所以此方法更适用于迭代过程中的精剪枝。基于梯度/力幅值的筛选直接选择那些原子受力幅值大的构型。因为力直接关联于势能面的梯度大力值区域通常对应着键合作用的临界点对定义势能面至关重要。注意剪枝是一把双刃剑。过于激进的剪枝可能会误删掉一些看似“普通”但实则对定义势能面整体偏移即绝对能量标度关键的样本或者破坏数据集的平衡性。因此剪枝通常需要与主动学习循环结合并在一个独立的验证集上密切监控模型性能的变化。2.2 主动学习让模型告诉你它需要学什么如果说数据剪枝是“静态优化”那么主动学习就是“动态寻优”。它形成了一个闭环工作流初始模型与查询策略用一个较小的、高质量种子数据集训练一个初始机器学习势模型。定义查询策略即如何从庞大的未标记候选池由分子动力学、蒙特卡洛采样或构型空间随机扰动生成中选择下一个最值得进行昂贵DFT计算的构型。不确定性采样与探索最常用的查询策略就是基于模型的不确定性。对于回归任务预测能量、力不确定性可以通过委员会分歧训练多个模型看其预测方差、Dropout扰动、或专门设计能输出不确定度的模型如高斯过程、贝叶斯神经网络来估计。选择不确定性最高的构型进行DFT计算相当于让模型去探索它最不了解的领域。迭代扩充与模型更新将新计算得到的DFT数据能量、力、应力加入训练集重新训练或微调模型。更新后的模型对之前的高不确定性区域有了新的认识然后再次评估候选池选择下一批样本。收敛判断当新增样本带来的模型性能提升在独立测试集上低于某个阈值或所有候选样本的不确定性都降至很低水平时循环终止。这个过程的强大之处在于它将有限的计算资源精准地投放在构型空间中最具信息量的区域避免了在已知区域或简单区域的重复计算。对于材料模拟这意味着我们能够自动发现并聚焦于缺陷反应路径、相变过渡态、表面重构过程等关键但难以凭直觉预见的区域。2.3 策略融合构建高效能数据流水线在实际操作中我们并非简单串联剪枝和主动学习而是将它们有机融合在一个迭代框架中阶段一初始化与粗剪枝。通过经典力场或低精度方法进行初步的分子动力学采样生成一个庞大的、覆盖可能构型空间的初始候选池。对这个池子进行基于几何描述符的聚类去重移除明显的冗余样本得到一个规模适中的“粗选池”。阶段二主动学习循环。从当前训练集训练模型。用该模型预测“粗选池”中所有剩余样本的不确定性和/或力幅值。根据不确定性排序选取Top-K个样本进行DFT计算。将新数据加入训练集。这里可以引入“精剪枝”在加入前评估新数据与现有训练集的相似度如果某个新样本与某个旧样本过于相似可以考虑合并或赋予较低权重。更新模型。同时可以将那些被模型多次评估为极低不确定性的样本从“粗选池”中移出动态剪枝缩小后续查询的范围。阶段三验证与终止。每一轮迭代后在一个精心构建的、覆盖各种关键物理场景弹性变形、空位形成、滑移等的独立测试集上评估模型性能。当性能收敛且候选池中不再有高不确定性样本时流程结束。这个融合策略确保了每一份DFT计算资源都花在了“刀刃”上最终得到的训练集规模可能只有传统方法的十分之一甚至更少但模型在目标应用场景下的泛化能力却显著更强。3. 关键技术细节与实操要点解析要将上述思路落地需要解决一系列具体的技术问题。这里结合我实际项目中的经验拆解几个关键环节。3.1 原子结构描述符的选择与计算描述符是将原子构型转化为机器学习模型可处理数字向量的桥梁。它的质量直接决定了模型对几何变换旋转、平移、置换的对称性是否满足以及能否有效区分不同的原子环境。主流选择对称函数如ACSFBehler-Parrinello型神经网络势的标配。概念直观计算快速但对于复杂的多元素体系或需要高阶角向信息的场景设计起来很繁琐。SOAPSmooth Overlap of Atomic Positions目前最流行、理论最完备的描述符之一。它通过将原子密度进行球谐展开和径向基函数展开得到一个对旋转、平移和原子置换具有不变性的描述子。其“平滑性”非常适合高斯过程回归也与许多现代等变神经网络势兼容。可以使用DScribe或quippy库来计算。原子向量Atom-centered Vectors一些图神经网络势如MACE中内嵌的描述方式通常与模型架构共同优化。实操要点一致性是关键训练、验证、测试以及主动学习候选池中的所有构型必须使用完全相同的描述符参数径向截断半径、基函数数量等进行计算。任何微小的不一致都会引入系统性误差。截断半径的权衡截断半径定义了每个原子的局部环境范围。半径太小会丢失重要的长程相互作用信息特别是对于金属或离子体系半径太大会大幅增加计算量且可能引入不必要的噪声。通常需要根据体系特性如键长、相互作用范围通过试验确定一般在5-8 Å之间。归一化处理计算出的描述符向量通常需要归一化如StandardScaler以加速模型训练并提升数值稳定性。切记归一化的参数均值、标准差必须从训练集中计算并固定然后用于转换所有其他数据。3.2 不确定性量化的可靠方法不确定性估计是主动学习的引擎。不可靠的不确定性估计会导致查询策略失效要么在已知区域打转要么盲目探索不重要的区域。委员会模型Ensemble这是最稳健、最推荐的方法。训练5-10个相同架构但不同随机种子初始化的模型。对于一个新构型委员会成员预测结果的方差对于能量和力就是不确定性的一个很好度量。方差越大分歧越大不确定性越高。优点实现简单概念清晰通常能给出可靠估计。缺点训练和推理成本是单模型的N倍。需要确保委员会成员具有足够的多样性不仅来自随机种子还可以来自数据子采样、超参数微变等。Dropout MC蒙特卡洛Dropout在训练时使用Dropout在预测时也保持Dropout开启进行多次前向传播将多次预测的统计分布作为不确定性估计。这可以近似为贝叶斯推理。优点只需训练一个模型推理时多次前向传播的成本远低于训练多个模型。缺点不确定性估计的质量高度依赖于Dropout率和网络结构调参需要技巧其理论完备性不如委员会法。专门的不确定性感知模型高斯过程GP天生能提供预测均值和方差不确定性。对于中等规模的数据集10k个原子环境非常有效且理论优美。但对于大规模数据集其立方级的计算复杂度成为瓶颈。贝叶斯神经网络BNN将网络权重视为概率分布可以给出预测分布。但训练复杂计算开销大在实际的材料势能建模中应用不如前两者广泛。实操心得从委员会法开始在项目初期尤其当训练集规模不大时使用5-7个模型的委员会是性价比最高的选择。它能给你对模型可靠性的直观感受。不确定性需要校准高的预测方差不一定总对应大的预测误差。建议在验证集上检查“不确定性-误差”的相关性。一个好的不确定性估计应该与预测误差有较强的正相关。如果没有可能需要调整模型架构或训练策略。力不确定性的聚合对于主动学习我们通常关注每个原子的受力不确定性。常见的查询标准是选择所有原子中受力不确定性最大值或平均值最高的那些构型。也可以将能量和力的不确定性结合起来考虑。3.3 聚类算法在数据剪枝中的应用聚类是去除几何冗余的核心工具。目标是将描述符空间每个原子环境或每个整体构型用一个高维向量表示中距离近的点归为一类每类只保留一个代表。算法选择K-Means / MiniBatch K-Means需要指定聚类数K。适用于对数据集规模有大致预估的场景。计算效率高。DBSCAN不需要指定聚类数能识别噪声点离群点。非常适合我们这种场景因为那些远离所有聚类中心的“噪声点”很可能就是构型空间中稀有但重要的样本如缺陷、过渡态不仅不应被剪枝反而可能是主动学习需要优先查询的对象这是DBSCAN在数据剪枝中一个非常巧妙的用法。谱聚类Spectral Clustering在描述符空间数据分布复杂、非凸时效果可能更好但计算成本较高对于超大规模初始池可能不适用。亲和传播Affinity Propagation自动确定聚类数但计算复杂度高通常只用于较小规模数据。实操步骤与参数调优特征准备将所有构型的原子环境描述符集合成一个巨大的矩阵。如果构型很大可以考虑对每个构型采样一部分原子环境来代表以降低计算量。降维可选但推荐描述符维度可能很高SOAP可达数百维。使用PCA或t-SNE进行降维如到50维或2-3维用于可视化可以大幅提升聚类效率并帮助直观理解数据分布。运行聚类以DBSCAN为例关键参数是eps邻域半径和min_samples核心点所需的最小邻居数。可以过“k-距离图”来辅助选择eps对每个点计算与其第k个最近邻的距离排序后绘图选择图中拐点对应的距离作为eps。后处理与代表点选择对于每个聚类可以选择距离聚类中心最近的点作为代表也可以随机选择。对于DBSCAN识别出的噪声点标签为-1需要单独保留它们将是后续主动学习重点关注的对象。评估剪枝后检查剩余数据集的规模并确保其仍然覆盖了关键的物理特征可以通过可视化在降维空间中的分布来粗略判断。4. 完整工作流实现与核心代码逻辑下面我将以一个典型的金属体系例如钽Ta为例勾勒出结合了数据剪枝与主动学习的完整机器学习势开发工作流。这里会涉及一些伪代码和关键步骤的说明使用的工具栈包括ASE原子模拟环境、DScribe描述符计算、scikit-learn聚类与机器学习、PyTorch神经网络模型以及LAMMPS/FitSNAP势函数部署与验证。4.1 阶段一初始数据生成与粗剪枝import ase from ase import Atoms from ase.calculators.emt import EMT # 使用经验势快速生成初始数据 from ase.md.verlet import VelocityVerlet from ase import units import numpy as np from dscribe.descriptors import SOAP from sklearn.cluster import DBSCAN from sklearn.decomposition import PCA import pickle # 1. 生成初始候选池使用经验势进行高温MD采样探索构型空间 def generate_initial_pool(num_structures10000): initial_structures [] # 创建不同尺寸的超胞、引入空位、间隙原子等 for _ in range(num_structures): # 随机创建或扰动一个Ta的晶体结构 atoms create_random_ta_structure() # 用EMT经验势进行短时MD采样不同构型 atoms.calc EMT() dyn VelocityVerlet(atoms, timestep1*units.fs) # 每隔一定步数保存一个快照 for i in range(100): dyn.run(10) snapshot atoms.copy() initial_structures.append(snapshot) return initial_structures # 2. 计算SOAP描述符以每个原子的环境为单位 def compute_soap_descriptors(structures, species[Ta]): soap SOAP( speciesspecies, periodicTrue, r_cut5.0, # 截断半径根据体系调整 n_max8, # 径向基函数数量 l_max6, # 角向阶数 sigma0.2, # 高斯宽度 crossoverTrue ) all_descriptors [] for atoms in structures: # 计算每个原子的SOAP向量然后取平均或其他池化方式来代表整个构型 # 为了聚类也可以将所有原子的描述符堆叠起来 desc soap.create(atoms) all_descriptors.append(desc) # 将所有描述符展平或进行合适的池化形成 (n_samples, n_features) 矩阵 X np.vstack([d.reshape(len(d), -1).mean(axis0) for d in all_descriptors]) # 示例取构型平均 return X # 3. 使用DBSCAN进行聚类去重 def prune_by_clustering(X, eps0.5, min_samples5): clustering DBSCAN(epseps, min_samplesmin_samples, metriceuclidean).fit(X) labels clustering.labels_ # 找出每个聚类中的代表点这里取离聚类中心最近的点需要先计算中心 unique_labels set(labels) representative_indices [] for label in unique_labels: if label -1: # 噪声点全部保留它们很重要 noise_indices np.where(labels label)[0] representative_indices.extend(noise_indices.tolist()) else: cluster_points X[labels label] cluster_center cluster_points.mean(axis0) distances np.linalg.norm(cluster_points - cluster_center, axis1) representative_idx np.where(labels label)[0][np.argmin(distances)] representative_indices.append(representative_idx) return representative_indices, labels # 主流程 if __name__ __main__: print(生成初始候选池...) structures_pool generate_initial_pool(5000) # 先生成5000个试试水 print(f初始池大小: {len(structures_pool)}) print(计算SOAP描述符...) X_features compute_soap_descriptors(structures_pool) print(执行DBSCAN聚类剪枝...) rep_indices, cluster_labels prune_by_clustering(X_features, eps0.3, min_samples3) pruned_structures [structures_pool[i] for i in rep_indices] print(f剪枝后池大小: {len(pruned_structures)} (包含 {np.sum(np.array(cluster_labels)-1)} 个噪声点)) # 保存剪枝后的候选池 with open(pruned_candidate_pool.pkl, wb) as f: pickle.dump(pruned_structures, f)这个阶段结束后我们得到了一个去除了大量几何冗余构型的“粗选池”其中还特意保留了DBSCAN识别出的“噪声点”可能是稀有构型。4.2 阶段二主动学习迭代循环import torch import torch.nn as nn from torch.utils.data import DataLoader, TensorDataset import numpy as np from sklearn.model_selection import train_test_split from ase.calculators.vasp import Vasp # 假设使用VASP做DFT import subprocess import time # 假设我们有一个神经网络模型类 class EnergyForceModel(nn.Module): # ... 模型定义 (例如使用PyTorch Geometric的图网络或简单的原子环境网络) pass # 1. 准备一个非常小的种子数据集例如完美晶体和一些微小扰动 def prepare_seed_data(): # 手动创建或从已有文献数据中加载 seed_structures [...] # List of ASE Atoms objects seed_energies [...] # List of DFT total energies seed_forces [...] # List of force arrays return seed_structures, seed_energies, seed_forces # 2. 委员会模型训练与不确定性估计 class Committee: def __init__(self, n_models5, model_classEnergyForceModel): self.models [model_class() for _ in range(n_models)] self.n_models n_models def train(self, train_loader, epochs100): for i, model in enumerate(self.models): print(fTraining committee member {i1}/{self.n_models}) # 每个模型可以使用不同的数据子集或随机种子以增加多样性 optimizer torch.optim.Adam(model.parameters()) # ... 训练循环 ... def predict_with_uncertainty(self, descriptor_batch): 对一批描述符进行预测返回能量/力的均值和方差 energies [] forces [] with torch.no_grad(): for model in self.models: e, f model(descriptor_batch) # 假设模型输出能量和力 energies.append(e.numpy()) forces.append(f.numpy()) energies np.array(energies) # shape: (n_models, batch_size) forces np.array(forces) # shape: (n_models, batch_size, n_atoms, 3) e_mean energies.mean(axis0) e_std energies.std(axis0) # 力的不确定性可以计算每个原子受力分量的标准差然后取范数或最大值 f_std_per_atom np.linalg.norm(forces.std(axis0), axis-1) # shape: (batch_size, n_atoms) f_uncertainty f_std_per_atom.max(axis-1) # 取每个构型中原子受力的最大不确定性 return e_mean, e_std, f_uncertainty # 3. 主动学习循环主函数 def active_learning_loop(initial_train_data, candidate_pool, max_iterations20, queries_per_iter5): train_structures, train_energies, train_forces initial_train_data committee Committee(n_models5) for iteration in range(max_iterations): print(f\n Active Learning Iteration {iteration1} ) # a. 用当前训练数据训练委员会模型 train_loader prepare_dataloader(train_structures, train_energies, train_forces) committee.train(train_loader) # b. 对候选池中的所有结构进行不确定性评估 print(Evaluating uncertainty on candidate pool...) uncertainties [] for i, atoms in enumerate(candidate_pool): desc compute_soap_descriptors_for_single(atoms) # 计算单个构型描述符 _, _, f_unc committee.predict_with_uncertainty(desc.reshape(1, -1)) uncertainties.append((i, f_unc[0])) # 记录索引和受力不确定性 # c. 根据不确定性排序选择Top-K个查询 uncertainties.sort(keylambda x: x[1], reverseTrue) selected_indices [idx for idx, _ in uncertainties[:queries_per_iter]] selected_structures [candidate_pool[i] for i in selected_indices] print(fSelected {len(selected_structures)} structures with highest uncertainty.) # d. 调用DFT计算这里是耗时最长的部分通常提交到超算队列 new_energies, new_forces run_dft_calculations(selected_structures) # e. 将新数据加入训练集并从候选池中移除已计算的 for idx, atoms, e, f in zip(selected_indices, selected_structures, new_energies, new_forces): train_structures.append(atoms) train_energies.append(e) train_forces.append(f) # 从候选池中移除已选中的或标记为已计算 candidate_pool [candidate_pool[i] for i in range(len(candidate_pool)) if i not in selected_indices] # f. 在独立测试集上评估当前模型性能 current_performance evaluate_on_testset(committee) print(fIteration {iteration1} test error: {current_performance}) # g. 检查收敛条件例如性能提升阈值或候选池最大不确定性阈值 if convergence_check(current_performance, uncertainties): print(Active learning loop converged.) break return committee, train_structures, train_energies, train_forces # 辅助函数运行DFT示例实际需根据集群环境配置 def run_dft_calculations(structures): energies, forces [], [] for atoms in structures: atoms.calc Vasp(..., xcPBE, ...) # 配置VASP参数 energy atoms.get_potential_energy() force atoms.get_forces() energies.append(energy) forces.append(force) return energies, forces这个循环会持续进行直到模型性能满足要求或候选池“干涸”。每一轮迭代我们都将最宝贵的DFT计算资源用在了当前模型最不确定的构型上。4.3 阶段三模型验证与部署主动学习循环结束后我们得到了一个“浓缩”的高质量训练集和一个训练好的委员会模型。通常我们会用全部数据重新训练一个单一的最优模型用于最终部署因为委员会模型推理速度慢。最终模型训练使用最终收集到的所有数据进行充分的超参数优化网络深度、宽度、学习率调度等训练一个单一的神经网络势。全面验证在独立的测试集上进行严格测试这个测试集应涵盖目标应用的所有相关物理性质能学性质晶格常数、弹性常数、内聚能、空位形成能。力学性质表面能、广义层错能GSFE。动力学性质声子谱通过有限位移法或微扰法。有限温度性质热膨胀系数、热导率通过非平衡分子动力学。反应路径扩散势垒通过NEB方法。部署到MD引擎通过LAMMPS的ML-IAP接口或FitSNAP等工具将训练好的模型参数转换为LAMMPS可调用的势函数文件进行大规模分子动力学模拟。5. 常见问题、避坑指南与实战心得在实际操作中你会遇到各种各样的问题。下面是我总结的一些典型陷阱和应对策略。5.1 数据与描述符相关问题问题一描述符区分度不足导致重要构型被误剪枝。现象聚类后一些物理上不同的构型如体心立方和六角密堆被分到了同一类。排查检查描述符参数。r_cut是否足够大以捕捉到第二近邻甚至第三近邻n_max和l_max是否提供了足够的分辨率可以尝试可视化描述符的PCA降维结果看不同构型是否在投影空间中有良好分离。解决增加描述符的复杂度提高n_max,l_max或尝试不同的描述符类型如从ACSF切换到SOAP。对于多元素体系确保描述符能区分不同元素。问题二DFT计算数据存在噪声或系统性误差。现象模型训练曲线震荡或即使在大数据集上也无法达到预期精度。排查检查DFT计算设置的一致性。所有计算是否使用相同的赝势、截断能、K点网格是否所有构型都充分弛豫到了基态力的收敛标准是否足够严格如0.01 eV/Å解决标准化DFT计算流程。使用脚本批量提交并检查所有计算是否正常结束。对初始训练数据可以进行手动复查比较不同计算设置对简单体系如二聚物、小团簇能量的影响。5.2 模型训练与不确定性估计问题问题三委员会成员“塌缩”不确定性估计失效。现象委员会中所有模型的预测结果几乎完全一致方差始终接近零导致主动学习无法选出新样本。排查检查委员会成员的初始化、训练数据流和优化器。如果所有模型从相同的初始化开始用完全相同的数据和顺序训练它们很可能收敛到相同的局部最优解。解决数据多样性为每个委员会成员使用不同的训练数据子集例如Bootstrap采样。模型多样性使用略有不同的网络架构如不同层数、激活函数或超参数。随机性确保使用不同的随机种子初始化权重和DataLoader的洗牌。问题四主动学习陷入“局部探索”只关注某一类高不确定性区域。现象迭代多次后新增数据都来自构型空间中某个特定区域如某种特定的表面重构而其他区域被忽略。排查查询策略是否只依赖于瞬时不确定性候选池的生成是否本身就有偏差未能覆盖某些区域解决混合查询策略除了不确定性采样 exploitation 引入随机采样或基于多样性 exploration 的采样。例如每轮选择3个不确定性最高的和2个随机样本。改进候选池生成使用更丰富的采样方法如元动力学Metadynamics在集体变量空间进行增强采样或使用遗传算法搜索低能量路径以确保候选池能广泛覆盖相关的构型空间。5.3 工作流程与性能优化问题五描述符计算和聚类成为瓶颈。现象初始候选池有数十万个原子环境计算SOAP描述符和运行DBSCAN耗时极长。解决并行化使用DScribe的并行计算功能或使用joblib进行多进程计算。降采样对于非常大的构型不必使用所有原子的描述符。可以随机采样一部分原子环境来代表整个构型进行聚类。近似算法对于超大规模数据使用MiniBatchKMeans或HDBSCANDBSCAN的层次化变体对参数更不敏感可能更高效。分阶段处理先使用计算更快的描述符如简单的径向分布函数进行快速初筛和粗聚类再对粗聚类后的子集使用高精度的SOAP进行细聚类。问题六如何确定主动学习何时停止主观标准模型在测试集上的关键性质如弹性常数、空位形成能误差达到你的研究要求例如与DFT误差5%。客观标准性能平台期连续N轮如3-5轮迭代测试集误差下降幅度小于一个阈值如1%。不确定性饱和候选池中剩余样本的最大不确定性低于一个预设阈值。新增数据价值低新加入的样本对模型参数的更新如梯度范数贡献很小。最后一点心得数据剪枝与主动学习不是完全自动化的“黑箱”。在整个流程中人的监督和物理直觉仍然至关重要。定期可视化被选中进行DFT计算的构型看看它们是否合理比如没有不现实的原子重叠。检查模型在简单测试案例上的表现。这个框架极大地提升了效率但它最终是一个辅助工具帮助你这位材料科学家或计算化学家更聪明地使用计算资源而不是取代你的判断。从一个精心设计的小规模种子数据集开始结合智能的数据选择策略你完全有可能用比传统方法少一个数量级的DFT计算量训练出一个更稳健、更可靠的机器学习势函数。

查看全文

http://www.rkmt.cn/news/1378495.html