1. 项目概述与核心价值在大型强子对撞机LHC这样的高能物理实验前沿我们每天都在与海量的数据打交道。每一次质子-质子的对撞都会产生数以千计的次级粒子它们携带着宇宙最初时刻的物理信息。其中重味强子如包含粲夸克或底夸克的D介子、B介子的衰变产物是我们窥探夸克胶子等离子体QGP性质、检验微扰量子色动力学pQCD理论的“信使”。这些重味夸克产生于对撞的最初硬散射过程它们像坚硬的探针一样穿过整个高温高密的QGP介质最终衰变为我们留下解读介质性质的线索。然而从实验数据的汪洋大海中精准捞出这些“信使”并非易事。重味强子一个主要的衰变通道是半轻子衰变例如B或D介子衰变成一个轻子电子或μ子和一个中微子。麻烦就在于这个中微子——它几乎不与探测器发生作用直接“隐身”了导致我们无法完整重建衰变过程。传统的主流方法是“鸡尾酒法”cocktail fitting即通过复杂的蒙特卡洛模拟生成所有可能的轻子来源如光子转换、轻味强子衰变、Drell-Yan过程等的贡献模板然后从观测到的总轻子谱中逐一减去这些背景。这个方法高度依赖模拟的准确性计算资源消耗大且本质上是一种间接的、基于整体分布的统计扣除。有没有一种更直接、更“聪明”的办法能在单条径迹track-level的层面上就判断出这个电子或μ子是不是来自重味衰变呢这正是我们这项工作的出发点。我们尝试将机器学习特别是以XGBoost为代表的梯度提升决策树模型引入到高能物理的粒子鉴别任务中。其核心思路非常直观既然重味强子寿命较长其衰变顶点会偏离对撞主顶点那么其衰变出的轻子其运动学如横向动量和拓扑学如距离最近点特征理应与来自主顶点附近产生的轻味衰变轻子有所不同。机器学习模型正是学习这些细微差异的专家。我们构建了一个基于XGBoost的二分类模型输入特征仅包含三个物理可观测量轻子的距离最近点DCA、赝快度η和横向动量pT。在√s 13.6 TeV的质子-质子碰撞模拟数据上训练后模型在区分重味衰变电子与背景电子时达到了约98%的准确率对于重味衰变μ子识别准确率更是接近100%。更重要的是这个训练好的模型展现出了良好的泛化能力能够较好地预测在更低对撞能量如7 TeV和900 GeV下的重味轻子产额。这项工作为高能物理实验中的粒子鉴别提供了一条不依赖于传统“鸡尾酒法”的新途径尤其适合在LHC运行中实时处理海量数据或在对蒙特卡洛模拟输入有限的新实验环境中实现快速、准确的粒子识别。2. 核心物理背景与问题定义2.1 为什么重味衰变轻子如此重要要理解我们工作的意义首先得明白重味物理在高能核物理中的特殊地位。在LHC上让质子以接近光速对撞一个核心目标是产生并研究一种被称为夸克胶子等离子体QGP的极端物质状态。这是一种在宇宙大爆炸后几个微秒内存在的、夸克和胶子不再被囚禁在强子内的“解禁闭”状态。然而QGP寿命极短约10^-23秒我们无法直接观测它必须借助各种“探针”。重味夸克粲夸克、底夸克就是一类极其优秀的探针。原因有三第一它们质量大mc ≈ 1.3 GeV/c² mb ≈ 4.2 GeV/c²其产生主要依赖于对撞初期的硬散射过程可以用微扰QCD理论进行相对可靠的计算。第二由于质量大它们在产生的瞬间速度远低于光速有足够的时间与QGP介质发生充分的相互作用其能量损失和集体运动模式携带着介质性质的关键信息。第三它们最终会强子化为重味强子如D、B介子或夸克偶素如J/ψ并通过弱作用衰变产生我们探测器可以观测的轻子或强子。在这些衰变产物中半轻子衰变道如B → e/μ ν X具有约10%的分支比虽然单个事例无法完全重建但其总产额大统计性好是测量重味产生截面的重要手段。因此准确测量重味衰变轻子的产额、动量谱、以及与其它粒子的关联是研究重味夸克在QGP中能量损失、集体流、以及强子化机制的基础。2.2 传统方法的挑战与机器学习的机遇传统上实验上获取重味衰变轻子信息的主要方法是“包容谱减法”。具体步骤是测量包容轻子谱在某个快度区间和pT区间测量所有探测到的电子或μ子的产额。模拟背景贡献利用PYTHIA等蒙特卡洛事件生成器模拟所有非重味来源的轻子产额。这包括光子转换γ → e⁺e⁻轻味强子衰变如π⁰ Dalitz衰变 η → γe⁺e⁻ K⁺ → μ⁺νμ等夸克偶素衰变如J/ψ → e⁺e⁻Drell-Yan过程qq̄ → γ*/Z → l⁺l⁻做差从测量的包容谱中减去模拟得到的所有背景贡献剩下的就在理想情况下被认为是来自重味衰变的轻子。这个方法存在几个固有难点高度依赖模拟结果的准确性严重依赖于蒙特卡洛模拟对各类背景过程描述的精确度。任何模拟与现实的偏差都会直接传递到最终结果。系统误差复杂背景模板的归一化、形状的不确定性会带来复杂的系统误差。无法进行事例级鉴别这是一个纯粹的统计方法。对于任何一个探测到的具体轻子我们无法判断它究竟来自重味衰变还是背景。这限制了许多基于单事例或关联测量的高级分析。机器学习特别是分类算法为解决“事例级鉴别”这个痛点提供了全新的思路。其核心优势在于直接学习特征模型可以直接从每个轻子的可观测特征如DCA、pT中学习区分信号与背景的决策边界。减少模拟依赖虽然训练数据仍来自模拟但模型一旦训练完成其应用可以更直接。并且模型学习的是特征空间的区分能力对模拟中整体产额的绝对归一化依赖可能降低。实现实时鉴别训练好的轻量级模型可以集成到实验的在线触发或离线重建软件中实现对单条径迹的快速分类为后续的实时数据筛选或精细分析提供标签。注意机器学习方法并非要完全取代传统方法而是提供了一个强有力的互补工具。在模拟可靠、背景复杂的区域传统方法可能更稳健而在需要快速、事例级判断的场景机器学习方法更具优势。两者结合可以交叉验证提高物理结果的可靠性。3. 方法论详解从数据生成到模型构建3.1 模拟数据生成用PYTHIA8搭建“数字对撞机”任何数据驱动的机器学习研究都始于高质量的数据。在高能物理领域PYTHIA8是当前最主流的质子-质子碰撞事件生成器之一。它基于部分子模型和微扰QCD模拟从硬散射、部分子簇射、强子化到不稳定粒子衰变的完整链式过程。在我们的研究中我们生成了约10^9个√s 13.6 TeV的质子-质子碰撞事件。为了尽可能贴近真实实验条件我们对PYTHIA8进行了关键设置顶点展宽Beams:allowVertexSpread on。在真实对撞中质子束流不是理想的点对撞顶点在束流方向z方向上有一个分布。启此选项后对撞顶点将服从高斯分布而不是固定在原点。顶点限制Beams:maxDevVertex 5。将顶点在z方向的最大偏移限制在5毫米以内这与大型探测器的束流管道尺寸相匹配。色重连接ColourReconnection:reconnect on且ColourReconnection:mode 2。色重连接是描述多部分子系统中颜色场如何重新排列以形成无色强子的非微扰效应。开启并使用Gluon Move模型能更好地描述实验观测到的许多软物理现象。硬QCD过程HardQCD:all on。开启所有主要的2→2硬QCD过程确保重味夸克对cc̄, bb̄的产生被包含在内。调谐参数Tune:pp 5。使用著名的4C调谐该调谐集基于早期LHC数据优化能较好地再现实验观测到的带电粒子多重数、横动量谱等全局观测量。通过这些设置PYTHIA8为我们生成了一个包含所有粒子信息包括母粒子、子粒子、动量、顶点等的“完美”探测器输出。最关键的是我们可以利用PYTHIA8的事件记录对每一个末态轻子进行“真相标记”Truth Labeling如果一个电子或μ子的母粒子是B或D介子或其激发态则标记为“重味衰变轻子”正样本否则标记为“轻味衰变或其它来源轻子”负样本。这为我们提供了监督学习所需的精确标签。3.2 特征工程如何让机器“看懂”粒子轨迹模型性能的好坏很大程度上取决于输入特征是否抓住了信号与背景的本质区别。我们选择了三个物理上直观且实验上易于获取的特征距离最近点DCA这是最核心的特征。DCA定义为粒子轨迹在横平面垂直于束流方向上到对撞主顶点的最短距离。对于来自主顶点直接产生或轻味强子寿命极短衰变的轻子其轨迹反向延长线通常会穿过主顶点DCA接近于零。而对于来自重味强子寿命约10^-12秒衰变的轻子由于其母粒子飞行了一段距离典型为几百微米后才衰变其衰变顶点偏离主顶点因此其子轻子的轨迹反向延长线不通过主顶点DCA为一个显著的非零值。其计算公式为DCA |L⃗_xy| · sinθ其中L⃗_xy是从主顶点指向衰变顶点的矢量在横平面上的投影θ是L⃗_xy与轻子动量矢量p⃗在横平面上投影的夹角。这个概念示意图在物理分析中非常常见。横向动量pT轻子动量在横平面上的分量。重味夸克质量大其衰变产生的轻子平均pT通常比来自π⁰、η等轻味粒子衰变的轻子更高pT谱更“硬”。这个特征有助于区分低pT区域占主导的背景。赝快度η描述粒子飞出方向与束流轴夹角的一个度量η -ln[tan(θ/2)]其中θ是粒子方向与束流轴的夹角。η的绝对值越大粒子越靠近前向区域。我们根据ALICE探测器的实际接收度对电子选择中间快度|η| 0.8对μ子选择前向快度2.5 η 4.0。η本身可能不是强区分特征但它与探测器几何接受度和背景组成相关加入模型有助于其适应不同的探测区域。实操心得特征选择与相关性检查在将特征喂给模型之前绘制特征间的皮尔逊相关系数矩阵图如图2所示是一个好习惯。我们发现对于电子DCA、DCAzz方向的DCA和pT之间几乎没有线性相关性这说明我们选取的特征是相对独立的信息冗余少。然而对于前向区域的μ子DCA和DCAz显示出负相关。这是因为在前向区域粒子的轨迹几何使得横向和纵向的偏离产生耦合。虽然存在相关性但鉴于DCA和DCAz物理意义明确且重要我们仍然将它们都保留作为特征。模型如树模型本身能够处理特征间的非线性关系。3.3 类别不平衡与pT分区间训练应对现实数据挑战我们面临一个严峻的挑战类别极度不平衡。在质子-质子碰撞中轻味强子如π⁰, η的产额比重味强子D, B高出几个数量级。因此在包含轻子样本中来自重味衰变的轻子正样本是绝对的“少数派”。如果直接用全样本训练模型会倾向于将所有样本都预测为占多数的背景类也能获得很高的整体准确率但这对于我们的目标——找出稀有的重味轻子——毫无用处。我们采取了两种策略应对过采样技术SMOTE我们对数量少的重味轻子样本进行过采样。SMOTE合成少数类过采样技术不是简单复制样本而是在特征空间中为少数类样本之间合成新的样本点从而增加少数类的多样性缓解不平衡问题。按pT区间分箱训练这是本工作一个非常关键且有效的技巧。我们不是用一个模型处理所有pT的轻子而是将整个pT范围划分成多个小区间例如0.5-1 GeV/c 1-2 GeV/c …在每个pT区间内分别准备训练数据、处理类别不平衡、并训练一个独立的XGBoost模型。为什么这样做因为信号和背景的pT分布形状不同其比例随pT剧烈变化。在很低pT 1 GeV/c区域背景如光子转换电子占压倒性优势信号极少。在中等和高pT区域信号比例逐渐上升。用一个全局模型去拟合这种动态变化的分类边界非常困难。分箱训练相当于为每个pT区间“量身定制”一个分类器每个分类器只需要处理该区间内相对固定的信号背景比任务大大简化模型性能显著提升。从结果也能看到低pT区如 2 GeV/c的识别误差相对较大这正是类别不平衡最严重的区域而我们的分箱策略最大限度地优化了每个区间的性能。3.4 XGBoost模型与超参数优化我们选择了XGBoost极致梯度提升算法。它是一种基于决策树的集成学习算法通过串行构建多棵弱决策树即“提升”每一棵新树都致力于纠正前一棵树的残差。XGBoost因其高效、准确、能处理缺失值、以及内置正则化防止过拟合而闻名。模型的性能高度依赖于超参数设置。我们采用贝叶斯优化来搜索最佳超参数组合这比传统的网格搜索Grid Search或随机搜索Random Search更高效。贝叶斯优化构建一个目标函数这里是验证集上的F1分数的概率模型并利用该模型选择最有希望的超参数进行下一次评估从而用更少的迭代找到更优解。我们关注的核心超参数包括n_estimators决策树的数量。数量太少可能欠拟合太多则增加过拟合风险和计算时间。learning_rate学习率控制每棵树对最终结果的贡献权重。较低的学习率通常需要更多的树但模型可能更稳健。max_depth单棵决策树的最大深度。深度越大树越复杂捕捉细节能力越强但也更容易过拟合。scale_pos_weight处理类别不平衡的关键参数。它通过增加少数类重味轻子误分类的惩罚权重让模型更关注少数类。通常设置为负样本数/正样本数的比值。我们的优化目标是最大化F1分数它是精确率Precision和召回率Recall的调和平均数。精确率高意味着我们找出的“重轻子”里假货少召回率高意味着真正的重味轻子被我们漏掉的少。在粒子物理中我们通常希望在保证高纯度的同时尽可能提高效率F1分数是一个很好的综合指标。4. 模型训练、评估与结果分析4.1 模型性能评估淆矩阵与特征重要性训练完成后我们在独立的测试集上评估模型性能。图4和图5的混淆矩阵直观地展示了结果对于电子图4模型对重味衰变电子HFE和轻味衰变电子LFE的识别准确率都达到了约98%。这是一个非常出色的结果。值得注意的是矩阵中真实HFE的数量约146万远小于真实LFE的数量约1047万这直观反映了我们之前提到的类别不平衡问题。尽管如此模型在正负样本上都保持了高准确率。对于μ子图5结果更加惊人。模型对重味衰变μ子HFM的识别准确率接近100%而对轻味衰变μ子LFM的准确率约为91%。后者的准确率稍低主要原因在于我们的模拟设置在PYTHIA8中π±和K±被设置为稳定粒子禁止其衰变成μ子。这导致训练数据中来自轻味衰变的μ子样本数量异常稀少模型学习不充分。这反而从侧面说明只要有足够的数据模型性能可以非常好。特征重要性分析图3揭示了模型做决策的依据对于电子DCA是压倒性最重要的特征其重要性得分远高于DCAz和η。这完全符合物理预期DCA是区分长寿命重味衰变和短寿命背景的最直接拓扑变量。对于μ子DCA和DCAz的重要性相当。这是因为在前向快度区粒子的轨迹几何使得纵向的顶点偏移信息也变得重要模型综合利用了横平面和纵平面的信息。4.2 跨能量泛化能力一个模型的多种“工况”一个严峻的考验是用13.6 TeV数据训练的模型能否预测7 TeV甚至900 GeV对撞能量下的物理这在实验上极具价值因为这意味着我们可能用一个在高能量、高统计量下训练的模型去分析低能量或早期低统计量的数据。我们将训练好的模型直接应用于√s 7 TeV和0.9 TeV的PYTHIA8模拟数据预测其重味轻子横动量谱。结果如图6电子和图7μ子所示。总体表现模型预测的pT谱红色方块与PYTHIA8的“真实”谱黑色圆点在大部分pT区间吻合得非常好比值在1附近波动。低pT区域的偏差在pT 2 GeV/c的区域对于电子预测值有大约10%的系统性偏高或偏低。这主要归因于该区域极端的类别不平衡背景占主导以及低pT粒子径迹重建和DCA测量的不确定性本身也更大。高pT与统计误差在0.9 TeV的高pT末端由于重味产生截面急剧下降导致统计量非常少误差棒很大。模型预测在误差范围内与模拟数据一致。结论尽管存在低pT区域的偏差但模型总体上成功捕捉了重味轻子产额随对撞能量变化的趋势展现了良好的泛化能力。这说明模型学习到的是基于DCA、pT等特征的普适性区分规律而非仅仅记忆了13.6 TeV数据的特定分布。4.3 物理观测量验证从产额到关联为了证明模型不仅是在“玩数字游戏”而是真的学到了正确的物理我们用模型的预测结果计算了几个关键的物理观测量并与PYTHIA8的“真相”及部分实验数据进行比较。1. 自归一化产额 vs. 带电粒子多重数图8展示了在13.6 TeV下重味与轻味衰变轻子的自归一化产额随归一化带电粒子多重数的变化。这是一个研究粒子产生机制与软硬过程关联的重要观测量。物理图像轻味粒子的产额随事件多重数近似线性增长接近yx的直线这符合“软”过程主导的图像。而重味轻子的产额增长则呈现超线性趋势在高多重数事件中增长更快。这是因为重味夸克产生于硬散射而一个硬散射往往伴随着一个喷注jet在相反方向产生喷注的碎裂会产生大量次级粒子从而推高了整个事件的多重数。因此高多重数事件中蕴含重味夸克的概率更大。模型表现XGBoost模型红色/蓝色方块完美地复现了PYTHIA8黑色/绿色圆点给出的这一非线性增长趋势。对于电子预测与“真相”高度一致。对于μ子模型对轻味衰变μ子的预测略有低估这与图5混淆矩阵中LFM准确率稍低的结果自洽。2. 重味轻子比例随pT的变化图9展示了重味衰变轻子在所有轻子重味轻味中所占比例随pT的变化。电子左图比例随pT单调上升在高pT区域趋近于1。这很容易理解低pT区域被海量的轻味衰变电子淹没随着pT升高来自重味衰变的、具有更硬pT谱的电子贡献逐渐占据主导。模型成功预测了不同对撞能量下的这一趋势并在13.6 TeV和7 TeV数据中观察到了中间pT区域的能量依赖性更高能量下比例更高。μ子右图在pT约1 GeV/c处比例出现一个明显的“凹陷”在0.9 TeV时尤其显著。这个现象可能源于前向快度区的运动学限制在较低对撞能量下产生一个高pT的重味强子并使其衰变出的μ子落入前向接收度内所需的相空间更小导致该pT区间内重味μ子的相对贡献下降。模型也捕捉到了这一细微特征。3. 轻子-强子方位角关联这是检验模型是否保留了粒子级关联信息的关键测试。我们计算了重味衰变电子与带电强子之间的方位角差Δφ分布并与ALICE实验在5.02 TeV下发布的数据进行对比图10。物理图像分布图中在Δφ 0处有一个“近侧峰”这来源于产生重味夸克的同一部分子碎裂产生的粒子处于同一喷注内在Δφ ≈ π处有一个“远侧峰”这来源于与重味夸克背对背产生的另一部分子碎裂产生的粒子反冲喷注。模型表现使用XGBoost模型识别出的“重味电子”计算出的关联函数红色方块与直接用PYTHIA8“真相”标签计算的结果黑色圆点高度一致并且两者都与ALICE实验数据蓝色三角在误差范围内符合得很好。这个结果至关重要它证明我们的模型在完成分类任务时没有破坏或扭曲轻子原本的关联特性。模型识别出的“重味电子”集合其与强子的角关联与真实的物理信号一致说明模型确实基于物理上正确的特征如DCA做出了分类而不是学习到了某种虚假的、会破坏关联的模式。5. 实操指南、挑战与未来展望5.1 复现与实验部署的考量要点如果你计划在类似的高能物理分析中应用此方法以下是一些关键的实操要点和注意事项数据准备与真相标签模拟是关键你需要一个可靠的蒙特卡洛事件生成器如PYTHIA8, EPOS, 或结合了探测器模拟的GEANT4来生成训练和测试数据。确保模拟的物理过程特别是重味产生和衰变、以及各类背景过程足够全面和精确。准确的真相标记必须能在模拟数据中追溯每个末态粒子的母粒子。这是获取监督学习标签的唯一途径。在ROOT或类似框架中这通常通过追踪粒子 decay chain 来实现。特征提取与预处理DCA的计算DCA的计算需要精确的主顶点和次级顶点或粒子轨迹参数。在真实实验中顶点重建存在分辨率。因此用于训练的特征应该用经过探测器响应模拟和重建算法处理后的“重建级”数据而不是“生成级”的完美数据这样模型才能学会处理实验中的测量误差。特征标准化虽然树模型对特征的尺度不敏感但将特征如pT, DCA进行标准化减均值除标准差或归一化缩放到[0,1]通常有助于加快训练速度并使超参数搜索更稳定。模型训练与验严格的数据分割必须将数据分为训练集、验证集和测试集。验证集用于超参数调优和早停测试集用于最终的性能评估且在整个训练过程中完全不可见。使用交叉验证由于数据宝贵建议在训练集上使用K折交叉验证来更稳健地评估模型性能和选择超参数。评估指标的选择准确率在不平衡数据上具有误导性。应重点关注精确率-召回率曲线PR Curve及其下的面积AUC-PR以及F1分数。对于物理分析可能还需要绘制信号效率 vs. 背景拒绝率的曲线以选择满足物理分析纯度要求的工作点。系统误差评估模型不确定性可以通过多次训练使用不同的随机种子来评估模型的稳定性。模拟依赖性这是最大的系统误差来源之一。需要用不同的蒙特卡洛模型如PYTHIA8不同调谐、或HERWIG生成的数据来训练和测试评估模型预测对模拟输入的敏感度。实验条件变化模型在不同运行周期、不同探测器状态下的性能可能需要重新校准。5.2 当前方法的局限性与挑战尽管结果令人鼓舞但我们必须清醒认识到当前方法的局限性和面临的挑战对模拟数据的依赖模型的训练和“真相”标签完全依赖于蒙特卡洛模拟。如果模拟对某些物理过程特别是背景过程的描述与真实数据有偏差那么模型学到的分类边界也可能是错误的。这被称为“模拟偏差”。外推风险模型在训练数据覆盖的pT、η范围内表现良好但将其应用到训练范围之外的区域如更高pT时性能可能会急剧下降。物理分析中需谨慎设定模型的应用范围。可解释性虽然XGBoost提供了特征重要性但它仍然是一个“黑箱”模型。我们很难理解模型在某个具体事例中做出判断的详细物理原因。在要求极高可靠性的物理测量中这可能是一个顾虑。计算成本与实时性训练一个高性能的XGBoost模型需要大量的数据和计算资源。然而一旦训练完成单次预测的速度非常快完全可以满足离线分析甚至在线触发系统的速率要求。5.3 未来发展方向这项工作为粒子鉴别打开了一扇新的大门未来的发展可以从以下几个方向深入结合深度学习方法可以尝试图神经网络GNN来直接处理粒子径迹和顶点构成的图结构数据或卷积神经网络CNN来处理探测器簇射图像可能能挖掘出更深层次的特征。域适应与迁移学习为了解决模拟偏差问题可以研究域适应技术让在模拟数据上训练的模型能够更好地适应真实实验数据分布。弱监督与自监督学习探索仅使用部分标签或完全无标签的数据进行训练的方法减少对完美模拟标签的依赖。应用于重离子碰撞将方法推广到铅-铅等重离子碰撞中。这里环境更复杂背景不同且重味轻子作为QGP探针的价值更大但同时也面临更大的集体流背景和背景涨落挑战。在实验软件框架中集成与ALICE、ATLAS、CMS等大型实验的合作组合作将训练好的模型集成到其官方分析框架如AliPhysics, CMSSW中方便广大物理学家使用并利用真实数据对其进行测试和优化。这项研究展示了一个清晰的案例通过精心设计的特征和针对性的训练策略经典的机器学习算法如XGBoost能够在高能物理的具体问题上达到接近完美的性能。它不仅仅是一个“黑科技”演示而是提供了一套切实可行的、可复现的技术方案为未来在LHC升级运行、电子-离子对撞机EIC等下一代实验设施中处理更复杂、数据量更大的粒子鉴别任务奠定了坚实的基础。