1. 项目概述当量子机器学习遇上光子芯片量子机器学习QML这几年在圈子里火得不行几乎每个季度都有新论文出来说某某量子算法在某某任务上展现了潜力。但作为一个在量子计算和机器学习交叉领域摸爬滚打多年的从业者我看到的更多是热闹背后的冷静思考很多宣称的“量子优势”往往建立在高度简化的任务、理想化的模拟器或者缺乏公平对比的基准之上。这就像在平地上测试一辆跑车的极速结论再漂亮也未必能说明它在真实山路上的表现。这正是我们发起并深度参与“Perceval Quest”这个为期六个月的量子机器学习黑客松的核心动机。我们不想再空谈理论而是想把QML实实在在地“摁”在一种具体的硬件上——光子量子处理器——然后用一个经典机器学习领域家喻户晓的“考场”来检验它MNIST手写数字识别数据集。光子计算平台特别是基于线性光学的量子处理器有其独特的魅力相干时间长、室温可运行、与光纤通信天然兼容。但它也有自己的“脾气”比如编码方式特殊常用光子数态或路径编码、操作以线性光学元件相位调制器、分束器为主难以执行通用量子门。因此所谓的“光子原生”photonic-native算法绝不是简单地把为超导量子比特设计的变分量子线路VQA移植过来而是需要从底层物理原理出发重新设计算法流程让计算模式去适配硬件特性而不是反过来。这次挑战赛的核心目标非常明确在Perceval这个专为线性光学量子计算设计的软件框架内探索并系统性地评估各种QML模型。我们关心的不仅仅是“准确率能不能超过经典模型”这个单一指标——在目前这个NISQ含噪声中等规模量子时代这往往是个过高的期望。我们更看重的是参数效率用更少的可调参数达到相近性能、收敛速度以及模型在有噪声环境下的鲁棒性。我们为参赛者提供了从高性能GPU模拟到真实云平台QPU量子处理单元访问的全套资源就是要看看在接近真实的约束下量子组件究竟能为一个机器学习管道带来什么不一样的价值。2. 核心思路与方案选型为何是MNIST与光子原生2.1 基准数据集的选择MNIST的“变”与“不变”选择MNIST作为基准是经过深思熟虑的。反对的声音一直都有“MNIST太简单了连学生作业都能做到99%以上的准确率用它来测试量子机器学习不是大材小用吗” 这种观点只看到了表象。MNIST的价值在于其作为基准的成熟度、可解释性和可调控的复杂性。首先它是一个极其平衡和干净的基准。6万训练集、1万测试集10个类别图像大小28x28784维特征。整个社区对它了如指掌任何微小的性能变化都容易被归因。其次它的复杂度是可调节的。你可以通过选择特定的数字对比如3和8来创建一个简单的二分类任务也可以故意挑选视觉上容易混淆的数字对比如4和9、5和6来增加难度。更重要的是对于量子系统而言784维的原始特征空间远远超出了当前大多数量子硬件的有效编码能力通常受限于量子比特数或光学模式数。因此如何将高维经典数据“压缩”或“嵌入”到低维量子系统中本身就是一个核心的研究问题。常见的做法是使用主成分分析PCA降维但这把“双刃剑”在丢弃噪声的同时也可能丢失判别性特征。在我们的挑战赛中我们做了一个折中保留全部10个类别和完整的28x28分辨率但限制了训练样本的数量。这样做的目的是既不让经典模型尤其是大型CNN轻易达到接近饱和的性能从而让量子模型有可比的空间又保持了问题的本质复杂性十分类。我们提供了一个基于CNN的经典基准模型在缩减后的数据集上测试错误率约为3%这为所有量子方案设立了一个明确的追赶目标。2.2 光子原生算法的设计哲学在门模型量子计算中我们习惯于思考量子比特、量子门如H, CNOT, RY、以及由它们构成的线路。但在线性光学量子计算中基本单元是光学模式和光子。信息编码在光子的Fock态比如|1,0,1,0表示在模式1和模式3中各有一个光子中计算则通过可编程的干涉仪由分束器和相位调制器构成对光子的演化来实现。最终我们通过单光子探测器测量输出端每个模式的光子数分布。这种物理实现的差异直接导致了算法设计范式的转变从“门”到“变换矩阵”整个干涉仪对应一个大的酉矩阵U。算法设计很大程度上变成了如何为这个U矩阵的参数相位和分束角找到一种有意义的编码和优化方式。从概率幅到光子计数输出不再是单个量子态的振幅而是光子数分布的概率。这个概率由一个叫“矩阵积和式”Permanent的数学对象决定其计算对经典计算机是#P-hard难题这被认为是玻色采样和某些量子机器学习方案潜在优势的来源。硬件约束即设计约束在实际光子芯片上分束器往往是固定的50:50耦合器只有相位调制器是可快速调谐的。这意味着你的可优化参数空间天然就是受限的算法必须在这个约束下工作。因此“光子原生”意味着我们要充分利用这些特性而不是与之对抗。例如直接使用光子数态作为数据编码利用干涉仪输出的光子分布作为高维特征或者设计损失函数来直接优化与任务相关的光子计数统计量。2.3 挑战赛涌现的三大算法范式通过对参赛的13个优秀方案进行梳理我们清晰地看到了三种主流的混合架构思路这几乎勾勒出了当前光子QML算法探索的全景图干涉仪作为特征提取器这是最直观的端到端学习模式。经典数据如图像经过预处理后被编码到干涉仪的参数如相位中。光子穿过干涉仪后其输出模式的光子数分布被测量出来作为一个新的“量子特征向量”再送入一个经典分类器如线性层或SVM。整个系统编码量子电路经典分类器联合训练。这种模式的优点是概念清晰量子部分深度参与学习过程。干涉仪作为特征标注器在这种模式下一个经典的编码器如CNN首先从图像中提取高级特征。然后这些特征被送入光子干涉仪干涉仪的输出作为一种“量子注释”或“增强特征”被反馈回经典编码器或者与原始特征拼接共同用于最终决策。这里的量子组件更像一个提供额外、可能是非线性变换的“协处理器”。干涉仪用于模型微调这种方法利用了迁移学习的思想。首先一个大型的经典模型如在ImageNet上预训练的ResNet在MNIST上进行特征提取。然后将一个相对较小的光子干涉仪模块作为“投影头”或微调层接入网络末端仅对这一部分进行训练。此外也有方案将干涉仪用于自监督学习中的对比学习任务为特征学习提供一种量子驱动的正则化。注意方案选型没有绝对的优劣它取决于你的核心目标。如果你的目标是探索量子在特征表达上的根本优势范式1特征提取器是最直接的。如果你的目标是快速验证量子组件能否提升现有经典SOTA模型范式3微调的试错成本更低。范式2则是一种折中试图让经典和量子部分进行更紧密的交互。3. 核心方案深度解析从量子核方法到可微光子网络3.1 量子核方法当SVM遇见光子干涉仪量子核方法是近期QML中一个备受关注的方向。其核心思想是利用量子系统的希尔伯特空间作为特征空间通过量子电路计算数据点之间的内积即核函数从而在理论上访问经典计算难以高效构造的高维特征空间。在我们的挑战赛中一个方案成功地将这一思想移植到了光子平台上。具体步骤如下数据编码将每张14x14经PCA降维后的MNIST图像编码为一个特定光子数态对应的干涉仪相位设置。例如对于一张图像我们将其PCA降维后的主要特征向量转换为一组相位值φ_i加载到干涉仪对应的相位调制器上。量子态制备向这个配置好相位的干涉仪注入一个确定的光子数态例如5个光子分布在20个模式中。经过干涉仪演化后输出态|ψ(φ)就是一个与输入数据相关的量子态。核函数计算对于两个数据点x_i和x_j对应的量子态为|ψ(φ_i)和|ψ(φ_j)。它们之间的核函数相似度定义为态重叠的模平方κ(x_i, x_j) |ψ(φ_i)|ψ(φ_j)|^2。这个值可以通过多次运行两个量子电路比较其输出光子数分布的统计相关性来估计。经典求解为所有训练样本对计算量子核矩阵K其中K_{ij} κ(x_i, x_j)。然后将这个核矩阵输入一个经典的支持向量机SVM进行训练和预测。为什么选择SVM因为SVM的训练过程完全依赖于核矩阵它本身不关心核函数是如何计算的。这完美契合了量子计算作为“核函数计算黑盒”的角色。我们甚至可以在量子核之后再加一个经典的非线性变换如sigmoid或多项式以调整核空间的几何性质。实测结果与洞察在600个训练样本的小规模测试中采用sigmoid变换的量子核SVM达到了85%的验证准确率而经典线性核SVM为90%。差距存在但并非不可逾越。一个关键的发现是增加注入的光子数n能显著提升分类准确率。这是因为更多的光子意味着输出态存在于更高维的希尔伯特空间维度为C(mn-1, n)其中m是模式数从而提供了更强大的特征表达能力。这为未来利用更大规模光子处理器指明了方向。3.2 可微光子神经网络与代理模型技巧直接训练一个包含光子量子电路的大型神经网络面临一个主要挑战反向传播的不可微性。传统量子神经网络的参数梯度可以通过参数移位规则等方法计算但这需要大量重复的电路采样在基于采样的光子系统中尤其是使用玻色采样模拟器时成本极高。一个名为GLASE的方案提出了一种巧妙的解决方案引入一个经典神经网络作为量子电路的代理模型。其工作流程堪称经典-量子协同计算的典范特征提取一个轻量级CNN从MNIST图像中提取256维的特征向量z。参数映射一个经典的全连接层将z映射为光子干涉仪所需的M个相位参数φ。量子前向传播将φ配置到干涉仪上运行包含N个光子的玻色采样电路收集输出端每个模式的平均光子数n。这是一个经典的“前向传播”但计算由量子模拟器或真实QPU完成。代理模型训练同时一个经典的小型神经网络即代理模型g_α(φ)被训练来逼近量子电路的行为即让g_α(φ) ≈ n。其损失函数是均方误差L_sur ||g_α(φ) - n||^2。可微训练回路在反向传播时我们并不直接通过量子电路求梯度而是用这个已经训练好的、完全可微的代理模型g_α(φ)来替代量子层。梯度从分类损失交叉熵通过代理模型一路顺畅地反向传播到CNN编码器的参数。周期性更新代理模型并非一成不变。每隔一定的训练步数我们会用最新一批量子电路的真实输出n来重新训练微调代理模型确保其始终是量子电路行为的良好近似。这个设计的精妙之处在于它将昂贵的、不可微的量子计算隔离在了前向传播的数据生成阶段。而耗时的反向传播优化则完全在高效的经典代理模型上进行。这大大降低了训练开销。在推理阶段可以直接使用训练好的量子电路代理模型不再需要。实操心得在实现GLASE时代理模型的结构不宜过于复杂一个2-3层的小型MLP通常就够了。关键是要确保代理模型的输入相位参数φ和输出光子数期望的维度与量子电路严格匹配。我们设置了一个正则化权重λ通常设为0.5来平衡分类损失和代理拟合损失防止代理模型过度拟合而脱离真实量子行为。实验表明这种方法不仅大幅提升了训练效率还可能绕开了量子神经网络中常见的“贫瘠高原”问题因为优化景观实际上是由平滑的代理模型定义的。3.3 酉膨胀编码从矩阵到光学线路的直接映射这是一种更具数学美感的光子原生编码方案源自数学中的酉膨胀定理。该定理指出任何一个范数小于等于1的复数矩阵A都可以嵌入到一个更大的酉矩阵U_A中。具体形式如下U_A [ A, (I - AA†)^(1/2); (I - A†A)^(1/2), -A† ]这个2n x 2n的酉矩阵正好可以描述一个2n个模式的光学干涉仪。方案的关键在于将经典数据如图像经过适当缩放后视为矩阵A直接映射为这个酉矩阵从而天然地定义了一个光学线路。具体实现步骤数据预处理将图像重塑为一个方阵并缩放其元素使其范数≤1。线路构造根据上述定理计算出对应的酉矩阵U_A。利用Reck或Clements分解法将这个酉矩阵分解为一系列分束器和相位调制器的具体参数。这就自动生成了一个与输入数据相关的、物理可实现的干涉仪。后选择与处理向这个干涉仪注入光子通常注入到前n个模式然后在输出端进行后选择只考虑那些所有光子都出现在前n个或后n个模式的测量结果。这种后选择操作在数学上等效于从大酉矩阵中“提取”出原始矩阵A的变换效果。可训练层在上述固定的“编码层”之后可以级联多个由可调参数构成的光学层仿照经典CNN的卷积块结构形成一个可训练的“酉膨胀编码神经网络”。这个方案的优点是编码方式非常直接具有严格的数学基础并且编码后的量子态维度较高。但挑战也同样明显计算矩阵的平方根(I - AA†)^(1/2)在数值上可能不稳定此外由于引入了后选择有效的数据率成功获得所需输出事件的概率会降低这可能影响训练速度和稳定性。在我们的测试中一个包含6个可训练块和1个经典隐藏层的UDENN模型在参数量与经典CNN匹配的情况下验证准确率达到46.73%。虽然远低于经基准的52.33%但显著高于随机猜测10%证明了这种数学驱动的编码方案是可行的为未来更精细的设计提供了起点。4. 系统性基准测试结果、分析与洞见我们将所有参赛方案与精心设计的经典基线模型包括MLP、CNN和SVM在同一个缩减版MNIST数据集上进行了公平比较。评估维度不仅包括最终测试准确率还涵盖了模型大小参数量、计算开销FLOPs和收敛速度。以下是综合性的发现4.1 性能表现概览我们选取了几个代表性方案与经典基线进行对比结果汇总如下表模型类型具体方案测试准确率 (%)可训练参数量备注经典基线多层感知机 (MLP)94.14 ± 0.421,4752层ReLU激活经典基线支持向量机 (SVM)95.387,850线性核经典基线卷积神经网络 (CNN)~97.0 (在完整数据集)~50,000挑战赛提供的基准量子核方法光子量子核SVM85.00依赖SVM20模式5光子sigmoid核变分量子算法光子量子神经网络 (qNN)81.31 ± 2.0421,08410模式端到端训练混合编码酉膨胀编码神经网络 (UDENN)46.73565数学编码6个可训练块代理模型法GLASE (代理训练)优于同等规模经典MLP~15,00020模式3光子CNN编码器核心观察尚无明确量子优势在图像分类的绝对准确率上所有光子QML方案均未超越经过充分调优的经典基线模型。这是一个必须坦诚面对的现实与近期许多严格的基准测试研究结论一致。性能与复杂度相关表现最好的量子方案量子核、光子qNN准确率在80%-85%区间它们共同的特点是引入了相对较多的量子资源更多模式/光子和/或更复杂的经典-量子混合架构。参数量效率是亮点例如光子qNN用与经典MLP相近的参数量约2.1万达到了81%的准确率。虽然绝对精度低但考虑到其模型结构完全不同这种“参数效率”值得关注。量子核方法甚至将大部分复杂度隐藏在了核计算中SVM本身的参数量并不大。4.2 收敛行为与训练动态分析训练过程的对比揭示了量子模型特有的挑战收敛速度经典MLP和CNN通常在10-20个epoch内快速收敛。而大多数变分量子算法VQA收敛速度明显更慢且损失曲线波动更大。这源于量子电路参数的优化景观可能更加复杂存在更多的局部极小值。噪声敏感性在模拟中引入符合真实QPU水平的噪声光子损耗、模式串扰、探测器效率不足后大部分量子模型的性能会出现显著下降5%-15%不等而经典模型对此免疫。量子误差缓解技术成为不可或缺的一环例如通过测量后处理来校准噪声影响。批次训练与采样噪声量子模型的“前向传播”依赖于采样从输出概率分布中抽取有限样本以估计期望值这引入了固有的统计噪声。小批次训练时这种噪声会加剧可能导致梯度估计不准。实践中往往需要增大每步的采样次数或使用更适合随机优化的算法如SPSA。4.3 消融实验揭示的设计关键我们对优秀方案进行了系统的消融研究以剥离每个组件的作用编码维度的影响在量子核方法中将PCA保留的主成分数从10增加到20准确率提升了约8%。这证实了为量子系统提供足够的信息容量至关重要但同时也需要与硬件能力模式数做权衡。光子数 vs. 模式数在总资源光子数×模式数大致固定的情况下增加光子数通常比增加模式数带来更大的性能提升。这是因为光子数的增加会指数级扩大希尔伯特空间的维度通过玻色子激发。经典组件的必要性纯粹的“量子入量子出”模型即仅用干涉仪输出直接做最近邻分类效果很差。一个经典的、哪怕是很简单的后处理层如线性层或SVM对于提升性能是决定性的。这强调了在当前阶段量子计算更适合扮演“特征提取器”或“增强器”的角色而非独立的分类器。代理模型的有效性在GLASE方案中移除代理模型、改为使用有限差分法直接估算量子层梯度训练时间增加了近50倍且最终准确率还略有下降。这证明了代理模型在应对量子计算不可微性和高采样成本方面是一个有效的工程解决方案。5. 挑战、局限与未来方向5.1 当前面临的核心挑战输入输出瓶颈将高维经典数据如图像高效编码到有限的量子资源模式、光子中仍是一个未完全解决的问题。简单的PCA会丢失信息而更复杂的量子编码电路本身又会引入大量参数和噪声。噪声统治在NISQ时代噪声是主要矛盾。光子损耗、探测器暗计数、相位漂移等都会迅速摧毁量子态的相干性和计算结果的保真度。错误缓解技术会增加额外的电路运行开销。模拟与现实的鸿沟即使在Perceval这样优秀的模拟器中加入了噪声模型其与真实QPU的行为仍存在差异。在模拟中表现良好的算法移植到硬件上时往往需要大量的调整和校准。评估标准单一目前社区仍过度关注分类准确率这一指标。对于量子机器学习我们或许需要建立新的评估体系例如学习相同任务所需的数据量、对对抗样本的鲁棒性、在超维特征空间中发现的奇异特性等。5.2 从本次挑战赛汲取的经验拥抱混合架构纯量子模型在可预见的未来都不现实。最可行的路径是精心设计经典-量子混合模型让两者各司其职。经典部分负责大规模特征提取和稳定优化量子部分负责在某个子空间中执行经典难以模拟的非线性变换。算法需“接地气”设计算法时必须将硬件约束作为第一性原则。对于光子平台这意味着要思考如何用分束器和相位调制器高效地表达你想要的变换如何设计测量方案以最大化信息提取以及如何应对有限的连通性和噪声。可复现性是生命线我们坚持要求所有参赛者提交完整代码并使用统一的评估脚本。这确保了所有结果的公平可比。量子机器学习领域亟需更多像这样“苹果对苹果”的比较而不是各自为政的演示。关注过程而非仅仅是结果即使最终准确率没有超越经典探索过程中发现的新编码方式如酉膨胀编码、新训练技巧如代理模型、以及对量子资源与性能关系的量化理解如光子数的影响其价值不亚于一个刷高点的数字。5.3 未来有潜力的探索方向基于本次竞赛的观察我认为以下几个方向值得深入面向永久值的算法光子系统的核心计算本质是计算矩阵积和式。能否设计一些机器学习任务其损失函数直接与积和式相关从而天然地映射到光子的玻色采样优势上例如在图相似性比较或某些生成式模型中这或许是一条通往“量子优势”的更直接路径。动态电路与自适应测量当前方案大多使用固定的测量基光子数测量。未来可以探索基于中间测量结果的动态反馈电路或者使用更复杂的POVM测量以从量子态中榨取更多信息。量子-经典协同优化不仅优化电路参数还可以联合优化编码策略如何将数据映射为相位/光子态和量策略。这可以看作一个端到端的编译优化问题。超越监督学习将目光投向无监督学习、自监督学习或强化学习。在这些范式下对“优势”的定义可能更加灵活量子系统在表示复杂概率分布或探索大状态空间方面的潜力可能更早显现。这次Perceval Quest就像一次对光子量子机器学习生态的“压力测试”。它没有给出一个振奋人心的“量子霸权”故事但却提供了一份无比珍贵的、基于真实代码和统一基准的“现状地图”。它告诉我们哪些路可能走不通哪些路口值得设置更清晰的路标以及作为一个社区我们需要在工具链、基准测试和算法思想上继续夯实哪些基础。对于真正想在这个领域做出扎实工作的同行来说这份地图的价值远胜于一个孤立的、无法复现的“SOTA”数字。