MLMC梯度估计器：降低随机优化计算成本的方差缩减技术-尧图网站建设

📅 发布时间：2026/6/21 6:36:17

1. 项目概述：当随机优化遇上“降本增效”的MLMC

在机器学习和科学计算的很多场景里，我们常常需要求解一个期望形式的优化问题。比如，训练一个模型，它的损失函数依赖于某个随机变量（比如数据批次、模拟中的噪声、物理参数的不确定性），目标是最小化这个损失函数的期望值。一个经典的例子就是随机梯度下降（SGD），它每次从数据分布中采样一个批次来估计梯度。但问题来了：当这个期望值本身计算成本极高（比如需要运行一次耗时的物理模拟或金融模型）时，直接用蒙特卡洛（MC）方法去估计梯度，方差大不说，计算开销更是让人头疼。这就好比你要估算一个城市的平均通勤时间，如果每次都要全城普查，那成本谁也受不了。

MLMC梯度估计器，就是来解决这个“成本”和“精度”矛盾的利器。它的全称是“多级蒙特卡洛”，核心思想非常巧妙：与其用大量昂贵的“精细”模拟去得到一个低方差的估计，不如聪明地混合不同精度（不同成本）的模拟。用一些非常便宜的“粗糙”模拟来捕捉大尺度的变化趋势，再用相对较少但更精确的“精细”模拟来修正细节。最终，用更低的总体计算成本，达到甚至超越传统蒙特卡洛的估计精度。这就像你要画一幅精细的素描，先快速用炭笔勾勒出整体轮廓和明暗关系（低成本、低精度），然后再用铅笔在关键部位进行细腻的刻画（高成本、高精度），而不是一开始就拿着铅笔一点一点地涂满整张纸。

最近，随着大家对大规模、高维、黑箱函数优化的需求激增，尤其是在强化学习、贝叶斯优化、不确定性量化等领域，MLMC这类方差缩减技术从偏理论的数学工具，变成了工程实践中实实在在的“性能加速器”。结合Python生态中强大的自动微分和并行计算库，我们终于可以比较方便地将MLMC的思想应用到复杂的随机优化问题中，亲眼看看它到底能省下多少计算时间，或者用同样的时间能把优化结果推进到多深的程度。

2. MLMC梯度估计器的核心原理：拆解“成本-精度”的权衡艺术

要理解MLMC为什么能work，我们需要先回到传统蒙特卡洛估计梯度的问题上。假设我们的目标是最小化E[F(θ, ξ)]，其中θ是待优化参数，ξ是随机变量。梯度是∇E[F(θ, ξ)] = E[∇F(θ, ξ)]。传统MC用N个独立样本的均值来估计：G_MC = (1/N) Σ_{i=1}^N ∇F(θ, ξ_i)。这个估计器的方差是Var[∇F]/N。想要方差小，就得增大N，但每一次计算∇F(θ, ξ_i)都可能非常昂贵。

2.1 MLMC的层级化思想：不是替代，而是组合

MLMC引入了一系列不同“分辨率”或“精细度”的模型，记为F_0, F_1, ..., F_L。其中，F_0是最粗糙、最便宜的模型（比如网格很粗的数值模拟，或训练轮次很少的代理模型），F_L是我们能获得的最精细、最昂贵的模型（目标模型）。关键不在于用F_l去直接估计梯度，而在于估计相邻两级模型梯度之间的差值。

定义Y_l = ∇F_l(θ, ξ) - ∇F_{l-1}(θ, ξ)（对于 l>=1），以及Y_0 = ∇F_0(θ, ξ)。这里有一个非常重要的要求：F_l和F_{l-1}必须基于相同的随机数种子ξ来生成，以确保它们的相关性。由于F_l和F_{l-1}模拟的是同一个物理过程或数学模型的不同精度版本，当精度提高时，它们的输出应该是趋近的。因此，差值Y_l的方差通常会随着层级l的增加而急剧减小。也就是说，精细模型和粗糙模型算出来的梯度，其实差不了太多。

那么，精细模型F_L的梯度期望可以重写为：E[∇F_L] = E[∇F_0] + Σ_{l=1}^L E[∇F_l - ∇F_{l-1}] = E[Y_0] + Σ_{l=1}^L E[Y_l]。

MLMC估计器就是对上面每一项分别用蒙特卡洛来估计：G_MLMC = (1/N_0) Σ_{i=1}^{N_0} Y_0^{(i)} + Σ_{l=1}^L (1/N_l) Σ_{i=1}^{N_l} Y_l^{(i)}。

这里的精髓在于：对于方差大的项（比如粗糙层级的Y_0），我们可以用较多的样本N_0来压制方差；对于方差已经非常小的项（比如高层级的Y_l），我们只需要很少的样本N_l就够了。因为计算Y_0很便宜，计算Y_l很贵，所以这种分配方式在总成本固定的情况下，能最小化最终估计器的总方差。

2.2 复杂度分析与最优样本分配

为什么MLMC能降本增效？我们可以做一个粗略的复杂度分析。假设计算一次Y_l的成本是C_l，并且成本随着层级指数增长，例如C_l ∝ M^l，其中M>1是网格细化因子（比如每升一级，网格点翻倍，成本翻4倍）。同时，差值Y_l的方差也随着层级指数衰减，例如V_l ∝ M^{-β l}，其中β>0。

我们的目标是在总计算预算T固定的情况下，最小化估计器的总方差V = Σ_{l=0}^L V_l / N_l，约束条件是总成本Σ_{l=0}^L N_l * C_l ≤ T。这是一个带约束的优化问题，通过拉格朗日乘子法可以解出最优的样本数分配：N_l ∝ sqrt(V_l / C_l)。

把这个关系代回去，可以得到在最优分配下，达到目标方差ε^2所需的总计算成本T(ε)。对于传统MC，T_MC(ε) ∝ ε^{-2} * C_L。而对于MLMC，理论分析表明，在理想条件下（β > γ，其中C_l ∝ M^{γ l}），T_MLMC(ε)可以达到∝ ε^{-2}甚至∝ ε^{-2} * (log ε)^2的量级。这意味着，为了达到同样的精度ε，MLMC所需的计算成本增长远慢于传统MC，尤其是当ε要求很小时，优势是指数级的。

注意：这个理论优势依赖于模型层级间差值的方差衰减速率β和成本增长速率γ。在实际应用中，我们需要通过初步实验来估算这些速率，以验证MLMC是否适用于当前问题，并指导我们设置层级和样本数。

3. 在随机优化中集成MLMC梯度估计器：以SGD为例

理解了原理，我们来看如何把它用到实际的随机优化算法里，比如最基础的随机梯度下降。传统SGD的迭代公式是θ_{k+1} = θ_k - α_k * G_MC，其中G_MC是当前批次的梯度估计。现在，我们把G_MC替换成G_MLMC。

3.1 算法框架与实现要点

一个集成了MLMC梯度估计器的SGD迭代步骤大致如下：

确定层级与模型：根据问题定义好L+1个不同精度的模型{F_l}，并确保它们能基于相同的随机输入ξ生成相关的输出。
估算方差与成本：在优化迭代开始前或初期，用少量样本估算每一层差值Y_l的方差V_l和计算成本C_l。
最优样本分配：根据当前的计算预算或目标方差，利用公式N_l ∝ sqrt(V_l / C_l)计算每一层应分配的样本数N_l。通常会对N_l取整，并保证N_l ≥ 1。
采样与计算：对于每一层级l，生成N_l个独立的随机种子{ξ_i}。对于每个种子，同时计算F_l(θ_k, ξ_i)和F_{l-1}(θ_k, ξ_i)（对于l>=1）的梯度，得到差值Y_l^{(i)}。对于l=0，直接计算F_0的梯度。
构建MLMC估计：按照公式计算G_MLMC。
参数更新：执行θ_{k+1} = θ_k - α_k * G_MLMC。
动态调整（可选）：随着优化的进行，参数θ变化，梯度分布可能改变。可以定期（例如每几十或几百次迭代）重新估算V_l和C_l，并调整N_l的分配。

3.2 Python示例：一个简单的抛物面最小化问题

让我们用一个高度简化的例子来演示这个过程。假设真实目标函数是E[F(θ, ξ)] = E[(θ - ξ)^2]，其中ξ ~ Uniform(0,1)。显然，最优解是θ* = 0.5。我们构造两个“模型”：

F_0(θ, ξ) = (θ - ξ)^2 + 0.1 * (θ - ξ) * ε_0，其中ε_0 ~ N(0,1)，模拟一个带噪声的粗糙估计。
F_1(θ, ξ) = (θ - ξ)^2，即精确模型。

这里，F_0是粗糙模型（加了噪声），F_1是精细模型。它们的梯度分别是∇F_0 = 2(θ-ξ) + 0.1*ε_0和∇F_1 = 2(θ-ξ)。注意，为了让它们相关，我们使用相同的ξ和ε_0。

import numpy as np import matplotlib.pyplot as plt def model_f0(theta, xi, eps): """粗糙模型梯度""" return 2 * (theta - xi) + 0.1 * eps def model_f1(theta, xi): """精细模型梯度""" return 2 * (theta - xi) def mlmc_gradient_estimate(theta, L=1, N_samples=None): """ 计算MLMC梯度估计。 theta: 当前参数 L: 最大层级（这里L=1） N_samples: 各层样本数列表，如果为None则使用理论最优分配（需预估算V和C） """ if N_samples is None: # 这里为了演示，假设我们通过前期实验知道了大致方差和成本 # V0大，C0小； V1小，C1大（但这里C1=C0=1，因为计算很简单，仅为演示） # 假设总预算T=100 V0, V1 = 4.0, 0.01 # 估算的方差 C0, C1 = 1.0, 1.0 # 估算的成本 T = 100 # 最优分配比例 N0_ratio = np.sqrt(V0 / C0) N1_ratio = np.sqrt(V1 / C1) # 根据总预算分配 N0 = int(T * (N0_ratio / (N0_ratio + N1_ratio)) / C0) N1 = int(T * (N1_ratio / (N0_ratio + N1_ratio)) / C1) N0, N1 = max(N0, 1), max(N1, 1) N_samples = [N0, N1] grad_est = 0.0 # 层级 l=0 N0 = N_samples[0] for _ in range(N0): xi = np.random.rand() eps = np.random.randn() grad_est += model_f0(theta, xi, eps) / N0 # 层级 l=1 N1 = N_samples[1] for _ in range(N1): xi = np.random.rand() eps = np.random.randn() # 使用相同的eps种子，确保相关性 g1 = model_f1(theta, xi) g0 = model_f0(theta, xi, eps) grad_est += (g1 - g0) / N1 return grad_est def sgd_with_mlmc(initial_theta=0.0, num_iter=1000, lr=0.01): """使用MLMC梯度估计的SGD""" theta = initial_theta theta_path = [theta] for k in range(num_iter): # 使用MLMC估计梯度 g_mlmc = mlmc_gradient_estimate(theta, N_samples=[50, 5]) # 手动指定样本数 # 更新参数 theta = theta - lr * g_mlmc theta_path.append(theta) return np.array(theta_path) # 运行优化 path = sgd_with_mlmc(initial_theta=2.0, num_iter=500, lr=0.02) print(f"最终参数值: {path[-1]:.4f}") print(f"理论最优值: 0.5") # 绘制优化轨迹 plt.figure(figsize=(10, 6)) plt.plot(path, label='SGD with MLMC') plt.axhline(y=0.5, color='r', linestyle='--', label='Optimal (0.5)') plt.xlabel('Iteration') plt.ylabel('Parameter θ') plt.title('Optimization Trajectory using MLMC Gradient Estimator') plt.legend() plt.grid(True) plt.show()

这个例子非常简化，但它清晰地展示了MLMC的流程：我们用较多的样本来估计方差大的粗糙层梯度（N0=50），用很少的样本来估计方差小的精细-粗糙差值（N1=5）。虽然总样本数为55，但如果我们用传统MC，要达到相同的梯度估计方差，可能需要更多的精细模型样本。在这个例子中，因为模型简单，优势不明显，但在计算F_l成本差异巨大的实际问题中，节省的成本会非常可观。

实操心得：在实际代码中，确保F_l和F_{l-1}的相关性是关键。这通常意味着在调用这两个模型时，需要传入相同的随机种子或随机状态，以确保底层随机过程的一致性。例如，在数值PDE求解中，使用相同的初始随机场；在随机模拟中，使用相同的随机数流。

4. 性能分析：MLMC在什么情况下能“秀肌肉”？

MLMC不是银弹，它的性能提升严重依赖于具体问题的特性。我们需要一套方法来定量分析其收益。

4.1 关键性能指标与测量

评估MLMC相对于传统MC的优势，主要看两个指标：

达到相同精度下的计算时间比：固定一个目标梯度估计的方差（或由此导致的优化结果误差），分别运行MLMC和MC，记录它们消耗的计算时间（或等效的函数调用次数）。比值Time_MC / Time_MLMC就是加速比。
相同计算预算下的优化进度：给定相同的总计算时间或总函数调用次数，运行基于MLMC梯度的优化器和基于MC梯度的优化器，比较它们最终达到的目标函数值或与最优解的距离。

为了测量这些，我们需要：

基准真相：对于可解析求解的问题，我们知道精确梯度或最优解。对于复杂问题，可能需要用海量样本的MC估计作为“准真相”。
性能剖析：记录每一层F_l的单次计算时间C_l，以及差值Y_l的样本方差V_l。这是分析的基础。
方差衰减率β与成本增长率γ：通过拟合log(V_l)对l和log(C_l)对l的曲线，可以估算出β和γ。这是预测MLMC理论加速比的关键。

4.2 一个更贴近实际的性能分析案例

考虑一个更贴近工程实际的例子：训练一个物理信息神经网络来求解一个随机参数偏微分方程。假设PDE的某个系数是随机场。粗糙模型F_0使用粗网格和简单的神经网络架构；精细模型F_1使用细网格和更复杂的网络。计算一次F_0前向和反向传播需要0.1秒，F_1需要1秒。我们通过100次预热实验，测得：

Var[Y_0] ≈ 10.0
Var[Y_1] ≈ 0.1（注意Y_1 = ∇F_1 - ∇F_0）
成本C0=0.1s,C1=1.0s。

假设我们要求梯度估计的方差V_target = 0.01。

传统MC方案：只使用F_1。所需样本数N_MC = Var[∇F_1] / V_target。我们需要知道Var[∇F_1]。由于∇F_1 = Y_0 + Y_1，且Y_0与Y_1可能相关，为简化，假设独立，则Var[∇F_1] ≈ Var[Y_0] + Var[Y_1] = 10.1。因此N_MC ≈ 10.1 / 0.01 = 1010。总时间T_MC = 1010 * 1.0s = 1010s。
MLMC方案：我们需要分配样本N0和N1给Y_0和Y_1。最优分配：N0 ∝ sqrt(10.0 / 0.1) = 10,N1 ∝ sqrt(0.1 / 1.0) = 0.316。设N0 = 10K,N1 = 0.316K，满足总方差V = 10.0/(10K) + 0.1/(0.316K) = 1/K + 0.316/K = 1.316/K。令V = 0.01，则K = 1.316 / 0.01 = 131.6。因此，N0 ≈ 1316,N1 ≈ 42。总时间T_MLMC = 1316*0.1s + 42*1.0s = 131.6s + 42s = 173.6s。
加速比：1010s / 173.6s ≈ 5.8。在这个设定下，MLMC带来了近6倍的加速。这清晰地展示了当精细模型成本高昂、且层级间差值方差快速衰减时，MLMC的巨大潜力。

注意事项：这个计算假设Y_0和Y_1独立，且忽略了样本数取整的影响。实际中，Y_0和Y_1可能相关（通常正相关），这会使Var[∇F_1]小于Var[Y_0]+Var[Y_1]，从而略微高估MC的样本数，使得MLMC的加速比看起来比实际稍低。更精确的分析需要测量或估计协方差。

4.3 影响MLMC性能的关键因素

模型层级的相关性：这是MLMC的基石。如果F_l和F_{l-1}不相关，那么Y_l的方差不会衰减，MLMC退化为独立的多重重要性采样，可能没有优势甚至更差。确保使用相同的随机源是关键。
方差衰减率β：β越大，高层级差值方差衰减越快，意味着可以用极少的精细样本来修正，MLMC优势越明显。这通常要求粗糙模型能捕捉问题的主要特征。
成本增长率γ：γ越小，提升模型精度的成本增加越慢，这对MLMC也是有利的。如果每升一级成本爆炸式增长（γ很大），那么即使β也很大，MLMC的优势也可能被高层的昂贵计算部分抵消。
初始粗糙模型的质量：F_0不能太差。如果F_0的梯度估计偏差太大，导致Var[Y_0]巨大，那么就需要海量的廉价样本来压制，这会消耗大量预算，削弱MLMC优势。
优化算法的适应性：MLMC估计的梯度是有偏的吗？理论上，只要每个E[Y_l]是无偏的，G_MLMC就是无偏的。但样本数N_l是有限的，且可能动态变化，这会给优化过程引入额外的噪声。需要调整学习率或使用自适应优化器（如Adam）来稳定训练。

5. 实战中的挑战、调优与扩展

将MLMC从理论公式应用到具体项目，会遇到不少坑。这里分享一些实战经验。

5.1 如何构建有效的模型层级？

这是最具挑战性的一步，没有通用答案。

数值模拟领域：最直接，通过调整网格分辨率、时间步长、收敛阈值等来定义层级。例如，F_0用 16x16 网格，F_1用 32x32，F_2用 64x64。确保粗网格是细网格的一致粗化。
机器学习/代理模型领域：
- 训练轮次：F_0是训练了100轮的模型，F_1是训练了1000轮的模型。需确保从相同的随机初始化开始。
- 模型容量：F_0使用小型神经网络，F_1使用大型网络。这需要仔细设计，因为架构不同可能导致梯度空间差异巨大，破坏相关性。
- 数据子集：F_0在10%的数据上训练，F_1在100%的数据上训练。使用相同的数据采样顺序或种子。
随机近似：如果目标函数涉及一个难解的积分或期望，可以用快速但粗略的解析近似作为F_0，用昂贵的数值积分作为F_1。

核心技巧：在正式优化前，花时间做“层级诊断”。固定一组参数θ，计算不同层级F_l的输出和梯度，观察它们之间的相关性以及差值Y_l的方差随l的衰减情况。如果衰减不明显，可能需要重新设计层级。

5.2 动态分配样本与预算管理

静态分配样本（如我们之前的例子）在优化初期可能有效，但当参数θ变化后，梯度分布可能改变。因此，动态调整策略很重要。

定期重估：每进行M次优化迭代（例如M=100），就用当前参数θ_k重新采样估算各层的V_l和C_l，然后重新计算最优的N_l。
增量式更新：采用在线学习的方式，持续更新V_l和C_l的运行估计，并缓慢调整N_l。这可以避免因重估带来的额外计算开销突然增大。
总预算分配：是固定每次迭代的预算，还是固定整个优化过程的总预算？通常，在SGD框架下，我们固定每次迭代的预算（即每次梯度估计的总成本），这样学习率调度更稳定。这个预算可以根据训练进度动态调整，早期可以大一些以快速收敛，后期可以小一些以精细调优。

5.3 与自适应优化器的结合

现代深度学习几乎离不开Adam、AdaGrad等自适应优化器。MLMC梯度估计器可以与它们无缝结合。只需要将G_MLMC作为当前迭代的梯度输入给优化器即可。优化器内部的一阶矩、二阶矩估计会自动处理MLMC梯度带来的噪声。不过要注意，由于MLMC梯度的噪声特性可能与普通MC不同，优化器的一些超参数（如β1,β2,ε）可能需要微调。

5.4 处理离散或不可微的层级

有时，模型层级之间的变化不是连续的（例如，粒子数不同、拓扑结构变化）。这可能导致F_l和F_{l-1}的梯度在数学上不完全对应。此时，标准的MLMC可能不适用。可以考虑使用“多级多差”或“随机权重”等变体，但这会大大增加复杂性。一个更实用的方法是：确保在F_l和F_{l-1}的定义中，所有随机性都来源于共同的、连续的随机变量，从而使得Y_l在几乎处处的意义下是可计算的。

6. 常见问题与排查技巧实录

在实际实现和运行MLMC优化时，你可能会遇到下面这些问题。

6.1 问题：MLMC优化不如传统MC稳定，损失震荡剧烈。

可能原因1：粗糙模型F_0太差。如果F_0提供的梯度方向与精细模型F_1经常相反，那么Y_0的方差会极大，且均值可能偏离真实梯度方向。即使MLMC估计在期望上是无偏的，但有限样本下，一个糟糕的F_0会引入巨大噪声。
- 排查：计算在初始点θ_0处，∇F_0和∇F_1的余弦相似度。如果接近-1，说明方向相反。
- 解决：改进F_0的保真度。或者，在优化初期，给F_0分配更高的权重（即增大N_0相对于N_1的比例），甚至可以先只用F_0进行几轮预热，让参数进入一个粗糙模型也合理的区域。
可能原因2：样本分配不合理。如果高层级N_l分配过少，Y_l的修正项噪声过大，无法有效纠正低层级的偏差。
- 排查：监控每一层差值Y_l对最终梯度估计G_MLMC的贡献大小和波动性。如果高层级贡献的波动与均值相比很大，说明样本不足。
- 解决：强制设定一个最小样本数N_l_min（例如5或10），即使理论最优分配建议更少。或者，增加总预算。
可能原因3：学习率过大。MLMC梯度估计的方差特性可能不同于MC，需要调整学习率。
- 解决：使用更保守的学习率，或启用学习率warmup。使用自适应优化器（Adam）通常比SGD更能容忍梯度噪声。

6.2 问题：MLMC的总计算时间反而比传统MC更长。

可能原因1：层级间相关性弱，方差衰减慢（β小）。这意味着即使到了精细层级，Y_l的方差仍然很大，需要不少样本来估计，而计算Y_l的成本又很高，导致性价比低。
- 排查：绘制log(V_l)对层级l的图。如果曲线下降平缓，则β小。
- 解决：重新设计模型层级，增强相关性。或者考虑减少层级数L，甚至退回到只用两个层级（L=1）看看效果。有时，MLMC不一定比精心调参的MC好。
可能原因2：固定开销过大。MLMC需要同时运行多个模型，可能存在并行调度、数据搬运等固定开销。如果每次梯度估计本身成本不高，这些开销可能占主导。
- 排查：剖析代码，看时间花在哪里。计算单次F_l调用时间与MLMC框架管理时间。
- 解决：对于轻量级函数，考虑批量处理。例如，一次性生成多个ξ，然后向量化地计算所有层级的输出，减少循环和调度开销。或者，当模型很简单时，直接使用MC。

6.3 问题：如何选择最优的层级数`L`和最大精细度？

经验法则：L不是越大越好。增加L意味着引入了成本更高的模型。最优的L是使得最精细层F_L的误差（离散化误差或近似误差）与MLMC估计的统计误差大致平衡的那一层。
实操方法：
1. 先设定一个可接受的目标误差ε_total。
2. 从L=0（即只有粗糙模型）开始，逐步增加L。
3. 对于每个L，估算达到统计误差≈ ε_total/√2所需的MLMC总成本T(L)（利用估算的V_l,C_l和最优分配公式）。
4. 同时，估算或已知F_L的偏差（系统误差）Bias(L)。
5. 选择使得Bias(L)^2 + (ε_total/√2)^2 ≈ ε_total^2的最小L。换句话说，当增加L带来的成本增加开始超过偏差减少的收益时，就停止。

6.4 一个实用的诊断清单

在项目启动MLMC优化前，建议按此清单检查：

检查项	预期表现/目标	诊断方法
层级相关性	`Corr(∇F_l, ∇F_{l-1})`高（>0.8理想）	固定`θ`，采样计算梯度的相关系数
方差衰减	`Var[Y_l]`随`l`指数衰减	绘制`log(V_l)`vs`l`，观察斜率`-β`
成本增长	`C_l`随`l`增长可接受	测量各层单次计算时间，估算`γ`
无偏性	`E[G_MLMC]`接近`∇F_L`的真值（若可知）	用大量样本分别计算两者的均值
粗糙模型质量	`∇F_0`与`∇F_L`方向大体一致	计算余弦相似度，应显著大于0
样本分配	高层级`N_l`远小于低层级	检查根据`sqrt(V_l/C_l)`计算出的比例
预算设定	单次迭代时间在可接受范围	性能剖析，确保框架开销占比不高

最后，MLMC梯度估计器是一个强大的工具，但它需要你对问题本身和所使用的模型有深入的理解。它最适合那些具有自然多层次结构、且高精度模拟成本昂贵的随机优化问题。在动手实现前，花在“层级设计”和“性能诊断”上的时间，最终都会在计算效率上加倍回报给你。我的体会是，不要试图一开始就构建完美的多级系统，先从两个层级（L=1）开始，验证核心想法是否可行，然后再逐步扩展和优化。

MLMC梯度估计器：降低随机优化计算成本的方差缩减技术