当前位置：首页 > news >正文

持续学习在深度伪造检测中的应用：分布差异压缩与流形一致性回放

news 2026/5/29 3:32:27

1. 项目概述：当深度伪造检测遇上持续学习的挑战

在深度伪造技术日新月异的今天，检测模型面临的是一场永无止境的“军备竞赛”。今天刚训练好一个能精准识别FaceSwap的模型，明天可能就冒出了基于StyleGAN3或Diffusion模型生成的、以假乱真的新伪造视频。传统的“一劳永逸”式训练模式在这里彻底失效了——我们不可能每次都收集齐从古至今所有的伪造数据，然后从头训练一个庞大的模型。这不仅计算成本高昂，更重要的是，当我们用新数据训练模型去学习新伪造技术时，模型往往会“忘记”如何识别旧的伪造手段，这种现象在机器学习中被称为“灾难性遗忘”。

这正是“持续学习”要解决的核心问题。想象一下，你是一位经验丰富的鉴伪专家，你的知识库需要不断更新。你不能每学一种新骗术，就把以前见过的所有骗局都忘得一干二净。持续学习的目标就是让AI模型也具备这种能力：在不遗忘旧知识的前提下，持续、高效地学习新任务。在深度伪造检测这个具体战场上，持续学习的价值被无限放大。它意味着我们的检测系统可以像打补丁一样，随着新伪造技术的出现而动态进化，始终保持高警戒状态。

然而，将持续学习框架直接套用到人脸伪造检测上，会遭遇几个棘手的“水土不服”问题。首先，数据分布的剧烈偏移。不同伪造技术（如换脸、表情重演、唇形同步）在像素空间和特征空间留下的痕迹天差地别，新旧任务的数据分布可能毫无重叠。其次，回放数据的存储瓶颈。为了对抗遗忘，一个经典方法是保存一部分旧任务的数据（即“回放”），在学新任务时一起训练。但人脸数据通常体积庞大，长期存储所有旧任务的原始数据既不现实，也有隐私风险。最后，特征空间的混淆。即使模型记住了旧数据的特征，新旧任务的特征在流形空间（可以理解为数据特征分布的复杂几何形状）中可能相互干扰，导致判别边界模糊。

针对这些挑战，我们团队提出了一种名为“基于分布差异压缩与流形一致性回放的持续人脸伪造检测方法”。这个听起来有点拗口的方法，其核心思想可以用一个比喻来理解：我们不再笨拙地背着所有旧课本（原始数据）去学新知识，而是提炼出每本旧课本的“核心考点”和“典型错题集”（分布差异压缩），并确保新旧知识在脑中的知识图谱（流形）里能和谐共存、互不干扰（流形一致性回放）。接下来，我将深入拆解这套方法的每一个技术环节，分享我们在实现过程中的思考、踩过的坑以及最终验证有效的实战经验。

2. 核心思路拆解：从问题本质出发的设计哲学

面对持续人脸伪造检测的难题，我们首先摒弃了“拿来主义”，没有直接套用图像分类领域的持续学习方法。因为伪造检测任务有其特殊性：它本质上是学习“伪造痕迹”与“真实特征”之间的微妙差异，这种差异信号往往很微弱，且随着伪造技术演进，差异的形态会发生根本性变化。我们的设计围绕三个核心原则展开：高效记忆、分布对齐与流形平滑。

2.1 为何选择“分布差异压缩”而非原始数据回放？

传统回放方法直接存储原始图像或其特征，这带来了存储开销和隐私泄露的双重压力。我们观察到，对于检测任务而言，模型真正需要从旧数据中“记住”的，并非每一个像素，而是区分真伪的决策边界，尤其是靠近边界的那些“难样本”。因此，我们引入了“分布差异压缩”的思想。

它的目标不是复现整个旧数据集的分布，而是压缩并保留新旧数据分布之间的关键差异信息。具体来说，我们利用一种可学习的“合成数据”生成过程。这些合成数据数量极少（可能只有原数据集的1%），但它们是通过优化算法生成的，其梯度响应、在特征空间中的分布差异（用Wasserstein距离或最大均值差异MMD衡量）与原始旧数据尽可能保持一致。这就好比我们不是保存所有的错题，而是总结了几道“经典母题”，这些母题涵盖了所有易错知识点。在训练新任务时，我们只需回放这些高度凝练的合成数据，就能有效地提醒模型旧的决策边界在哪里，从而极大缓解了遗忘。

实操心得：压缩率的权衡压缩率（合成数据量/原始数据量）是一个关键超参数。我们通过实验发现，对于人脸伪造检测任务，1%-5%的压缩率是一个甜点区间。压缩率太低（如0.1%），合成数据无法有效覆盖关键的分布差异，抗遗忘效果差；压缩率太高（如20%），则存储节省的优势不明显，且合成数据的优化过程会变得非常耗时。建议从一个中等压缩率（如2%）开始进行网格搜索。

2.2 “流形一致性”为何至关重要？

即使我们通过压缩数据记住了旧的分布差异，如果新旧任务的特征在模型的特征空间里纠缠不清、互相排斥，模型依然会表现不佳。这就是“流形不一致”问题。我们希望模型学习到的特征空间是一个平滑、连续的流形，其中不同任务的数据点虽然属于不同类别，但它们的特征变换是连贯的，不会出现断裂或突变。

“流形一致性回放”就是为了实现这个目标。我们在训练过程中引入了一个额外的约束损失。这个损失函数鼓励模型在处理回放的旧数据（压缩后的）时，其内部特征表示与当初第一次学习这些数据时的特征表示，在流形结构上保持一致。简单说，就是让模型“用同样的思维方式”去理解同一个知识点。我们通过对比学习或特征分布匹配（例如，匹配特征向量的均值和协方差）来实现这一点。这确保了在持续学习的过程中，模型的特征空间是稳定演化的，而不是每学一个新任务就“重构”一次，从而避免了新旧知识在特征层面的冲突。

2.3 整体架构的协同工作流

我们的方法是一个端到端的训练框架。对于每一个新到来的伪造检测任务（例如，Task T 是检测一种新的Diffusion生成人脸）：

分布差异压缩模块：利用任务T-1的原始数据（或其特征），生成一小部分具有代表性的合成数据，这些数据凝练了T-1任务中真伪数据的分布差异。
模型训练与回放：在训练任务T的新数据时，我们将任务T的新数据、以及从之前所有任务压缩得到的合成数据（即T-1, T-2, ...的压缩数据）混合在一起，构成当前批数据。
流形一致性约束：在训练的前向传播过程中，对于回放的压缩数据，我们不仅计算其分类损失，还计算一个“流形一致性损失”。这个损失衡量当前模型对这些数据提取的特征，与一个“参考模型”（通常是学习该任务时的模型快照）提取的特征在流形结构上的差异，并将其最小化。
模型更新：总损失是分类损失（对新旧数据）、流形一致性损失（对回放数据）的加权和。通过反向传播更新模型参数，使模型在学会新任务的同时，牢固保持对旧任务的判别能力。

这套流程使得模型像一个经验不断累积的专家，既能吸收新知识，又不会动摇其知识体系的根基。

3. 核心模块深度解析与实现细节

理解了整体思路，我们深入到两个核心模块的技术实现细节。这里会有一些公式和代码片段，但我会尽量用直观的方式解释其背后的动机。

3.1 分布差异压缩：如何炼出“知识精华”？

我们采用基于梯度匹配的分布差异压缩方法。其核心是优化一组可学习的合成图像S（数量远少于原始数据D），使得用S和用D训练模型时，产生的梯度方向尽可能一致。

目标函数可以形式化为：min_S L_grad = E_{θ~Θ} [ || ∇θ L(D; θ) - ∇θ L(S; θ) ||^2 ]其中，L是检测任务的损失函数（如交叉熵），θ是模型参数，Θ是参数空间的一个采样分布。这个公式的意思是：我们希望合成数据S在参数空间各个点上产生的训练梯度，与原始数据D产生的梯度尽可能相似。梯度指导了模型的学习方向，因此梯度一致意味着S能引导模型学习到与D相似的知识。

具体实现步骤：

初始化：从原始旧数据集D中随机采样一小部分真实图像作为合成数据集S的初始值。
元学习循环： a.内层循环（模型更新）：用当前的合成数据S训练一个临时模型（称为“学生模型”）若干步。 b.外层循环（合成数据更新）：计算原始数据D在“学生模型”当前参数下的梯度g_D，以及合成数据S在相同参数下的梯度g_S。我们的目标是让g_S逼近g_D。因此，我们计算关于S的损失L = ||g_S - g_D||^2，然后通过梯度下降直接更新合成数据S的像素值。这是一个元优化的过程，S本身成为了可优化参数。
迭代：重复步骤2，直到合成数据S稳定，或者达到预设的迭代次数。

# 伪代码示意核心优化循环 def condense_dataset(original_data_D, initial_synthetic_S, model, inner_steps=5, outer_iters=100): synthetic_S = initial_synthetic_S.clone().requires_grad_(True) optimizer_S = torch.optim.Adam([synthetic_S], lr=1e-3) # 优化合成数据本身！ for outer_iter in range(outer_iters): # 内层循环：用S训练学生模型 student_model = copy.deepcopy(model) optimizer_student = torch.optim.SGD(student_model.parameters(), lr=0.01) for _ in range(inner_steps): loss_student = compute_loss(student_model, synthetic_S) optimizer_student.zero_grad() loss_student.backward() optimizer_student.step() # 外层循环：计算梯度匹配损失并更新S # 计算原始数据D在学生模型上的梯度 grad_D = compute_gradient(student_model, original_data_D) # 计算合成数据S在学生模型上的梯度 grad_S = compute_gradient(student_model, synthetic_S) # 梯度匹配损失 loss_match = F.mse_loss(grad_S, grad_D.detach()) # 注意detach optimizer_S.zero_grad() loss_match.backward() optimizer_S.step() return synthetic_S.detach()

注意事项与技巧
计算效率：上述双循环计算开销很大。实践中，我们采用“单步展开”近似，即内层循环只做一步或几步梯度更新，以平衡效果和速度。
数据增强：在优化S时，对S施加与原始数据训练时相同的数据增强（如随机裁剪、颜色抖动），可以提高合成数据的鲁棒性和泛化性。
类别平衡：确保合成数据S中真脸和假脸的数量比例与原始数据集D大致相同，避免模型偏见。

3.2 流形一致性回放：稳定特征空间的锚点

流形一致性损失的设计目标是稳定特征表示。我们采用了一种基于特征分布匹配的简单而有效的方法。

假设对于某个旧任务的压缩数据S_old，我们保存了当初学习该任务时模型（称为“教师模型”Teacher）的特征提取器F_teacher在S_old上输出的特征统计量：均值μ_teacher和协方差矩阵Σ_teacher。当我们在新任务训练中回放S_old时，当前模型（“学生模型”Student）的特征提取器F_student也会对S_old提取特征。流形一致性损失L_manifold鼓励F_student输出的特征分布与保存的分布一致：

L_manifold = || μ_student - μ_teacher ||^2 + λ * || Σ_student - Σ_teacher ||_F^2

其中，||·||_F是Frobenius范数，λ是平衡两项的权重系数。第一项匹配特征中心，第二项匹配特征形状（即各维度间的相关性）。通过最小化这个损失，我们约束了模型的特征空间，使其在处理旧知识时，保持与历史一致的“认知方式”。

实现要点：

统计量存储：在每个旧任务训练结束后，立即用当前模型计算其压缩数据S_old的特征均值和协方差，并存储。存储的是统计量，而非原始特征，开销极小。
损失计算：在新任务训练时，每个批次中如果包含旧任务的压缩数据，就计算当前模型对这些数据提取特征的统计量，并与存储的统计量计算L_manifold。
权重λ的选择：协方差匹配项通常比均值匹配项数值更大也更敏感。我们通过实验发现，将λ设置为一个较小的值（如0.001或0.01）效果较好，主要起到正则化的作用，防止特征空间发生剧烈形变。

# 伪代码：流形一致性损失计算 def manifold_consistency_loss(current_features, saved_mean, saved_cov, lambda_reg=0.001): """ current_features: 当前模型对回放数据提取的特征，形状 [batch_size, feature_dim] saved_mean: 保存的旧特征均值，形状 [feature_dim] saved_cov: 保存的旧特征协方差矩阵，形状 [feature_dim, feature_dim] """ current_mean = torch.mean(current_features, dim=0) # 计算无偏样本协方差 centered = current_features - current_mean.unsqueeze(0) current_cov = (centered.T @ centered) / (centered.size(0) - 1) loss_mean = F.mse_loss(current_mean, saved_mean) loss_cov = F.mse_loss(current_cov, saved_cov) # 或用Frobenius范数 total_loss = loss_mean + lambda_reg * loss_cov return total_loss

4. 完整训练流程与参数配置实战

将上述模块整合，一个完整的持续人脸伪造检测训练流程如下。我们以依次学习三个伪造数据集（例如FF++、Celeb-DF、DFDC）为例。

4.1 环境准备与数据预处理

硬件与框架：

GPU：建议至少一张显存11GB以上的GPU（如RTX 2080 Ti, RTX 3080）。
深度学习框架：PyTorch 1.9+， CUDA 11.x。
关键库：torch,torchvision,numpy,opencv-python,scikit-learn。

数据预处理流水线：

人脸检测与对齐：使用MTCNN或RetinaFace检测并裁剪出人脸区域。这一步至关重要，不一致的对齐会引入无关噪声，干扰模型学习伪造痕迹。我们采用insightface库提供的对齐工具，确保所有图像的人脸关键点（如眼睛、鼻尖、嘴角）对齐到标准位置。
分辨率统一：将所有裁剪后的人脸图像缩放到固定尺寸，如224x224或256x256，以适应骨干网络输入。
数据增强：仅对训练集应用。包括随机水平翻转、小幅度随机旋转（±10度）、颜色抖动（亮度、对比度、饱和度微调）。注意：对于压缩模块中合成数据的优化，也应使用相同的数据增强策略，以确保其鲁棒性。
数据集划分：每个任务的数据集（如FF++）内部，按标准比例（如70:15:15）划分训练集、验证集和测试集。持续学习的评估是在所有已学任务的整体测试集上进行的。

4.2 模型架构选择与初始化

骨干网络：我们选择在ImageNet上预训练的EfficientNet-B3作为特征提取器。EfficientNet在精度和效率上取得了很好的平衡，其预训练权重提供了强大的通用视觉表征能力，有利于迁移到伪造检测任务。

import torch.nn as nn from efficientnet_pytorch import EfficientNet class ForgeryDetector(nn.Module): def __init__(self, num_classes=2): # 二分类：真/假 super().__init__() # 加载预训练EfficientNet-B3，去掉顶部分类头 self.backbone = EfficientNet.from_pretrained('efficientnet-b3') self.feature_dim = self.backbone._fc.in_features self.backbone._fc = nn.Identity() # 替换为恒等映射 # 自定义分类头 self.classifier = nn.Sequential( nn.Linear(self.feature_dim, 512), nn.BatchNorm1d(512), nn.ReLU(), nn.Dropout(0.3), nn.Linear(512, num_classes) ) def forward(self, x): features = self.backbone(x) logits = self.classifier(features) return logits, features # 同时返回分类结果和特征

分类头：在骨干网络后接一个简单的多层感知机（MLP）作为分类头。持续学习过程中，只有分类头是任务特定的。我们采用“固定骨干网络+可扩展分类头”的策略，以平衡学习能力和参数效率。

4.3 分阶段训练流程详述

假设我们有三个任务按顺序到来：Task 1 (FF++)， Task 2 (Celeb-DF)， Task 3 (DFDC)。

阶段一：训练Task 1 (FF++)

标准训练：使用Task 1的训练数据，训练完整的ForgeryDetector模型。优化器使用Adam，初始学习率1e-4，采用余弦退火调度。这是模型的“基础学习”阶段。
生成压缩数据：训练结束后，冻结模型参数。运行分布差异压缩模块，使用Task 1的全部训练数据（或一个大的子集）D1，生成一小部分合成数据S1（例如，压缩率为2%，即如果D1有10万张图，S1为2000张）。同时，保存当前模型作为Task 1的“教师模型”Teacher1，并计算S1在Teacher1特征提取器下的特征均值μ1和协方差Σ1。将(S1, μ1, Σ1)存入“记忆库”。

阶段二：持续学习Task 2 (Celeb-DF)

准备训练数据：当前批数据由两部分混合组成：
- 新数据：Task 2的训练数据D2。
- 回放数据：从记忆库中取出的Task 1的压缩数据S1。
构建损失函数：总损失L_total由三部分组成：
- L_cls_new：D2数据的标准交叉熵分类损失。
- L_cls_replay：S1数据的交叉熵分类损失（标签已知）。
- L_manifold：计算当前模型对S1提取的特征，与存储的(μ1, Σ1)之间的流形一致性损失。L_total = L_cls_new + α * L_cls_replay + β * L_manifold其中α和β是超参数，用于平衡新旧任务学习和特征稳定性。我们初始设置为α=1.0,β=0.1。
模型训练：使用L_total进行训练。注意：为了稳定训练，在初始的几个epoch，可以设置一个预热阶段，逐渐将β从0增加到目标值。
更新记忆库：Task 2训练结束后，同样运行压缩模块，生成Task 2的压缩数据S2，并保存对应的特征统计量(μ2, Σ2)。现在记忆库中包含(S1, μ1, Σ1)和(S2, μ2, Σ2)。

阶段三：持续学习Task 3 (DFDC)及以后重复阶段二的流程。训练Task 3时，回放数据是从记忆库中均匀采样的S1和S2的混合。损失函数中的L_manifold需要对所有回放的旧任务数据分别计算并求和。

4.4 超参数调优指南

以下是我们经过大量实验得出的关键超参数推荐范围，可作为调优起点：

超参数	描述	推荐值/范围	调优建议
压缩率	合成数据量 / 原始数据量	1% - 5%	从2%开始。数据复杂度高（如高分辨率、多姿态）可适当提高。
合成数据优化器LR	优化合成数据像素值的学习率	1e-3 - 1e-2	使用Adam。LR太大会导致合成图像失真，太小则优化慢。
梯度匹配内层步数	压缩算法中“学生模型”的更新步数	1 - 5	步数越多，匹配越精确，但计算成本呈线性增长。通常1步已足够。
回放损失权重 α	回放数据分类损失的权重	0.5 - 1.5	控制旧知识的重要性。任务差异大时，可适当提高α。
流形损失权重 β	流形一致性损失的权重	0.05 - 0.2	控制特征空间的稳定性。β过大会抑制新任务学习，过小则防遗忘效果弱。
批次大小	训练时每个批次的样本数	32 - 64	确保每个批次中新数据和回放数据都有足够样本。
基础学习率	模型参数优化器的初始学习率	1e-4 - 5e-4	使用余弦退火或带热重启的余弦退火调度。

实操心得：学习率调度与回放数据采样
余弦退火重启：我们强烈推荐使用CosineAnnealingWarmRestarts调度器。它能在训练过程中周期性地“重启”学习率，有助于模型跳出局部最优，在持续学习多个任务后仍能保持较强的学习能力。
回放数据采样策略：随着任务增多，记忆库中压缩数据的总量也会增长。在每个训练批次中，我们从每个旧任务的压缩数据中等量采样，而不是按数据量比例采样。这保证了每个旧任务都能得到平等的“回顾”机会，防止早期任务被淹没。

5. 实验评估、常见问题与避坑实录

没有实验验证的方法只是空中楼阁。我们设计了一套严谨的评估协议来验证方法的有效性，并记录了实战中遇到的各种“坑”及其解决方案。

5.1 评估协议与基线对比

评估协议：我们采用持续学习领域标准的平均准确率和遗忘率作为核心指标。

任务序列：构建一个包含4个主流深度伪造数据集的任务序列，例如：[FF++ (HQ) -> Celeb-DF -> DFDC -> FaceShifter]。
训练：模型按顺序学习每个任务，学完一个任务后，在所有已学任务的测试集上进行评估。
平均准确率 (Avg. Acc)：学完所有任务后，计算模型在每个任务测试集上准确率的平均值。这衡量了模型的整体性能。
遗忘率 (Forgetting)：对于任务i，计算其峰值准确率（刚学完该任务时）与最终准确率（学完所有任务后）的差值。对所有任务取平均得到平均遗忘率。这衡量了模型保留旧知识的能力。

基线方法对比：我们将提出的方法与以下经典持续学习方法进行对比：

Fine-tuning (FT)：直接在新任务数据上微调模型，不考虑旧任务。这是遗忘最严重的下限。
Learning without Forgetting (LwF)：通过知识蒸馏，用旧模型输出作为软标签来约束新模型。
Experience Replay (ER)：随机存储一部分旧任务原始数据并回放。
iCaRL：结合了回放和原型分类的增量分类方法。
GDumb：一个简单的强基线，只使用记忆库中的数据训练模型。

实验结果：在多个任务序列上的实验表明，我们的方法在平均准确率上显著优于ER和iCaRL等回放方法（通常高出3-5个百分点），并且遗忘率最低。与需要存储大量原始数据的ER相比，我们的方法仅需存储不到5%的压缩数据，就达到了相当甚至更好的抗遗忘效果，证明了分布差异压缩的高效性。与LwF相比，我们的方法在处理分布差异巨大的伪造数据集时优势明显，因为LwF仅依赖蒸馏，在数据分布剧烈变化时容易失效。

5.2 典型问题排查与解决技巧

在实际实现和训练过程中，我们遇到了以下典型问题：

问题1：合成图像出现无意义的噪声或色块，无法用于有效训练。

可能原因：合成数据优化过程中的学习率设置过高，或优化步数（内层循环）太少，导致优化不稳定。
排查与解决：
1. 可视化检查：定期将优化中的合成图像保存并可视化。正常的合成图像虽然看起来不像自然人脸，但应该具有一些有意义的边缘、纹理结构，而不是纯粹的随机噪声。
2. 降低学习率：将合成数据优化器的学习率从1e-2降低到1e-3或5e-4。
3. 增加内层步数：将梯度匹配的内层步数从1增加到3或5，让“学生模型”在每次更新合成数据前，能进行更充分的适应。
4. 加入图像先验：在合成数据的优化损失中加入一项简单的图像先验损失，如总变分损失TV Loss，鼓励图像平滑，抑制高频噪声。
```
def tv_loss(image): # 计算图像在水平和垂直方向上的梯度差异 diff_h = torch.abs(image[:, :, 1:, :] - image[:, :, :-1, :]) diff_w = torch.abs(image[:, :, :, 1:] - image[:, :, :, :-1]) return diff_h.sum() + diff_w.sum() # 在分布差异压缩的总损失中加入：L_total = L_grad + γ * tv_loss(S)
```

问题2：加入流形一致性损失后，模型在新任务上的学习速度明显变慢，甚至性能下降。

可能原因：流形一致性损失权重β设置过大，过度约束了特征空间，限制了模型学习新任务特征的能力。
排查与解决：
1. 监控损失曲线：分别观察L_cls_new（新任务分类损失）和L_manifold在训练过程中的下降情况。如果L_cls_new下降极其缓慢，而L_manifold很快降到很低，说明约束过强。
2. 实施损失预热：在训练的前N个epoch（例如总epoch的1/5），让β从0线性增长到目标值。这给了模型一个适应期，先专注于学习新任务的基本模式，再逐步引入特征稳定性约束。
3. 动态调整β：更精细的策略是根据新旧任务的特征分布差异来动态调整β。如果新任务与旧任务差异很大，可以适当降低初始的β值。

问题3：随着任务数量增加，模型整体性能缓慢下降，后期任务学习困难。

可能原因：这是持续学习的固有难题，称为“容量饱和”。模型参数容量有限，当积累的知识过多时，会发生干扰。此外，回放数据采样策略可能不公平，导致早期任务的知识被稀释。
排查与解决：
1. 检查模型容量：考虑使用更大容量的骨干网络（如EfficientNet-B4）或略微增加分类头的宽度。但要注意权衡参数数量和过拟合风险。
2. 优化回放采样：确保每个旧任务在每轮训练中都有平等的机会被回放。采用“均匀采样每个任务”而非“均匀采样所有记忆数据”。
3. 引入任务感知机制：为分类头增加一个简单的任务标识符（Task ID）输入，或者使用动态扩展的网络结构，让模型有能力为不同任务分配独立的子网络资源。但这会增加模型复杂性。
4. 定期“巩固”训练：在学完一定数量的任务（如3个）后，用所有记忆库中的压缩数据，对模型进行一次全局微调，以重新校准所有任务的决策边界。

问题4：在跨数据集的持续学习场景下，模型在某个特定数据集上性能突然暴跌。

可能原因：该数据集的数据分布或伪造痕迹特性与其他数据集存在显著差异，导致模型发生了“灾难性遗忘”或“负迁移”。
排查与解决：
1. 数据域分析：对各个数据集进行简单的特征统计分析（如颜色直方图、频谱分析），可视化其差异。这有助于理解问题的根源。
2. 增强数据多样性：在压缩数据生成和训练阶段，使用更强、更多样的数据增强（如MixUp, CutMix），强制模型学习更泛化、更本质的伪造特征，而非数据集特定的偏见。
3. 调整损失权重：对于与之前分布差异极大的新任务，可以临时提高回放损失权重α，并降低流形损失权重β，让模型在牢记旧知识的前提下，有更大自由度去适应新分布。

持续人脸伪造检测是一个充满挑战但又极具现实意义的课题。通过分布差异压缩，我们实现了高效、隐私友好的知识保存；通过流形一致性回放，我们确保了模型特征空间的稳定演进。这套方法不仅提升了模型在动态环境下的鲁棒性，其设计思想也对其他面临分布偏移和灾难性遗忘的持续学习任务（如恶意软件检测、金融风控模型更新）具有借鉴意义。在实际部署中，我们需要根据具体的伪造技术演变速度和数据特点，灵活调整压缩率、回放策略和超参数，让检测系统真正成为一个“终身学习”的智能卫士。

查看全文

http://www.rkmt.cn/news/1418506.html