034、从合成到真实：Real-ESRGAN的高阶退化模型与盲超分实战-尧图网站建设

📅 发布时间：2026/7/3 9:42:52

034、从合成到真实：Real-ESRGAN的高阶退化模型与盲超分实战

去年帮一个安防客户做监控视频增强，他们提供的低分辨率图像里，有压缩噪声、运动模糊、传感器噪声，甚至还有雨滴痕迹。我第一反应是拿ESRGAN直接上，结果输出图像虽然纹理清晰了，但噪声被放大成了伪影，模糊区域出现了奇怪的振铃。客户看了一眼，说“这还不如不处理”。

那一刻我意识到，传统超分模型在“干净”的合成数据上表现再好，到了真实场景也是白搭。真实世界的退化过程远比双三次下采样复杂——压缩、模糊、噪声、传感器响应、甚至大气扰动，这些因素叠加在一起，构成了一个高阶退化空间。Real-ESRGAN正是为了解决这个问题而生的。

传统超分模型通常假设低分辨率图像是通过一个简单的下采样过程得到的，比如：

LR = (HR ⊗ k) ↓s + n

其中k是模糊核，↓s是下采样，n是噪声。这个模型太理想了。真实场景中，退化往往是多个过程的组合：先有传感器噪声，再有光学模糊，然后经过压缩编码，最后还可能被传输过程中的丢包影响。

Real-ESRGAN的高阶退化模型把退化过程拆成了两个阶段：

第一阶段：模糊 + 噪声 + 下采样
第二阶段：压缩 + 噪声 + 下采样

这里踩过坑：很多人以为两个阶段是顺序执行的，其实它们是随机组合的。每个阶段内部的模糊核、噪声类型、压缩参数都是随机采样的。这样做的目的是覆盖尽可能多的真实退化模式。

具体实现时，模糊核从各向同性高斯核、各向异性高斯核、广义高斯核中随机选择。噪声包括高斯噪声、泊松噪声、以及它们的混合。压缩则模拟JPEG压缩的块效应。

别这样写：不要把所有退化参数都固定死，比如模糊核大小固定为7x7，噪声标准差固定为0.05。这样生成的训练数据太单一，模型学不到泛化能力。应该让每个参数在一个范围内随机采样。

很多人以为Real-ESRGAN就是把ESRGAN的训练数据换成更复杂的退化模型，然后重新训练。这是误解。Real-ESRGAN在生成器和判别器上都做了针对性改进。

生成器方面，保留了RRDB（Residual-in-Residual Dense Block）的基本结构，但做了两个关键改动：

在RRDB内部加入了像素级特征调制（Pixel-level Feature Modulation），让网络能够根据输入图像的退化程度自适应调整特征响应。这个机制类似于SFT（Spatial Feature Transform），但更轻量。
去掉了批量归一化（BN）层。原因很简单：BN在训练时依赖batch统计量，而真实场景中单张图像的退化模式可能和训练batch的统计分布不一致。这里踩过坑——我一开始保留了BN，结果在测试时发现输出图像的色彩分布不稳定，去掉BN后问题解决。

判别器方面，采用了U-Net结构的判别器，而不是传统的PatchGAN。U-Net判别器能够输出像素级的真伪概率图，这样生成器可以更精细地优化局部纹理。别这样写：不要用全局判别器，它只关注整体图像是否真实，对局部细节的监督不够。

Real-ESRGAN的训练分为两个阶段：

第一阶段：只用L1损失和感知损失训练生成器，不涉及对抗训练。这一步的目的是让网络先学会基本的超分能力，避免对抗训练初期的不稳定性。我一般训练50k个迭代。

第二阶段：加入对抗损失和GAN损失，同时使用判别器。这里有个关键点——对抗损失的权重不能太大，否则生成器会过度优化纹理细节，导致伪影。我通常把对抗损失权重设为0.1，感知损失权重设为1.0。

训练数据生成时，退化参数的采样范围需要精心设计。比如模糊核大小在3x3到23x23之间随机，噪声标准差在0到0.2之间随机。这里踩过坑：一开始我把模糊核范围设得太大（最大到41x41），结果模型学到的模糊核过于平滑，丢失了高频细节。

假设我们有一段监控视频，帧率低、分辨率只有320x240，而且有明显的压缩噪声和运动模糊。直接上Real-ESRGAN的预训练模型，效果已经不错，但针对这个场景还能进一步优化。

第一步：分析退化模式。观察几帧图像，发现压缩噪声是块状的，运动模糊是水平方向的。这说明JPEG压缩和水平运动模糊是主要的退化因素。

第二步：调整退化参数。在训练数据生成时，把模糊核的采样偏向水平方向，压缩质量因子设低一些（比如30-50）。别这样写：不要把所有退化参数都调成固定值，应该保持随机性，只是调整概率分布。

第三步：微调模型。用目标场景的少量真实低分辨率图像（不需要对应的高分辨率图像）进行微调。这里用到了Real-ESRGAN的“无监督微调”技巧——只使用低分辨率图像，通过自监督损失（如循环一致性损失）来适应目标域。

第四步：后处理。输出图像可能会有轻微的过锐化，可以用一个轻量的高斯滤波器做平滑，或者用CLAHE做对比度增强。

不要迷信预训练模型。Real-ESRGAN的官方预训练模型在通用场景下表现不错，但针对特定退化模式（如老照片的划痕、监控视频的压缩噪声），微调是必须的。微调时用少量真实数据就能看到明显提升。
退化模型的复杂度要适中。太简单的退化模型（比如只有模糊和噪声）会让模型在真实场景中失效；太复杂的退化模型（比如加入几十种退化）会让训练不稳定，模型学不到有效特征。我通常用5-8种退化类型，每种类型内部参数随机。
注意计算资源。Real-ESRGAN的生成器有16个RRDB，参数量约16M，在1080p图像上推理需要几秒。如果对实时性有要求，可以考虑用轻量版本（如Real-ESRGAN-Lite），或者用ONNX Runtime加速。
评估指标要选对。PSNR和SSIM在真实场景中往往和主观感受不一致。我建议用NIQE、BRISQUE等无参考图像质量评估指标，或者直接做用户调研。有一次我优化模型后PSNR下降了0.3dB，但用户反馈图像更清晰了。
别忘了处理边界效应。Real-ESRGAN在图像边界处容易出现伪影，因为卷积操作在边界处缺乏足够的上下文信息。我通常会在推理前对图像做镜像填充（mirror padding），推理后再裁剪掉填充部分。

最后说一句：超分重建不是万能的。如果输入图像的分辨率太低（比如低于64x64），或者退化太严重（比如被严重压缩成马赛克），任何模型都很难恢复出有意义的细节。这时候要考虑的是图像修复（inpainting）或生成式方法，而不是超分。