📅 发布时间：2026/6/19 21:44:45

提升GAN可控性：精确操控合成图像的属性

生成对抗网络（GAN）近年来在从零开始合成逼真视觉图像方面展现出了卓越的能力。然而，要精确控制GAN输出图像的特定特征——例如光照条件、视角，或者人物是微笑还是皱眉——一直是个难题。大多数现有方法依赖于在GAN的参数空间中进行试错式的探索。近期一种控制合成人脸的方法涉及使用图形软件生成三维原型，这一过程繁琐，控制能力有限，并且通常仅限于单一图像类别。

在今年的国际计算机视觉大会（ICCV）上，我们与某中心的一位杰出科学家合作，提出了一种控制GAN输出的新方法。该方法允许通过数值指定图像参数（例如视角或人物年龄），并且适用于多种图像类别。我们的方法在几项控制精度指标上超越了之前的方案，同时我们也通过用户研究对其进行了评估。用户发现，使用我们的方法生成的图像比使用两种领先的先前方法生成的图像更为逼真，认可比例约为2:1。

潜在空间

GAN的训练设置涉及两个机器学习模型：生成器和判别器。生成器学习生成能够“欺骗”判别器的图像，而判别器则学习区分合成图像与真实图像。

在训练过程中，模型学习一组已学习图像参数上的概率分布（在StyleGAN系列模型中，有512个参数）。该分布描述了真实图像中出现的参数值范围。合成新图像就是从该分布中随机选取一个点，并将其传递给生成器。

图像参数定义了一个潜在空间（在StyleGAN中为512维）。图像属性的变化——从高到低的相机角度、从年轻到年老的面孔、从左到右的光照等——可能沿着该空间的特定轴线分布。但由于生成器是一个“黑盒”神经网络，该空间的结构是未知的。

先前关于可控GAN的研究涉及探索该空间以试图了解其结构。但这种结构可能是不规则的，因此了解一种属性对了解其他属性帮助不大。此外，属性之间可能存在纠缠，改变一个属性也会改变其他属性。

最近的工作采用了一种更系统的方法，生成器的输入指定了人脸的图像属性，并根据其输出与具有相同属性的三维图形模型的匹配程度来评估生成器。

然而，这种方法有一些局限性。一是它只适用于人脸。二是它可能产生看起来较为合成的输出图像，因为生成器学习的是匹配合成训练目标的属性。最后，很难用图形模型捕捉更整体的属性，比如一个人的年龄。

可控GANs

在我们的论文中，我们提出了一种控制GAN的方法，该方法仅需要数值输入，能够修改广泛的图像属性，并且适用于多种图像类别。

首先，我们使用对比学习来结构化潜在空间，使得我们感兴趣的属性沿着不同的维度分布——也就是说，它们被解耦了。然后，我们学习一组可以单独修改这些属性的控制器。

方法概述

我们首先选择一组希望控制的图像属性，并构建一个表示空间，使得该空间的每个维度对应一个属性（如上图中的 Z 空间）。然后，我们在该空间中选择点对，这些点对在某一维度上具有相同的值，但在其他维度上具有不同的值。

在训练期间，我们通过这些点对通过一组全连接的神经网络层，这些层学习将我们构建的空间中的点映射到已学习的潜在空间中的点（图中的 W 空间）。潜在空间中的点将作为我们生成器的控制器。

除了标准的对抗性损失（如果生成器未能欺骗判别器，则会受到惩罚）外，我们还计算一组额外的损失，每个属性一个。这些损失基于现成的、可计算图像属性（年龄、表情、光照方向等）的模型。这些损失迫使具有共享属性的图像在潜在空间中更接近，同时迫使不共享属性的图像彼此远离。

训练完生成器后，我们在潜在空间中随机选择点，生成相应的图像，并测量它们的属性。然后，我们训练一组新的控制器，以测量到的属性作为输入，并输出潜在空间中对应的点。当这些控制器训练完成后，我们就拥有了一种将特定属性测量值映射到潜在空间点的方法。

评估

为了评估我们的方法，我们将其与之前两种使用三维图形模型训练人脸生成器的方法进行了比较。我们发现，与使用早期方法生成的人脸相比，使用我们的方法生成的人脸能更好地匹配输入参数。

我们还请人类受试者对我们的方法和两种基线方法生成的图像的真实感进行评分。在67% 的情况下，受试者认为我们的图像比任何一种基线图像都更自然。两种基线方法中较好的一种得分仅为22%。

最后，我们询问人类受试者是否同意我们生成的、已控制属性的人脸确实展示了这些属性。对于其中五个属性，同意率从87%到98% 不等。在第六个属性——抬高的相机角度——上，同意率仅为约66%。这可能是因为在低角度下，效果过于微妙而难以察觉。

在这些评估中，我们必然地将自己限制在生成人脸上，因为这是唯一有强基线方法可用的领域。但我们也尝试了生成狗的脸部图像和合成绘画，这两种都是先前方法无法处理的。结果可以从下面的图像中评判：

此处原文应有图像，但翻译文本中不包含图像描述。原意是展示了在狗脸和绘画类别上的生成效果。

研究领域

计算机视觉
机器学习

提升GAN可控性：精确操控合成图像的属性

提升GAN可控性：精确操控合成图像的属性

潜在空间

可控GANs

方法概述

评估

研究领域

标签