尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

提升GAN可控性:精确操控合成图像的属性

提升GAN可控性:精确操控合成图像的属性
📅 发布时间:2026/6/19 21:44:45
本文介绍了一种为生成对抗网络(GAN)提供显式控制的新方法,该方法允许通过数值输入精确指定合成图像的属性,如拍摄角度、主体年龄和光照方向,并通过对比学习解耦潜在空间中的特征,实现了跨多种图像类别的高质量生成。

提升GAN可控性:精确操控合成图像的属性

生成对抗网络(GAN)近年来在从零开始合成逼真视觉图像方面展现出了卓越的能力。然而,要精确控制GAN输出图像的特定特征——例如光照条件、视角,或者人物是微笑还是皱眉——一直是个难题。大多数现有方法依赖于在GAN的参数空间中进行试错式的探索。近期一种控制合成人脸的方法涉及使用图形软件生成三维原型,这一过程繁琐,控制能力有限,并且通常仅限于单一图像类别。

在今年的国际计算机视觉大会(ICCV)上,我们与某中心的一位杰出科学家合作,提出了一种控制GAN输出的新方法。该方法允许通过数值指定图像参数(例如视角或人物年龄),并且适用于多种图像类别。我们的方法在几项控制精度指标上超越了之前的方案,同时我们也通过用户研究对其进行了评估。用户发现,使用我们的方法生成的图像比使用两种领先的先前方法生成的图像更为逼真,认可比例约为2:1。

潜在空间

GAN的训练设置涉及两个机器学习模型:生成器和判别器。生成器学习生成能够“欺骗”判别器的图像,而判别器则学习区分合成图像与真实图像。

在训练过程中,模型学习一组已学习图像参数上的概率分布(在StyleGAN系列模型中,有512个参数)。该分布描述了真实图像中出现的参数值范围。合成新图像就是从该分布中随机选取一个点,并将其传递给生成器。

图像参数定义了一个潜在空间(在StyleGAN中为512维)。图像属性的变化——从高到低的相机角度、从年轻到年老的面孔、从左到右的光照等——可能沿着该空间的特定轴线分布。但由于生成器是一个“黑盒”神经网络,该空间的结构是未知的。

先前关于可控GAN的研究涉及探索该空间以试图了解其结构。但这种结构可能是不规则的,因此了解一种属性对了解其他属性帮助不大。此外,属性之间可能存在纠缠,改变一个属性也会改变其他属性。

最近的工作采用了一种更系统的方法,生成器的输入指定了人脸的图像属性,并根据其输出与具有相同属性的三维图形模型的匹配程度来评估生成器。

然而,这种方法有一些局限性。一是它只适用于人脸。二是它可能产生看起来较为合成的输出图像,因为生成器学习的是匹配合成训练目标的属性。最后,很难用图形模型捕捉更整体的属性,比如一个人的年龄。

可控GANs

在我们的论文中,我们提出了一种控制GAN的方法,该方法仅需要数值输入,能够修改广泛的图像属性,并且适用于多种图像类别。

首先,我们使用对比学习来结构化潜在空间,使得我们感兴趣的属性沿着不同的维度分布——也就是说,它们被解耦了。然后,我们学习一组可以单独修改这些属性的控制器。

方法概述

我们首先选择一组希望控制的图像属性,并构建一个表示空间,使得该空间的每个维度对应一个属性(如上图中的 Z 空间)。然后,我们在该空间中选择点对,这些点对在某一维度上具有相同的值,但在其他维度上具有不同的值。

在训练期间,我们通过这些点对通过一组全连接的神经网络层,这些层学习将我们构建的空间中的点映射到已学习的潜在空间中的点(图中的 W 空间)。潜在空间中的点将作为我们生成器的控制器。

除了标准的对抗性损失(如果生成器未能欺骗判别器,则会受到惩罚)外,我们还计算一组额外的损失,每个属性一个。这些损失基于现成的、可计算图像属性(年龄、表情、光照方向等)的模型。这些损失迫使具有共享属性的图像在潜在空间中更接近,同时迫使不共享属性的图像彼此远离。

训练完生成器后,我们在潜在空间中随机选择点,生成相应的图像,并测量它们的属性。然后,我们训练一组新的控制器,以测量到的属性作为输入,并输出潜在空间中对应的点。当这些控制器训练完成后,我们就拥有了一种将特定属性测量值映射到潜在空间点的方法。

评估

为了评估我们的方法,我们将其与之前两种使用三维图形模型训练人脸生成器的方法进行了比较。我们发现,与使用早期方法生成的人脸相比,使用我们的方法生成的人脸能更好地匹配输入参数。

我们还请人类受试者对我们的方法和两种基线方法生成的图像的真实感进行评分。在67% 的情况下,受试者认为我们的图像比任何一种基线图像都更自然。两种基线方法中较好的一种得分仅为22%。

最后,我们询问人类受试者是否同意我们生成的、已控制属性的人脸确实展示了这些属性。对于其中五个属性,同意率从87%到98% 不等。在第六个属性——抬高的相机角度——上,同意率仅为约66%。这可能是因为在低角度下,效果过于微妙而难以察觉。

在这些评估中,我们必然地将自己限制在生成人脸上,因为这是唯一有强基线方法可用的领域。但我们也尝试了生成狗的脸部图像和合成绘画,这两种都是先前方法无法处理的。结果可以从下面的图像中评判:

此处原文应有图像,但翻译文本中不包含图像描述。原意是展示了在狗脸和绘画类别上的生成效果。

研究领域

  • 计算机视觉
  • 机器学习

标签

  • 生成对抗网络(GANs)
  • 合成数据生成
  • ICCV
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

相关新闻

  • 简单大数据分析测试
  • 【权威指南】Dify集成Tesseract 5.3语言包的7个关键步骤
  • 状态丢失问题

最新新闻

  • 嵌入式GUI开发实战:emWin窗口管理器消息机制、ToolTips与多图层应用详解
  • 简单理解:为什么SVPWM没看到提反Clarke变换
  • public-apis 项目深度解析:442K Stars的免费API大全
  • 在哪个软件找工作真实可靠?五大招聘平台实测对比 - 博客万
  • Gemini 3.5国内一键可用:服务发现层软适配实战指南
  • 2026年6月最新江诗丹顿中国官方售后联系电话与客户服务中心网点地址 - 江诗丹顿服务中心

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号