当前位置: 首页 > news >正文

MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构

现在的文生图模型已经十分强大了,例如我们在输入框敲下 “a photorealistic astronaut riding a horse on the moon”,几秒钟后屏幕生成从未出现过的图像,细节丰富,几近完美。扩散模型(diffusion models)推动了这一切,早已将旧方法远远甩在身后。主流观点认为,这一成功依赖于像 U-Net 这类高度专门化的神经网络架构,以及它们内置的“归纳偏置”。但也许“魔法”并不在引擎,而在燃料:数据。

来自 MIT 与丰田研究院(Toyota Research Institute, TRI)的论文《Locality in Image Diffusion Models Emerges from Data Statistics(图像扩散模型中的局部性源自数据统计)》对这一说法提出挑战。作者给出证据表明,扩散模型一个被反复强调的属性——关注局部像素关系——并不需要依赖架构的巧妙设计,它可以从训练图像的统计规律中自然涌现。

“我们给出证据表明,深度扩散模型中的局部性,是图像数据集的统计属性所促成的,而不是卷积神经网络的归纳偏置所致。”

这意味着:模型并没有“发明”新的视觉范式,更像是把自然图像中最显而易见的统计模式学到了极致。下面我们详细说说这篇论文

我们以为的扩散模型工作

从清晰图像出发,逐步加噪直至完全随机;训练一个模型去逆转这个过程,逐步去噪,生成新图像。长期以来,U-Net 被视为是这里的主力,它承担“去噪器”的核心职责。我们也通常把它的“超能力”归因于架构:

  • 局部性(Locality):卷积层像滑动的放大镜,以重叠小块处理图像,默认相邻像素的相关性更强。
  • 平移等变(Shift Equivariance):同一只猫,放在左上角或右下角仍是猫。输入平移,表示随之平移,理解保持一致。

这些归纳偏置常被认为是模型在复杂视觉世界里“少走弯路”的关键。

“完美”的去噪器

扩散框架里存在一个理论上的“最优去噪器”。给定带噪声的图像,它能返回最可能的原始图像。但它对生成新图像没什么用,因为它是一个近乎完美的抄写者:在训练集中检索最近邻,然后再吐回去。它不会泛化、不懂组合与迁移,更像搜索引擎而不是生成模型者。你的数据里有猫和狗,它就能给你猫或狗,却永远想不出“狗猫”这个不存在的动物。

image

 


图 1,摘自论文。右侧的“最优”去噪器只是从记忆(训练集)里寻找最近的图像。深度去噪器会生成一个合理且新颖的图像。研究者试图解释的正是这两者之间的差距。

 

https://avoid.overfit.cn/post/2de292b28a1c45a7859df94069855581

http://www.rkmt.cn/news/8691.html

相关文章:

  • 基于MATLAB的视频动态目标跟踪检测搭建方案
  • 第三篇:Windows10/11软件集成与系统优化 - 教程
  • Windows-Appx
  • 详细介绍:《Vuejs设计与实现》第 16 章(解析器) 中
  • 【解决】Matlab函数体突然不自动缩进了
  • React+antd搭建监听localStorage变化多页面更新+纯js单页面table模糊、精确查询、添加、展示功能
  • 详细介绍:jeecg-boot3.7.0对接钉钉登录(OAuth2.0)
  • 题解:P13969 [VKOSHP 2024] Exchange and Deletion
  • 基于MATLAB的车牌识别系统 - 实践
  • Linux服务器上安装配置GitLab的步骤
  • 在Linux中设定账户密码的安全性策略
  • MySQL 32 为什么还有kill不掉的语句?
  • Axure RP 9 Mac 交互原型设计 - 实践
  • Ceph IO流程分段上传(1)——InitMultipart - 指南
  • 第9章 Prompt提示词设计 - 指南
  • 详解Spring Boot DevTools - 指南
  • 1789:算24
  • 铁头山羊stm32-HAL库 - 实践
  • IDEA编译Maven任务后target目录没有class
  • 2025CSP-S初赛游记
  • 完整教程:AVL树(平衡二叉搜索树)
  • Vscode + Latex指南
  • kafka创建topic
  • WPS 2025最新版EXE
  • go语言学习之strconv将字符串转数据类型
  • csp2025
  • Ai元人文:价值共生时代的技术哲学构想之宣言
  • 完整教程:TruckSim与Matlab-Simulink联合仿真(一)
  • AI 智能体与 Coze 工作流实践:公众号对标账号集采 - 详解
  • PostGIS 介绍(2)--PostGIS 参考