尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

三分钟秒懂:Stable Diffusion 系列模型的 推理流程

三分钟秒懂:Stable Diffusion 系列模型的 推理流程
📅 发布时间:2026/6/23 2:21:05

【一】前序

目前常用的主流的AI模型分为两大类: LLM(大语言模型) 和 SD(文生图扩散生成模型)。

LLM 是 基于 transformer架构,核心靠 自注意力机制 生成数据。
而 SD 是基于 diffusion扩散架构,核心靠 逐步去噪 生成数据。

transformer架构 相信大家都很熟悉了(几乎天天都在用), 接下来重点给大家聊聊 Diffusion 的 推理流程。


【二】Stable Diffusion 完整推理流程

先记住核心一句话:
LLM Transformer 是从左到右逐字生成文字;Stable Diffusion 是从满是噪点的纯灰图,一步步擦掉噪声、还原出清晰图片。

1、核心基础组件(C U V)

  1. CLIP文本编码器(Transformer结构,你熟的自注意力)
    你输入的提示词(比如“一只白猫站在草地上”),会交给CLIP Transformer,把文字转换成一组数字向量(文本特征)。
    后面画图的核心网络UNet,全靠这组向量知道你想要什么画面。
  2. UNet(SD核心去噪网络,卷积+注意力混合,不是纯Transformer)
    唯一干活的模块:接收「带噪声的图片潜空间张量 + CLIP文字向量」,计算出当前图片里噪声长什么样,输出噪声预测值,用来擦掉噪声。
  3. VAE解码器
    UNet处理的不是真实像素图,是压缩后的小尺寸“潜空间数据”;VAE负责把压缩数据还原成肉眼可见的RGB图片。

2、完整推理分步 大白话流程(以文生图为例)

步骤1:处理文字提示词(CLIP Transformer)

你输入正向prompt、反向prompt(负面提示,比如模糊、畸形、低画质)

  • CLIP用自注意力理解词语之间的关系,把文字转成 固定长度 的数字向量;
  • 反向prompt向量会约束模型:不要生成向量对应的糟糕画面。

步骤2:生成一张纯随机噪声图(潜空间)

程序先造一张全是杂乱白点黑点的“纯噪声底片”(潜空间格式,尺寸很小,比如512图对应64×64潜图),这是绘图起点。
类比:相当于一张完全糊掉、什么都看不见的照片。

步骤3:循环迭代去噪(核心流程,步数就是采样步数,比如20/28步)

循环N次(采样步数),每一轮做三件事:

  1. 把当前带噪声的潜图 + CLIP文字向量一起喂进UNet;
  2. UNet计算:识别出这张图里哪些是无意义噪声,输出噪声预测;
  3. 采样器(Euler/DPM++等)根据预测的噪声,从原图里减去一部分噪声,画面变清晰一点点;

循环逻辑通俗比喻:
第1轮:全是噪点,只能隐约看出一点轮廓;
第10轮:物体轮廓、颜色出现;
第28轮:几乎所有噪声擦干净,物体细节、光影完整。

和Transformer自注意力的核心区别:
Transformer一次只生成1个字,依赖上文;UNet每一步 修改整张图,靠文本向量全局约束画面。

步骤4:去噪循环结束,得到干净潜空间数据

几十轮循环跑完,噪声基本全部剔除,现在得到一张压缩版的清晰图像数据,还不能直接看。

步骤5:VAE解码,输出最终图片

把压缩潜图送入VAE解码器,还原成正常RGB像素图片,保存/展示。

重点说明:

  1. 为什么需要采样步数?
    噪声不能一次性全部擦掉,一步擦干净会画面崩坏;分多轮缓慢去除,画面稳定、细节丰富。步数越高画面越好,但速度越慢。

  2. UNet里也有注意力层(Cross-Attention交叉注意力)
    这是SD连接文字和图片的关键,和自注意力有区别:

    • 自注意力:只看图片自身像素、文字自身单词;
    • 交叉注意力:图片像素作为Query,文字CLIP向量作为Key/Value,让图片每一处像素都对齐文字描述。
      简单说:交叉注意力保证“图像中 猫 的位置 对应 文字 里的猫,草 地对应 文字 里的草地”。

3、举个生活化完整例子

需求:生成“阳光下的橘猫,草坪,高清写实”

  1. CLIP Transformer解析文字,输出「橘猫、阳光、草坪」语义向量;
  2. 生成一张纯雪花噪点底片;
  3. 循环28次:每次UNet根据文字向量,擦掉不匹配“橘猫草坪阳光”的噪声,轮廓慢慢浮现;
    • 前5步:只有色块,分不清是什么;
    • 中间10步:出现猫的轮廓、绿色地面、黄色光斑;
    • 最后几步:细化毛发、光影、草叶细节;
  4. 循环结束,VAE把压缩底片转成真实照片,输出图片。

相关新闻

  • Harness Engineering:从CI脚本到可编程交付流水线
  • 2026年新消息:软著类服务机构推荐深度解析 - 品牌鉴赏官2026
  • React 状态管理:从“全局仓库“到“就近原则“的架构演进

最新新闻

  • GPT-4o与Codex技术演进解析:从代码生成到原生多模态理解
  • 3分钟上手!drawio-desktop:你的免费本地专业绘图神器
  • 2026年口碑好的压力试验机/山西太原试验机口碑好的厂家推荐 - 行业平台推荐
  • Harness Engineering:AI Agent可交付的四大工程支柱
  • 为什么ABCJS是音乐爱好者的最佳选择:从乐谱新手到网页音乐专家的奇妙旅程
  • 王蕊瑜伽课合集全套视频下载

日新闻

  • Arduino-ESP32项目深度解析:解锁隐藏芯片支持与架构演进
  • 2026年 系统窗厂家/品牌推荐榜单:隔音系统窗+高端系统门窗的核心优势与选购指南 - 品牌发掘
  • NVBench:首个双语非言语发声语音合成评测基准详解与实践

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号