尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

语音中的Encoder-Decoder学习——跳跃连接UNET

语音中的Encoder-Decoder学习——跳跃连接UNET
📅 发布时间:2026/6/22 7:44:43

由医学图像处理发源的UNET,相关的介绍已经很多,无需多言。我想从一个知之甚少的外行的角度来看这个图。

IMG_256
图1 UNET

图中,从最左侧,一个灰度图像作为输入。也就是单通道的图,其像素是572×572。

然后经过与3×3的卷积核进行卷积,得到570×570,64通道的特征,然后再经过3×3的卷积核,得到568×568,64通道的特征。

看到这里,首先有个基础知识:

  当我们用一个大小为 b × b 的卷积核对一个大小为 N × N 的图像进行卷积(并且不使用填充padding,步长stride=1的情况),输出特征图的尺寸可以由以下公式得出:

  输出大小=(N−b+1)×(N−b+1)

所以,为甚能得到568×568,这就不言而喻了。

  在卷积层上方有小小的数字64,这说明卷积核一共64个通道,这样可以产生64通道的特征,再通过下面64通道的3×3的卷积核。但是这为什么要这样做?

GPT给了我一个形象的比喻,放64个不同的滤镜,每个滤镜都能生成一张特征图。所以通道数是为了加不同的滤镜,得到丰富的输出。我作为一个对原理知之甚少的人,我就会产生疑问。为什么64个特征提取器不会学成一样?

  答案是:前向传播的信息可能一样,而反向传播就会不一样。

  GPT又给了我好的回复,哦不是DS。

  1. 场景:初始权重完全相同 + 对称的损失函数

如果损失函数对n个通道输出是完全对称的(比如,只关心12个输出的总和,不关心个体),并且初始权重完全相同:那么理论上,梯度会完全一样、权重会保持相同、输出也会保持相同

但这毫无用处,因为12个通道都在做一模一样的事情,相当于只有一个通道的12次复制

     2. 场景:初始权重完全相同 + 无激活函数 + 无偏置

这是最理想化的情况。假设故意将12个输出神经元的权重初始化成完全相同的矩阵。

前向传播:n个输出通道完全一样

反向传播:损失函数可能对不同输出有不同的依赖关系。

如果损失函数是 MSE,且目标值对不同输出通道有不同要求,那么梯度就会不同!

权重更新:由于 ∂L/∂y_k 不同,∂L/∂W_k 也不同 → 权重更新不同 → 第一次更新后权重就分化了。

也就是说loss如果只考虑总体误差,那通道的设定会没有意义。但如果loss考虑不同通道的误差并给出不同的法则,那n个通道就会更新出不同的卷积核参数,从而体现64个不同的滤镜,每个滤镜都能生成一张特征图。

 

IMG_256
图1 UNET
 

好的,下面我们再回到这个unet。

  经过最大池化,586×568变成284×284,进一步经过两次卷积(当然每次是通过128个通道。这样做一方面为了让信息不会损失,一方面要进一步细化滤镜)。

而64—>128—>256—>512—>1024是图像处理中常用的参数。

  把两层卷积视为一块,则encoder部分分为5个模块,每经过一个模块,特征图都会变得尺寸更小,但通道数更大。

这样,就来到了decoder的部分。

看到这,我虽然懂了,但是挺疑惑的。

忽略encoder与decoder中间的跳跃连接,这样先层层提取局部特征,再层层恢复的过程,不是多此一举吗?亦或者,已知训练过程是在找寻让loss最优的卷积核参数,那网络的输出应当是什么?是重构的图片吗?这是属于生成式方法吗?

  • 下面请GPT一条一条解决我的疑惑。

%%% 娘勒,不知道我的帖子会不会有读者,小白真的是太不容易了,谁懂,看了unet,gpt告诉我它与RESnet本质不同,而我不懂RESnet这种痛!没关系,抽丝剥茧,总能弄得明白!

  1. 首先,明确无论啥net,它是用来干嘛的?

答: U-Net 是用来“看懂一张图里,每一个地方是什么”的。不只告诉你“这是一只猫”,而是告诉你“猫的头在这里”“耳朵在这里”“背景在这里”每一个像素,它都要给个说法。

普通识图(比如分类)对图像来说,这种方法是“粗看一眼”。但很多图像问题不允许“粗看”,比如医生要知道 病灶具体在哪,工业检测要知道 裂纹在哪个像素。这就需要既要看懂整张图,又要把每个位置标清楚。

这个问题恰好涉及初学者易犯的错误:

机器是如何“看图”的。

举个例子:

① 所有布偶猫照片都在室内
② 所有短毛猫都在室外

机器如何区分猫咪?不是看毛的长短,这种在人类脑袋里有意义的话。而是通过光线不同使时频图中的能量有所区分,分辨的是室内室外。

人眼分辨事物,例如区分立耳猫和折耳猫,只用一眼就能分辨,也就是部件 → 特征 → 类别。这是一个有意义的、可解释的流程,

而机器是无法理解的,机器最终学习的目标是标签。

  • 那什么是标签?

标签是人类语义在机器中的数值化表示,是训练时用来“告诉模型什么是对的”的参考答案。

  1. 分类任务的标签: 0、1;0、1、2;[1,0,0][0,1,0][0,0,1]
  2. 分割任务的标签:ground truth,也就是图中每个像素点都赋予一个数值,最简单的就是噪声与纯净信号的区分,最终会组成一个超大的矩阵。

好,那么说到这里,其实对这个UNET已经大致理解了百分之80,但还有20,就存在于图像当中的灰色长箭头——跳跃连接。

图像中灰色长箭头把每一块卷积操作都与decoder的每个相对应的块连接了起来,这箭头指的是什么?

    其实就是把encoder的层信息与对应decoder的拼接,这样能够较好补充上采样信息。

好啦。上面就是我的学习整体思路的记录,对应代码跳转帖子:略略略还没写

相关新闻

  • 2025年12月网架,球形网架,大跨度网架公司推荐:行业测评与选型指南 - 品牌鉴赏师
  • 2025年度FAG进口轴承五大靠谱供应商推荐 - mypinpai
  • 2025年国内十大酒店家具头部品牌推荐:五星级酒店家具推荐厂家有哪些? - 工业品牌热点

最新新闻

  • 零基础SRC漏洞挖掘实战指南:从思维转变到漏洞验证
  • AI如何重塑团队沟通:从私人语言壁垒到共识构建引擎
  • 想找邯郸大厅旋转门厂家?这些挑选要点你知道吗? - 热点速览
  • 郑州奢侈品包包回收|爱马仕香奈儿LV迪奥古驰,全城上门当场结算无手续费 - 沉迷学习28
  • 2026年东莞激光焊接厂家推荐榜单:镀锌板机箱/不锈钢焊接/电池汇流排/新能源配件焊接实力口碑之选 - 品牌发掘
  • 如何快速上手OBS Spout2插件:3步实现4K视频流无损传输

日新闻

  • 2026速览惠州叛逆青少年学校前十大排名名单出炉 - 武汉中职最新信息发布
  • 2026上饶白蚁消杀哪家好?15年本土2大权威白蚁防治公司推荐(金盾虫控/青蚁卫士) - 我叫一
  • 天龙八部单机版终极数据管理工具:5个技巧快速掌握游戏数据编辑

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号