语音中的Encoder-Decoder学习——跳跃连接UNET-尧图网站建设

📅 发布时间：2026/6/22 7:44:43

由医学图像处理发源的UNET，相关的介绍已经很多，无需多言。我想从一个知之甚少的外行的角度来看这个图。

图1 UNET

图中，从最左侧，一个灰度图像作为输入。也就是单通道的图，其像素是572×572。

然后经过与3×3的卷积核进行卷积，得到570×570，64通道的特征，然后再经过3×3的卷积核，得到568×568，64通道的特征。

看到这里，首先有个基础知识：

当我们用一个大小为 b × b 的卷积核对一个大小为 N × N 的图像进行卷积（并且不使用填充padding，步长stride=1的情况），输出特征图的尺寸可以由以下公式得出：

输出大小=(N−b+1)×(N−b+1)

所以，为甚能得到568×568，这就不言而喻了。

在卷积层上方有小小的数字64，这说明卷积核一共64个通道，这样可以产生64通道的特征，再通过下面64通道的3×3的卷积核。但是这为什么要这样做？

GPT给了我一个形象的比喻，放64个不同的滤镜，每个滤镜都能生成一张特征图。所以通道数是为了加不同的滤镜，得到丰富的输出。我作为一个对原理知之甚少的人，我就会产生疑问。为什么64个特征提取器不会学成一样？

答案是：前向传播的信息可能一样，而反向传播就会不一样。

GPT又给了我好的回复，哦不是DS。

场景：初始权重完全相同 + 对称的损失函数

如果损失函数对n个通道输出是完全对称的（比如，只关心12个输出的总和，不关心个体），并且初始权重完全相同：那么理论上，梯度会完全一样、权重会保持相同、输出也会保持相同

但这毫无用处，因为12个通道都在做一模一样的事情，相当于只有一个通道的12次复制

2. 场景：初始权重完全相同 + 无激活函数 + 无偏置

这是最理想化的情况。假设故意将12个输出神经元的权重初始化成完全相同的矩阵。

前向传播：n个输出通道完全一样

反向传播：损失函数可能对不同输出有不同的依赖关系。

如果损失函数是 MSE，且目标值对不同输出通道有不同要求，那么梯度就会不同！

权重更新：由于 ∂L/∂y_k 不同，∂L/∂W_k 也不同 → 权重更新不同 → 第一次更新后权重就分化了。

也就是说loss如果只考虑总体误差，那通道的设定会没有意义。但如果loss考虑不同通道的误差并给出不同的法则，那n个通道就会更新出不同的卷积核参数，从而体现64个不同的滤镜，每个滤镜都能生成一张特征图。

图1 UNET

好的，下面我们再回到这个unet。

经过最大池化，586×568变成284×284，进一步经过两次卷积（当然每次是通过128个通道。这样做一方面为了让信息不会损失，一方面要进一步细化滤镜）。

而64—>128—>256—>512—>1024是图像处理中常用的参数。

把两层卷积视为一块，则encoder部分分为5个模块，每经过一个模块，特征图都会变得尺寸更小，但通道数更大。

这样，就来到了decoder的部分。

看到这，我虽然懂了，但是挺疑惑的。

忽略encoder与decoder中间的跳跃连接，这样先层层提取局部特征，再层层恢复的过程，不是多此一举吗？亦或者，已知训练过程是在找寻让loss最优的卷积核参数，那网络的输出应当是什么？是重构的图片吗？这是属于生成式方法吗？

下面请GPT一条一条解决我的疑惑。

%%% 娘勒，不知道我的帖子会不会有读者，小白真的是太不容易了，谁懂，看了unet，gpt告诉我它与RESnet本质不同，而我不懂RESnet这种痛！没关系，抽丝剥茧，总能弄得明白！

首先，明确无论啥net，它是用来干嘛的？

答： U-Net 是用来“看懂一张图里，每一个地方是什么”的。不只告诉你“这是一只猫”，而是告诉你“猫的头在这里”“耳朵在这里”“背景在这里”每一个像素，它都要给个说法。

普通识图（比如分类）对图像来说，这种方法是“粗看一眼”。但很多图像问题不允许“粗看”，比如医生要知道病灶具体在哪，工业检测要知道裂纹在哪个像素。这就需要既要看懂整张图，又要把每个位置标清楚。

这个问题恰好涉及初学者易犯的错误：

机器是如何“看图”的。

举个例子：

①　所有布偶猫照片都在室内

②　所有短毛猫都在室外

机器如何区分猫咪？不是看毛的长短，这种在人类脑袋里有意义的话。而是通过光线不同使时频图中的能量有所区分，分辨的是室内室外。

人眼分辨事物，例如区分立耳猫和折耳猫，只用一眼就能分辨，也就是部件 → 特征 → 类别。这是一个有意义的、可解释的流程，

而机器是无法理解的，机器最终学习的目标是标签。

那什么是标签？

标签是人类语义在机器中的数值化表示，是训练时用来“告诉模型什么是对的”的参考答案。

分类任务的标签: 0、1；0、1、2；[1,0,0][0,1,0][0,0,1]
分割任务的标签：ground truth，也就是图中每个像素点都赋予一个数值，最简单的就是噪声与纯净信号的区分，最终会组成一个超大的矩阵。

好，那么说到这里，其实对这个UNET已经大致理解了百分之80，但还有20，就存在于图像当中的灰色长箭头——跳跃连接。

图像中灰色长箭头把每一块卷积操作都与decoder的每个相对应的块连接了起来，这箭头指的是什么？

其实就是把encoder的层信息与对应decoder的拼接，这样能够较好补充上采样信息。

好啦。上面就是我的学习整体思路的记录，对应代码跳转帖子：略略略还没写