当前位置：首页 > news >正文

别再死记硬背了！用PyTorch动手画一遍，彻底搞懂CNN和MLP到底啥关系

news 2026/6/13 18:51:58

用PyTorch拆解神经网络：可视化理解CNN与MLP的本质关联

在深度学习的世界里，卷积神经网络(CNN)和多层感知机(MLP)常被当作两种截然不同的架构来讨论。但当你真正动手用代码构建它们时，会发现一个令人惊讶的事实：MLP其实是CNN在特定参数配置下的特殊形态。本文将带你用PyTorch从零构建这两种网络，通过张量形状变化和计算图可视化，像拆解乐高积木一样揭示它们的本质联系。

1. 准备实验环境与基础概念

在开始之前，我们需要确保环境配置正确。推荐使用Google Colab或本地Jupyter Notebook环境，它们能完美支持我们即将进行的交互式实验。以下是必要的安装和导入：

import torch import torch.nn as nn import numpy as np import matplotlib.pyplot as plt from torchviz import make_dot

张量形状是我们理解两者关系的关键线索。在PyTorch中，每个张量都有明确的形状属性，通过.shape可以查看。例如，一个3×3的RGB图像在PyTorch中表示为(3, 3, 3)（通道优先格式）或(3, 3, 3)（批次优先格式）。

为什么从张量形状入手？因为神经网络本质上是一系列张量运算的堆叠，形状变化直接反映了信息流动的方式。CNN和MLP的区别，很大程度上体现在它们如何处理输入张量的空间维度。

2. 构建极简MLP模型

让我们先构建一个最简单的MLP来处理3×3的图像。假设我们使用全连接层将9个输入特征(3×3展开)映射到3个输出特征：

class SimpleMLP(nn.Module): def __init__(self): super().__init__() self.fc = nn.Linear(9, 3) # 9输入, 3输出 def forward(self, x): batch_size = x.shape[0] x = x.view(batch_size, -1) # 展平图像 return self.fc(x)

测试这个MLP：

mlp = SimpleMLP() dummy_input = torch.randn(1, 3, 3) # 批次大小为1的3×3图像 print("输入形状:", dummy_input.shape) output = mlp(dummy_input) print("输出形状:", output.shape)

你会看到形状变化：(1, 3, 3)→(1, 3)。这就是典型的MLP行为——它完全忽略了输入的空间结构，将所有像素平等对待。

3. 构建特殊配置的CNN

现在，我们构建一个CNN，但给它一个特殊的配置——使用与输入图像相同大小的卷积核(3×3)：

class SpecialCNN(nn.Module): def __init__(self): super().__init__() self.conv = nn.Conv2d(1, 3, kernel_size=3, stride=1, padding=0) def forward(self, x): return self.conv(x)

测试这个CNN：

cnn = SpecialCNN() dummy_input = torch.randn(1, 1, 3, 3) # 批次1, 通道1, 高3, 宽3 print("CNN输入形状:", dummy_input.shape) output = cnn(dummy_input) print("CNN输出形状:", output.shape)

有趣的事情发生了——输出形状也是(1, 3, 1, 1)！如果我们去掉不必要的维度，这与MLP的输出(1, 3)本质上是相同的。

4. 可视化计算图与权重对比

为了更直观地理解，我们可以使用torchviz可视化计算图：

# 可视化MLP mlp_output = mlp(dummy_input.squeeze(1)) make_dot(mlp_output, params=dict(mlp.named_parameters())) # 可视化CNN cnn_output = cnn(dummy_input) make_dot(cnn_output, params=dict(cnn.named_parameters()))

观察两个计算图，你会发现它们的计算模式惊人地相似。实际上，当CNN的卷积核大小等于输入大小时：

每个输出特征都是所有输入像素的加权和
卷积核的权重矩阵本质上等同于MLP的全连接权重矩阵
偏置项的作用也完全相同

我们可以进一步打印两者的权重来验证：

print("MLP权重形状:", mlp.fc.weight.shape) print("CNN权重形状:", cnn.conv.weight.shape)

虽然形状看起来不同(MLP是(3,9)，CNN是(3,1,3,3))，但如果我们适当重塑这些张量，会发现它们实际上是相同运算的不同表示形式。

5. 1×1卷积的MLP本质

另一个有趣的视角是1×1卷积。让我们构建一个使用1×1卷积核的CNN：

class Conv1x1(nn.Module): def __init__(self): super().__init__() self.conv = nn.Conv2d(3, 6, kernel_size=1) # 3输入通道,6输出通道 def forward(self, x): return self.conv(x)

测试这个网络：

conv1x1 = Conv1x1() dummy_input = torch.randn(1, 3, 32, 32) # 任意空间尺寸 output = conv1x1(dummy_input) print("输入形状:", dummy_input.shape) print("输出形状:", output.shape)

你会发现空间尺寸保持不变(32×32)，只有通道数变化。这正是1×1卷积的特性——它在每个空间位置独立地执行一个全连接运算，相当于在通道维度上的MLP。

6. 为什么CNN更适合图像数据

既然MLP是CNN的特例，为什么我们不直接用MLP处理所有问题？关键在于参数效率和平移不变性：

特性	MLP	CNN
参数数量	随输入尺寸平方增长	与卷积核大小相关，独立于输入
空间信息处理	完全破坏	局部保留
平移不变性	无	内置
适合的数据类型	向量数据(如表格数据)	网格结构数据(如图像)

当处理高分辨率图像时，MLP的参数数量会变得极其庞大。例如，对于1000×1000的RGB图像：

MLP需要约30亿参数(3M输入×1K输出)
典型的CNN可能只需几百万参数

此外，CNN的局部连接和参数共享特性使其能够自动学习对平移、旋转等变换具有鲁棒性的特征，这是MLP难以实现的。

7. 实践中的灵活转换

理解这种关系在实际中有何用处？它让我们能在两种架构间灵活转换：

将MLP转换为CNN：当你的MLP输入是图像时，考虑用CNN替代

# 不好的实践 mlp = nn.Sequential( nn.Linear(3072, 1024), # 32x32x3=3072 nn.ReLU(), nn.Linear(1024, 10) ) # 更好的实践 cnn = nn.Sequential( nn.Conv2d(3, 32, 3), nn.ReLU(), nn.MaxPool2d(2), nn.Conv2d(32, 64, 3), nn.ReLU(), nn.MaxPool2d(2), nn.Flatten(), nn.Linear(64*6*6, 10) )

在CNN中使用MLP概念：1×1卷积就是典型例子

# 使用1x1卷积实现通道间的全连接 bottleneck = nn.Sequential( nn.Conv2d(256, 64, 1), # 降维 nn.ReLU(), nn.Conv2d(64, 256, 1) # 升维 )

在ResNet、Inception等现代架构中，这种混合使用非常普遍。理解它们的本质联系，能帮助你更灵活地设计和调整网络结构。

查看全文

http://www.rkmt.cn/news/1485104.html

XUnity.AutoTranslator字体管理实战指南：如何解决Unity游戏多语言显示难题

别再只用System.out.printf了！Java保留小数点的3种方法实战对比（含DecimalFormat避坑）

Qt 高级开发 028：以代码为笔，以界面为卷

别再只会升级GCC了！遇到‘unrecognized command line option‘的三种排查思路与降级方案

NTC温度采集全套开发资源：单片机驱动+查表工具+上位机显示+硬件设计文件

从需求到代码：手把手教你用PlantUML插件，在IDEA里自动生成时序图和类图

PSCAD仿真效率提升技巧：从元件布局、参数复用到底层波形导出全流程优化

告别裸机：在STM32CubeIDE中为STM32H7集成SOEM 1.4.0的完整配置流程

HC-05蓝牙模块玩转无线PID调参：一个SerialPlot，让你的STM32小车/机械臂调试效率翻倍

2026年6月7日当周国内AI编程新发展：从工具革新到生态重构

Chrome浏览器里点几下就能自动干活的插件，录个操作就能批量填表、抓数据、跳页面

家庭网络拓扑图是怎么画出来的？聊聊IEEE 1905.1协议里的邻居发现与查询机制

别再到处找了！9个遥感目标检测数据集（UCAS-AOD/DOTA/FAIR1M等）的下载、标注格式与实战加载指南

MATLAB环境下的Kriging代理模型构建工具包，集成LHS采样、多项式趋势项拟合与残差诊断功能

MATLAB处理GeoTIFF踩坑实录：从读取、显示到批量导出，一篇搞定所有地理信息问题

MyBatis-Plus BaseMapper 完全指南

手把手教你用‘晶体管好帮手’模块测试BC547：管脚、hFE、耐压值全搞定

从财务误差到游戏物理：IEEE754舍入模式选错，你的程序到底会出什么bug？

从零到生产：在CentOS7上为Oracle 12c配置一个安全、合规的数据库环境（附内核参数详解与用户权限管理）

从‘软件危机’到DevOps：一张图看懂软件工程发展史与核心思想演变

XUnity.AutoTranslator：Unity游戏多语言本地化的终极解决方案

避开SAP BAPI_MATERIAL_SAVEDATA的三大深坑：从BAPI_MATERIAL_GET_ALL取数到COST_VIEW设置

模板驱动的零代码文档自动化：业务人员自助生成PDF/Word

GTX 1660 SUPER炼丹环境搭建实录：从驱动检查到Cuda 11.5.1 + cuDNN 8.3.0完整避坑指南

2026 年莆田全屋高端定制行业口碑好的套房装修企业 TOP 排名

Rust Unsafe 编程规范：Pin、Unpin 与自引用结构的内存安全

SQLite数据操作实战：从‘增删改查’到高效数据查看的5个隐藏技巧

Hadoop学习教程，从入门到精通，初识Hadoop — 知识点详解(1）

宝兰德BES中间件分离部署实战：用两个账号搞定生产环境安全隔离（附详细命令）

CAN错误处理机制：错误计数、错误状态和总线关闭