深度学习50问

📅 发布时间：2026/6/24 15:38:23

深度学习50问

一、深度学习基础（数学与本质）

为什么深度神经网络具有“通用逼近能力”？它的局限性是什么？
深度模型为什么能泛化？泛化从何而来？为什么过参数化反而更容易泛化？
解释一下梯度消失与梯度爆炸的数学本质，为什么 ReLU 能缓解？
Batch Gradient Descent、Mini-batch、SGD 的本质区别是什么？为什么深度学习几乎都用 mini-batch？
为什么深度学习需要非线性激活函数？如果把所有激活函数去掉会发生什么？

二、优化与训练技巧

Adam 为什么比 SGD 更快？它真正解决了什么问题？为什么有时候还要用 SGD？
为什么学习率是训练中最重要的超参数？learning rate warmup 的根本原因是什么？
权重初始化为什么重要？Xavier 和 Kaiming 的原理是什么？
梯度裁剪（gradient clipping）是用来解决什么问题的？为什么有效？
为什么深度学习训练常常需要 early stopping，而不是训练到 loss 完全收敛？

三、正则化与泛化能力

Dropout 为什么能防止过拟合？它与 bagging 的关系是什么？
为什么 BatchNorm 能加速训练、稳定梯度？它是如何改变 loss landscape 的？
LayerNorm、BatchNorm、GroupNorm 的主要差别与适用场景分别是什么？
L2 正则（权重衰减）为什么能提升泛化？为什么会与 Adam 的更新规则冲突？
数据增强为什么能极大提高效果？它的本质是干什么？

四、卷积神经网络（CNN）

你能解释 CNN 的“平移不变性”和“局部相关性”的根本来源吗？
为什么卷积比全连接更适合图像？从参数规模与归纳偏置角度解释。
残差结构（ResNet）为什么能解决深度退化问题？本质是解决了什么？
为什么深层 CNN 的 receptive field 增大能够提升抽象能力？
为什么 CNN 在 NLP 中逐渐被自注意力机制取代？

五、序列模型（RNN → LSTM → Transformer）

RNN 为什么难以捕捉长期依赖？数学上体现在哪？
LSTM 的三个门分别解决了 RNN 的哪些根本问题？
Transformer 为什么能够完全替代 RNN？
自注意力机制为什么能并行化？为什么能捕捉长距离依赖？
Multi-head Attention 的核心作用是什么？为什么不是一个 head 就够？

六、Transformer 深层机制

Post-Norm 为什么会训练不稳？Pre-Norm 为什么能解决？
为什么 Transformer 的深度越高越稳定？ResNet 思想起了什么作用？
为什么 Transformer 需要 positional encoding？如果不加会怎样？
为什么 Decoder 需要“mask”？不 mask 会出现什么问题？
为什么 Transformer 这么容易 scale（GPT-4、GPT-5）？它的结构有什么优势？

七、表示学习（Word2Vec、Embedding、本质）

Word2Vec 的 Skip-Gram 本质在做什么？为什么是一个二分类问题？
embedding 矩阵的本质是什么？为什么 embedding 会自动学到语义？
为什么 Word2Vec 能学出“king – man + woman = queen”？
为什么 Transformer 中 embedding 与输出层常常权重共享？

八、生成模型（GAN、VAE、Diffusion）

GAN 不稳定的根源是什么？为什么会 mode collapse？
VAE 为什么生成结果模糊？与 GAN 的差异来自哪里？
Diffusion Model 为什么能超越 GAN？它的可控性从何而来？
KL divergence 在 VAE 中扮演什么角色？
GAN 的判别器过强会导致什么问题？为什么？

九、模型评估与理解

为什么不能仅看 training loss 就判断模型是否学得好？
为什么深度模型常常 test loss > train loss？但 test 精度却更高？
为什么图像分类准确率并不能反映真正的“模型理解能力”？
为什么模型会对对抗样本如此脆弱？
为什么神经网络缺乏可解释性？有哪些可解释方法？

十、深入思考（高难度核心问题）

为什么 over-parameterization（参数远多于样本）反而有助于优化？
神经网络为什么能在 loss landscape 中找到好的 minimum？
为什么 sharp minimum 不一定差，flat minimum 不一定好？
Self-supervised learning 为什么能取得这么好的效果？
如果你要设计下一代 Transformer，你觉得核心瓶颈在哪里？