当前位置：首页 > news >正文

oucaiclub_cheapter1

news 2026/6/13 13:39:11

Part1 代码练习

螺旋分类实验过程

初始准备

生成样本

线性模型分类

神经网络分类

反思总结

问题与解决

首次尝试中，在进行神经网络分类时，损失和准确率的结果与线性模型基本一样，没有明显改善。

检查错误后，发现在设置优化器时，仍然使用的是SGD分类模型。

总结

模型优化过程对模型影响结果重大

Part2 问题总结

AlexNet有哪些特点？为什么可以比LeNet取得更好的性能？

Alex使用了参数更大，计算复杂的更高的模型
使用了MaxPooling替换AverPooling，保留了更大的梯度，收敛更快
激活函数使用ReLU替换了sigmoid
加入了丢弃层实现正则

激活函数有哪些作用？

最核心作用：引入非线性
控制输出范围。sigmoid[0,1]，ReLU[0,]
决定神经元。ReLU函数可以过滤负数输入。

梯度消失现象是什么？

在反向传播过程中，梯度趋近于0，导致参数无法被更新

神经网络是更宽好还是更深好？

该问题目前没有明确答案

深度和宽度的概念从MLP而来，宽度是每层的feature数，深度是提取阶段数

更宽的网络有更多的子网络，对比小网络更有产生梯度相干的可能；更深的网络，梯度相干现象被放大。

深度代表了函数的表示能力，宽度关联了优化的难易程度。

在参数固定的情况下，如果任务更关注局部特征、浅层特征，可以提高宽度；如果更关注全局特征，可以提高深度。

为什么要使用Softmax?

softmax用来进行归一化处理，将模型的线性输出转换为对应概率输出[0,1]。

为什么选择引入e，而非直接线性处理？

指数增长的特性：横轴变化很小的两，纵轴会有较大变化。引入e，可以增大两个相邻输出的概率差，可以更明确的分类。

SGD和Adam哪个更有效？

该问题没有明确答案

Adam简化了调参，且在小样本时，收敛速度快。但在样本较大时，后期学习率太低，且容易对前期出现的特征过拟合。
有人提出在优化过程中，前期用Adam，享受快速收敛的优势，然后切换到SGD，缓慢寻找最优解。

Part3 学习笔记

查看全文

http://www.rkmt.cn/news/11959.html

苍穹外卖-day07（缓存菜品，缓存套餐，添加购物车，查看购物车，清空购物车） - a

基于洞察的智能编程法——从直觉到代码的原型炼成术

lc1036-逃离大迷宫

9.25学习笔记

如何使用极限网关实现 Elasticsearch 集群迁移至 Easysearch

【网络编程】UDP 编程实战：从套接字到聊天室多场景计划构建

week1 homework

Java EE ----- Spring MVC （上） - 实践

window.addEventListener(message,()={})中的回调函数无故被一直触发的问题 - broky

python+pillow+Image实现图片压缩到指定大小

3D 高斯训练速度和消耗 - MKT

完整教程：【PyTorch实战：文本分类】23、BERT文本分类实战指南：从原理到PyTorch落地

proxifier联合burpsuite抓包小程序，但是小程序连不上网解决办法（亲测）

完整教程：C语言——函数（超详细分析）

用 Swift 和 Tesseract OCR 实现验证码识别

校园交友|基于SprinBoot+vue的校园交友网站(源码+数据库+文档) - 实践

告别单张保存！PPT 图片无损批量提取，这 3 种方法亲测有效！

？模拟赛(2) 赛后总结

【C语言】C语言预处理详解，从基础到进阶的全面讲解 - 指南

掌握C2重定向器：红蓝队攻防实战指南

Avalonia:开发Android应用

多GPU本地布署Wan2.2-T2V-A14B文本转视频模型 - yi

软工9.25

P8367 [LNOI2022] 盒

Polar2025秋季个人挑战赛web-writeup