当前位置: 首页 > news >正文

oucaiclub_cheapter1

Part1 代码练习

螺旋分类实验过程

初始准备


生成样本


线性模型分类


神经网络分类


反思总结

问题与解决

首次尝试中,在进行神经网络分类时,损失和准确率的结果与线性模型基本一样,没有明显改善。

检查错误后,发现在设置优化器时,仍然使用的是SGD分类模型。

总结

模型优化过程对模型影响结果重大

Part2 问题总结

AlexNet有哪些特点?为什么可以比LeNet取得更好的性能?

  1. Alex使用了参数更大,计算复杂的更高的模型
  2. 使用了MaxPooling替换AverPooling,保留了更大的梯度,收敛更快
  3. 激活函数使用ReLU替换了sigmoid
  4. 加入了丢弃层实现正则

激活函数有哪些作用?

  1. 最核心作用:引入非线性
  2. 控制输出范围。sigmoid[0,1],ReLU[0,]
  3. 决定神经元。ReLU函数可以过滤负数输入。

梯度消失现象是什么?

在反向传播过程中,梯度趋近于0,导致参数无法被更新

神经网络是更宽好还是更深好?

该问题目前没有明确答案

深度和宽度的概念从MLP而来,宽度是每层的feature数,深度是提取阶段数

更宽的网络有更多的子网络,对比小网络更有产生梯度相干的可能;更深的网络,梯度相干现象被放大。

深度代表了函数的表示能力,宽度关联了优化的难易程度。

在参数固定的情况下,如果任务更关注局部特征、浅层特征,可以提高宽度;如果更关注全局特征,可以提高深度。

为什么要使用Softmax?

softmax用来进行归一化处理,将模型的线性输出转换为对应概率输出[0,1]。

为什么选择引入e,而非直接线性处理?

指数增长的特性:横轴变化很小的两,纵轴会有较大变化。引入e,可以增大两个相邻输出的概率差,可以更明确的分类。

SGD和Adam哪个更有效?

该问题没有明确答案

Adam简化了调参,且在小样本时,收敛速度快。但在样本较大时,后期学习率太低,且容易对前期出现的特征过拟合。
有人提出在优化过程中,前期用Adam,享受快速收敛的优势,然后切换到SGD,缓慢寻找最优解。

Part3 学习笔记



http://www.rkmt.cn/news/11959.html

相关文章:

  • 苍穹外卖-day07(缓存菜品,缓存套餐,添加购物车,查看购物车,清空购物车) - a
  • 基于洞察的智能编程法——从直觉到代码的原型炼成术
  • lc1036-逃离大迷宫
  • 9.25学习笔记
  • 如何使用极限网关实现 Elasticsearch 集群迁移至 Easysearch
  • 文档抽取技术:实现金融保险业务流程自动化
  • 20250925
  • 题解:P2662 牛场围栏
  • c语言初步学习
  • Cloudflare安全验证过程全解析
  • 【网络编程】UDP 编程实战:从套接字到聊天室多场景计划构建
  • week1 homework
  • Java EE ----- Spring MVC (上) - 实践
  • window.addEventListener(message,()={})中的回调函数无故被一直触发的问题 - broky
  • python+pillow+Image实现图片压缩到指定大小
  • 3D 高斯训练速度和消耗 - MKT
  • 完整教程:【PyTorch实战:文本分类】23、BERT文本分类实战指南:从原理到PyTorch落地
  • proxifier联合burpsuite抓包小程序,但是小程序连不上网解决办法(亲测)
  • 完整教程:C语言——函数(超详细分析)
  • 用 Swift 和 Tesseract OCR 实现验证码识别
  • 校园交友|基于SprinBoot+vue的校园交友网站(源码+数据库+文档) - 实践
  • 告别单张保存!PPT 图片无损批量提取,这 3 种方法亲测有效!
  • ?模拟赛(2) 赛后总结
  • 【C语言】C语言预处理详解,从基础到进阶的全面讲解 - 指南
  • 掌握C2重定向器:红蓝队攻防实战指南
  • Avalonia:开发Android应用
  • 多GPU本地布署Wan2.2-T2V-A14B文本转视频模型 - yi
  • 软工9.25
  • P8367 [LNOI2022] 盒
  • Polar2025秋季个人挑战赛web-writeup