当前位置: 首页 > news >正文

实验 5:ViT Swin Transformer

软件工程原理与实践(实验五)

姓名: 学号:
姓名和学号
课程 中国海洋大学 25 秋《软件工程原理与实践》
实验名称 实验 5:ViT & Swin Transformer
博客链接

一、实验内容

1.1 Vision Transformer

  1. ViT 网络详解
  2. 使用 pytorch 搭建 ViT 模型

1.2 Swin Transformer

  1. Swin-Transformer 网络结构详解
  2. 使用 Pytorch 搭建 Swin-Transformer 网络

1.3 视觉 Transformer 综述

华为韩凯:视觉 Transformer 综述

二、问题总结与体会

问题总结

在 ViT 中要降低 Attention 的计算量,有哪些方法?(提示:Swin 的 Window attention,PVT 的 attention)

  1. Swin 的 Window attention:将特征图划分为不重叠的局部窗口,将全局计算分解为在每个窗口内部计算注意力,复杂度由平方关系降低到线性关系
  2. PVT 的 attention:对 Key 和 Value 进行下采样,减少参与计算的 token 数量,降低注意力矩阵的计算规模

Swin 体现了一种什么思路?对后来工作有哪些启发?(提示:先局部再整体)

思路:分层与层次化,先局部再整体。首先构建一个层次化的结构,在浅层将图像分为较小的窗口,在小窗口内计算注意力捕获局部特征。在深层次间接实现跨窗口信息交互和全局建模。

启发:分层架构的设计是十分有效的,通过模块化将问题进行分层,形成层次化结构,从局部特征开始计算并向全局特征演变。

有些网络将 CNN 和 Transformer 结合,为什么一般把 CNN block 放在面前,Transformer block 放在后面?

  1. CNN 擅长提取低层局部特征:CNN 的卷积核具有平移不变性,能更好的提取局部特征。
  2. Transformer 擅长进行高层全局建模:Self-Attention 机制能够计算序列中任意两个位置的关系,从而构建出远程依赖和全局上下文信息。在 CNN 提取的局部特征基础上,Transformer 可以进一步整合,形成对图像整体的理解。

阅读并了解 Restormer,思考:Transformer 的基本结构为 attention + FFN,这个工作分别做了哪些改进?

  1. 提出了 MDTA 模块,MDTA 是计算通道上的自注意力而不是空间上,通过计算通道上的注意力可以隐式编码全局上下文信息。在计算查询、键、值之前,使用深度卷积操作进行上下文混合,这样可以兼顾全局信息和局部信息。
  2. 提出 GDFN 模块,GDFN 采用门控机制和卷积增强,各层的 GDFN 通过控制信息流来允许每个层次关注与其他层次互补的席位细节。
  3. 采用渐进式学习的方式,在早期阶段,网络在较小的图像块上进行训练,在后期的训练阶段,网络在逐渐增大的图像块上进行训练。

体会

认识到 Transformer 通过自注意力实现全局建模的优势,理解了 Swin 通过局部窗口降低计算复杂度的设计思想。明白了 CNN 提取局部特征与 Transformer 捕获全局依赖的互补性,为后续学习混合架构奠定了基础。视频看的“云里雾里”,无法与之前学的知识结合起来,乱套了,完全不成系统!

http://www.rkmt.cn/news/46765.html

相关文章:

  • chatTTS源码版本地部署踩的坑
  • 第一讲机器学习基础
  • 第二十八天
  • 102302138 林楚涵 作业2
  • PWM妙用:解锁LED亮度调节与呼吸灯的LuatOS开发之旅
  • 主子式与顺序主子式
  • JAVA 随机函数
  • CF1327F AND Segments
  • Kimi会员双11砍价成功!0.99元首月链接分享
  • 鸿蒙NEXT系列之精析NDK UI API(节点增删和属性设置) - 实践
  • 通用cursor rules总结
  • 锡林郭勒西林瓶灌装清洗耗材月成本分析?查行情享优惠
  • AI Agent OS 探索有价值的论文分析(1):Sleep-time Compute
  • 宏定义的高级应用
  • 被问性能后,我封装了这个 PHP 错误上报工具
  • 公众号中的贴纸素材有什么作用?在哪里找?
  • 公众号怎么起爆款标题?有什么好用的工具?
  • 邢台西林瓶灌装机优选指南:聚焦资质、案例与售后
  • 2025年机械磨优质厂家权威推荐榜单:冲击磨/小型机械磨/超微机械磨源头厂家精选
  • jQuery custom content scroller滚动条控件代码 - 教程
  • 搭建第一个MCP服务
  • 2025日本留学中介推荐:留学申请与语言学习一站式解决
  • 深度学习模型CNN识别恶意软件
  • 代码实例:Python 爬虫抓取与解析 JSON 数据 - 实践
  • 2025年11月上海老房翻新公司排名榜:十家口碑对比与选择指南
  • 2025年11月油烟机品牌排行:从静音到变频五大机型实测评价
  • vue3+vite使用 tailwindcss.css搭建
  • 案例大公开!某企业软件许可优化省200万,降本方案同行疯传!
  • 习题解析之:角古猜想
  • Goland 2025.2.4 11月最新版 安装、授权、使用说明