尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

实验 5:ViT Swin Transformer

实验 5:ViT  Swin Transformer
📅 发布时间:2026/6/20 12:19:33

软件工程原理与实践(实验五)

姓名: 学号:
姓名和学号
课程 中国海洋大学 25 秋《软件工程原理与实践》
实验名称 实验 5:ViT & Swin Transformer
博客链接

一、实验内容

1.1 Vision Transformer

  1. ViT 网络详解
  2. 使用 pytorch 搭建 ViT 模型

1.2 Swin Transformer

  1. Swin-Transformer 网络结构详解
  2. 使用 Pytorch 搭建 Swin-Transformer 网络

1.3 视觉 Transformer 综述

华为韩凯:视觉 Transformer 综述

二、问题总结与体会

问题总结

在 ViT 中要降低 Attention 的计算量,有哪些方法?(提示:Swin 的 Window attention,PVT 的 attention)

  1. Swin 的 Window attention:将特征图划分为不重叠的局部窗口,将全局计算分解为在每个窗口内部计算注意力,复杂度由平方关系降低到线性关系
  2. PVT 的 attention:对 Key 和 Value 进行下采样,减少参与计算的 token 数量,降低注意力矩阵的计算规模

Swin 体现了一种什么思路?对后来工作有哪些启发?(提示:先局部再整体)

思路:分层与层次化,先局部再整体。首先构建一个层次化的结构,在浅层将图像分为较小的窗口,在小窗口内计算注意力捕获局部特征。在深层次间接实现跨窗口信息交互和全局建模。

启发:分层架构的设计是十分有效的,通过模块化将问题进行分层,形成层次化结构,从局部特征开始计算并向全局特征演变。

有些网络将 CNN 和 Transformer 结合,为什么一般把 CNN block 放在面前,Transformer block 放在后面?

  1. CNN 擅长提取低层局部特征:CNN 的卷积核具有平移不变性,能更好的提取局部特征。
  2. Transformer 擅长进行高层全局建模:Self-Attention 机制能够计算序列中任意两个位置的关系,从而构建出远程依赖和全局上下文信息。在 CNN 提取的局部特征基础上,Transformer 可以进一步整合,形成对图像整体的理解。

阅读并了解 Restormer,思考:Transformer 的基本结构为 attention + FFN,这个工作分别做了哪些改进?

  1. 提出了 MDTA 模块,MDTA 是计算通道上的自注意力而不是空间上,通过计算通道上的注意力可以隐式编码全局上下文信息。在计算查询、键、值之前,使用深度卷积操作进行上下文混合,这样可以兼顾全局信息和局部信息。
  2. 提出 GDFN 模块,GDFN 采用门控机制和卷积增强,各层的 GDFN 通过控制信息流来允许每个层次关注与其他层次互补的席位细节。
  3. 采用渐进式学习的方式,在早期阶段,网络在较小的图像块上进行训练,在后期的训练阶段,网络在逐渐增大的图像块上进行训练。

体会

认识到 Transformer 通过自注意力实现全局建模的优势,理解了 Swin 通过局部窗口降低计算复杂度的设计思想。明白了 CNN 提取局部特征与 Transformer 捕获全局依赖的互补性,为后续学习混合架构奠定了基础。视频看的“云里雾里”,无法与之前学的知识结合起来,乱套了,完全不成系统!

相关新闻

  • chatTTS源码版本地部署踩的坑
  • 第一讲机器学习基础
  • 第二十八天

最新新闻

  • TWR-56F8400开发板接口布局解析与DSC硬件设计实战
  • 2026年6月劳力士发布全国统一服务热线与官方线下网点全盘点 - 速递信息
  • 闲置黄金别乱卖!2026沈阳高价黄金回收认准合扬直营门店 - 奢侈品交易观察员
  • 2026年6月最新浪琴中国官方售后客户服务热线网点地址电话 - 浪琴服务中心
  • DeepSeek V4发布:100万字长上下文与DSA稀疏注意力解析
  • 盲XSS自动化检测与利用:XSS Catcher框架设计与实战

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号