关于Swin Transformer的架构记录

1年前作者：一条小小yu分类：Toy博客阅读(6)违法举报

这篇具有很好参考价值的文章主要介绍了关于Swin Transformer的架构记录。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Swin Transformer 可以说是批着Transformer外表的卷积神经网络。

具体的架构如下图所示：

关于Swin Transformer的架构记录,transformer,深度学习,人工智能

首先我们得到一张224*224*3的图片。

通过分成4*4的patch，变成了56*56*48。

线性变换后又变成了56*56*96。

然后利用了Swin Transformer中一个比较特别的结构 Patch Merging 变成28*28*192。

同理，变成14*14*384。

同理，变成7*7*768。

这是总体的过程，Swin Transformer内部是由W-MSA 和SW-MSA组成的。

另外一个比较重要的是针对移位配置的高效批量计算。

关于Swin Transformer的架构记录,transformer,深度学习,人工智能

移动窗口分区的一个问题是，它将导致更多的窗口，一些窗口将小于M×M。

一个简单的解决方案是将较小的窗口填充到M×M的大小，并在计算注意力时屏蔽填充的值。这种朴素解增加的计算量是相当大的（2×2→ 3×3，是2.25倍）。

利用下图所示的方法：

关于Swin Transformer的架构记录,transformer,深度学习,人工智能

在该偏移之后，分批窗口可以由在特征图中不相邻的几个子窗口组成，因此采用掩蔽机制来将自注意计算限制在每个子窗口内。

掩码如下：

关于Swin Transformer的架构记录,transformer,深度学习,人工智能文章来源地址https://www.toymoban.com/news/detail-830204.html

到了这里，关于关于Swin Transformer的架构记录的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

论文学习笔记：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
论文阅读：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 今天学习的论文是 ICCV 2021 的 best paper，Swin Transformer，可以说是 transformer 在 CV 领域的一篇里程碑式的工作。文章的标题是一种基于移动窗口的层级 vision transformer。文章的作者都来自微软亚研院。 Abstract 文章的
2024年02月08日
浏览(10)
Swin-transformer论文阅读笔记（Swin Transformer: Hierarchical Vision Transformer using Shifted Windows）
论文标题：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文作者：Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo 论文来源：ICCV 2021，Paper 代码来源：Code 目录 1. 背景介绍 2. 研究现状 CNN及其变体基于自注意的骨干架构自注意/Transformer来补充CN
2024年02月07日
浏览(10)
transformer概述和swin-transformer详解
目录 1.transformer架构 1.1输入部分实现 1.2编码器部分实现 1.2.1掩码张量 1.2.2注意力机制 1.2.3多头注意力机制 1.2.4前馈全连接层 1.2.5规范化层 1.2.6子层连接层 1.2.7编码器层 1.2.8编码器 1.3解码器部分实现 1.3.1解码器层 1.3.2解码器 1.4输出部分实现 2.swin-transformer transformer的整体网络架
2024年02月03日
浏览(6)
Swin Transformer详解
原创：余晓龙 “Swin Transformer: Hierarchical Vision Transformer using Shifted Window”是微软亚洲研究院（MSRA）发表在arXiv上的论文，文中提出了一种新型的Transformer架构，也就是Swin Transformer。本文旨在对Swin Transformer架构进行详细解析。整体的网络架构采取层次化的设计，共包含4个stag
2024年02月06日
浏览(6)
VIT与swin transformer
VIT也就是vision transformer的缩写。是第一种将transformer运用到计算机视觉的网络架构。其将注意力机制也第一次运用到了图片识别上面。其结构图如下（采用的是paddle公开视频的截图）看起来比较复杂，但实际上总体流程还是比较简单的。只需要看最右边的总的结构图，它的输
2024年02月05日
浏览(10)
Swin-Transformer 详解
由于Transformer的大火，相对应的也出来了许多文章，但是这些文章的速度和精度相较于CNN还是差点意思，2021年微软研究院发表在ICCV上的一篇文章Swin Transformer是Transformer模型在视觉领域的又一次碰撞，Swin Transformer可能是CNN的完美替代方案。论文名称：Swin Transformer: Hierarchical
2024年02月04日
浏览(8)
Swin-transformer详解
这篇论文提出了一个新的 Vision Transformer 叫做 Swin Transformer，它可以被用来作为一个计算机视觉领域一个通用的骨干网络.但是直接把Transformer从 NLP 用到 Vision 是有一些挑战的，这个挑战主要来自于两个方面一个就是尺度上的问题。因为比如说现在有一张街景的图片，里面有很
2024年02月05日
浏览(9)
YOLOv5+Swin Transformer
参考：(7条消息) 改进YOLOv5系列：3.YOLOv5结合Swin Transformer结构，ICCV 2021最佳论文使用 Shifted Windows 的分层视觉转换器_芒果汁没有芒果的博客-CSDN博客本科生工科生cv改代码本来做的7，但是7报错一直解决不了，我就试试5 1、先是第一个报错解决：在yolo.py里 2、解决：common里删
2024年02月12日
浏览(9)
李沐论文精读系列二：Vision Transformer、MAE、Swin-Transformer
传送门：李沐论文精读系列一： ResNet、Transformer、GAN、BERT 李沐论文精读系列三：MoCo、对比学习综述（MoCov1/v2/v3、SimCLR v1/v2、DINO等）李沐论文精读系列四：CLIP和改进工作串讲（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso）论文名称： An Image Is Worth 16x16 Words: Transformers For Imag
2024年01月17日
浏览(9)
Swin-Transformer（原理 + 代码）详解
图解Swin Transformer Swin-Transformer网络结构详解【机器学习】详解 Swin Transformer (SwinT) 论文下载官方源码下载学习的话，请下载 Image Classification 的代码，配置相对简单，其他的配置会很麻烦。如下图所示： Install ： pytorch安装：感觉pytorch 1.4版本都没问题的。 2、pip install timm==
2023年04月08日
浏览(14)