关于Swin Transformer的架构记录

这篇具有很好参考价值的文章主要介绍了关于Swin Transformer的架构记录。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Swin Transformer 可以说是批着Transformer外表的卷积神经网络。

具体的架构如下图所示:

关于Swin Transformer的架构记录,transformer,深度学习,人工智能

首先我们得到一张224*224*3的图片。

通过分成4*4的patch,变成了56*56*48。

线性变换后又变成了56*56*96。

然后利用了Swin Transformer中一个比较特别的结构 Patch Merging 变成28*28*192。

同理,变成14*14*384。

同理,变成7*7*768。

这是总体的过程,Swin Transformer内部是由W-MSA 和SW-MSA组成的。

另外一个比较重要的是针对移位配置的高效批量计算。

关于Swin Transformer的架构记录,transformer,深度学习,人工智能

移动窗口分区的一个问题是,它将导致更多的窗口,一些窗口将小于M×M。

一个简单的解决方案是将较小的窗口填充到M×M的大小,并在计算注意力时屏蔽填充的值。这种朴素解增加的计算量是相当大的(2×2→ 3×3,是2.25倍)。

利用下图所示的方法:

关于Swin Transformer的架构记录,transformer,深度学习,人工智能

在该偏移之后,分批窗口可以由在特征图中不相邻的几个子窗口组成,因此采用掩蔽机制来将自注意计算限制在每个子窗口内。

掩码如下:

关于Swin Transformer的架构记录,transformer,深度学习,人工智能文章来源地址https://www.toymoban.com/news/detail-830204.html

到了这里,关于关于Swin Transformer的架构记录的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文学习笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    论文阅读:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 今天学习的论文是 ICCV 2021 的 best paper,Swin Transformer,可以说是 transformer 在 CV 领域的一篇里程碑式的工作。文章的标题是一种基于移动窗口的层级 vision transformer。文章的作者都来自微软亚研院。 Abstract 文章的

    2024年02月08日
    浏览(42)
  • Swin-transformer论文阅读笔记(Swin Transformer: Hierarchical Vision Transformer using Shifted Windows)

    论文标题:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文作者:Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo 论文来源:ICCV 2021,Paper 代码来源:Code 目录 1. 背景介绍 2. 研究现状 CNN及其变体 基于自注意的骨干架构 自注意/Transformer来补充CN

    2024年02月07日
    浏览(51)
  • transformer概述和swin-transformer详解

    目录 1.transformer架构 1.1输入部分实现 1.2编码器部分实现 1.2.1掩码张量 1.2.2注意力机制 1.2.3多头注意力机制 1.2.4前馈全连接层 1.2.5规范化层 1.2.6子层连接层 1.2.7编码器层 1.2.8编码器 1.3解码器部分实现 1.3.1解码器层 1.3.2解码器 1.4输出部分实现 2.swin-transformer transformer的整体网络架

    2024年02月03日
    浏览(35)
  • Swin Transformer详解

    原创:余晓龙 “Swin Transformer: Hierarchical Vision Transformer using Shifted Window”是微软亚洲研究院(MSRA)发表在arXiv上的论文,文中提出了一种新型的Transformer架构,也就是Swin Transformer。本文旨在对Swin Transformer架构进行详细解析。 整体的网络架构采取层次化的设计,共包含4个stag

    2024年02月06日
    浏览(37)
  • Swin-Transformer 详解

    由于Transformer的大火,相对应的也出来了许多文章,但是这些文章的速度和精度相较于CNN还是差点意思,2021年微软研究院发表在ICCV上的一篇文章Swin Transformer是Transformer模型在视觉领域的又一次碰撞,Swin Transformer可能是CNN的完美替代方案。 论文名称:Swin Transformer: Hierarchical

    2024年02月04日
    浏览(38)
  • Swin-transformer详解

    这篇论文提出了一个新的 Vision Transformer 叫做 Swin Transformer,它可以被用来作为一个计算机视觉领域一个通用的骨干网络.但是直接把Transformer从 NLP 用到 Vision 是有一些挑战的,这个挑战主要来自于两个方面 一个就是尺度上的问题。因为比如说现在有一张街景的图片,里面有很

    2024年02月05日
    浏览(41)
  • VIT与swin transformer

    VIT也就是vision transformer的缩写。是第一种将transformer运用到计算机视觉的网络架构。其将注意力机制也第一次运用到了图片识别上面。其结构图如下(采用的是paddle公开视频的截图) 看起来比较复杂,但实际上总体流程还是比较简单的。只需要看最右边的总的结构图,它的输

    2024年02月05日
    浏览(40)
  • YOLOv5+Swin Transformer

    参考:(7条消息) 改进YOLOv5系列:3.YOLOv5结合Swin Transformer结构,ICCV 2021最佳论文 使用 Shifted Windows 的分层视觉转换器_芒果汁没有芒果的博客-CSDN博客 本科生工科生cv改代码 本来做的7,但是7报错一直解决不了,我就试试5 1、先是第一个报错 解决:在yolo.py里 2、 解决:common里删

    2024年02月12日
    浏览(34)
  • 李沐论文精读系列二:Vision Transformer、MAE、Swin-Transformer

    传送门: 李沐论文精读系列一: ResNet、Transformer、GAN、BERT 李沐论文精读系列三:MoCo、对比学习综述(MoCov1/v2/v3、SimCLR v1/v2、DINO等) 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso) 论文名称: An Image Is Worth 16x16 Words: Transformers For Imag

    2024年01月17日
    浏览(45)
  • Swin-Transformer(原理 + 代码)详解

    图解Swin Transformer Swin-Transformer网络结构详解 【机器学习】详解 Swin Transformer (SwinT) 论文下载 官方源码下载 学习的话,请下载 Image Classification 的代码,配置相对简单,其他的配置会很麻烦。如下图所示: Install : pytorch安装:感觉pytorch 1.4版本都没问题的。 2、pip install timm==

    2023年04月08日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包