17.基干模型Swin-Transformer解读-Toy模板网

这篇具有很好参考价值的文章主要介绍了17.基干模型Swin-Transformer解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

SWin-Transformer解读

1.基础介绍

Swin-Transformer是2021年03月微软亚洲研究院提交的论文中提出的，比ViT晚了半年左右，相对于ViT而言，Swin-Transformer的改进，使transformer能作为新的视觉任务backbone，用于分类分割和检测，姿态估计等任务。

论文：https://arxiv.org/abs/2103.14030
代码：https://github.com/microsoft/Swin-Transformer

Swin-Transformer是Shifted Window Transformer,作者指出了将transformer应用到视觉任务中需要解决的两个问题，

一个是在ViT中就已经提到的计算self attension时 $\frac{QK^T}{\sqrt{d_k}}V$ 复杂度是序列长度L（在视觉任务中是image size）的平方，着限制了transformer处理大分辨率图像的能力。

另一个，对于像语义分割/目标检测这些任务，最好能输出层级的金字塔型的特征，以增加模型处理不同scale对象的能力，同时也更利于使用过去研究中已验证有效果的trick。

Swin-Transformer中作者针对上述两个问题提出的方法分别是Shifted Window based Self-Attention和随着网络的深度合并图像patch来生成层级特征图。

17.基干模型Swin-Transformer解读,DeepLearning,transformer,深度学习,人工智能

关于Shifted Window based Self-Attention

先来看transformer中的常规全局Multi-Head Self Attention(MSA)的计算复杂度，
Q=K=V,shape为(L, C) L对应的是序列的长度对于 $h\times w$ 的图像等同于 $L=h\times w$ ,C是模型的通道数等同于hidden_dims, $W_i^Q,W_i^K,W_i^V$ 对应的shape都为(C,C),MSA输出的通道数也是C,则 $W^O$ 的shape为(C,C)。那么，对于全局注意力机制的计算包括 $QW_i^Q$ , $KW_i^K$ , $VW_i^V$ , $QK^T$ , $S V$ , $AW^O$ 这几部分，其中 $S=softmax(\frac{QK^T}{\sqrt{C}})$ 文章来源地址https://www.toymoban.com/news/detail-737538.html