VIT论文阅读

这篇具有很好参考价值的文章主要介绍了VIT论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文地址:https://arxiv.org/pdf/2010.11929.pdf

摘要

虽然transformer已经是nlp领域的标准,但是transformer来做cv很有限,cv中跟attention跟cnn一起使用,或者cnn中的某些卷积替换成attention,整体结构不变。文章提出,直接使用transformer也可以在图像,尤其在大数据做训练再迁移到中小数据集。同时,transformer需要更少的训练资源。(2500天TPU V3)

INTRODUCTION

nlp领域的应用,transformer已经是必选模型。主流方式:在大规模数据集做预训练再去特定领域小数据集做微调(Bert)

transformer应用到cv难点:2d图片变成1d数据

self-attention应用到cv领域,

1.featuremap当做transformer输入,

2.孤立自注意力:通过局部小窗口,轴注意力:2d矩阵拆分为2个1d,先在高度维度做self-attention,再宽度维度做self-attention

2理论上高速,没有在硬件上加速,模型不够大。

直接应用transformer在图片领域,不做修改。把图片分成几个patches,每个patch通过fc layer得到一个linear embedding,将其输入给transformer。图片块类似nlp里面的tokens。训练使用有监督

VIT论文阅读,paper reading,论文阅读

在中规模数据集,vit缺少归纳偏置(locality, translation equivariance:f(g(x))=g(f(x)),效果较弱。在大规模预训练,在下游任务去vit就可以取得相近或者更好的结果。

结论

抽图片块、位置编码之外没有引入归纳偏置。图像序列的图像块直接做transformer,简单、扩展性好的策略与大规模数据结合,达到了很好的效果。

未来方向:transformer在检测、分割的应用,自监督的预训练方式

模型变大达到更好的结果。

RELATEDWORK

transformer在nlp的应用:

BERT:denoising self-supervised(完形填空)

GPT:language modeling (next word pre)

在cv应用:

如果每个像素点当做一个元素,俩俩自注意力,平方复杂度难以应用

1.local neighborhoods

2.sparse transformer,稀疏点做自注意力

3.应用到不同大小block,或者按轴做自注意机制

需要用复杂工程加速算子

transformer和cnn结合:涵盖各领域

与之相似的工作:

1.Jean-Baptiste Cordonnier,Andreas Loukas,and Martin Jaggi. On the relationship between self-attention and convolutional layers. In ICLR, 2020.

2.iGPT:生成性模型,也使用transformer。微调后性能72%

3.其他相似工作:大数据集预训练;数据集ImageNet-21k、JFT-300M

METHOD

模型设计贴近transformer原理,好处:直接使用nlp的transformer架构

1.VISIONTRANSFORMER(VIT)

VIT论文阅读,paper reading,论文阅读

整体流程

1.图分成patch,变成序列

X: 224x224,使用patch size = 16, N= HW/P^2

得到196个图像块 ==> 16x16x3

2.每个patch经过linear projection线性投射层(全连接层E)得到特征,即patch embedding。加上位置编码信息position embedding。

3.借鉴bert extra learnable embedding,加入特殊字符cls ,图像*代替,class embedding。token输入transformer encoder

E: 768x768, D = 768,第一个768是图像计算得来16x16x8

X * E = 196 x 768 x 768 x 768 = img: 196 x 768 = 197 x 768,  矩阵乘法
								cls: 1  x 768		
加入位置编码信息,sum

4.多头自注意力机制,mlp head 分类头

12个头:768 / 12 = 64

197x64	197x64	197x64 12个头输出拼接:197 x 768
k		q		v

layer norm: 197 x 768
mlp: 放到4倍:197 x 3072 缩小投射———> 197 x 768
消融实验
HEAD TYPE AND CLASSTOKEN

class token 当做图像的整体特征,token输出接mlp,使用tanh为激活函数做预测。

(ResNet)图像全局向量特征:feature map ——> globally average-pooling

VIT论文阅读,paper reading,论文阅读

transformer

VIT论文阅读,paper reading,论文阅读

两种方式都可以,vit用class token,尽可能跟transformer保持一致

VIT论文阅读,paper reading,论文阅读

poisitional embedding
  • 1D: nlp常用的

    1 2 3 4 ... 9   维度 D
    
  • 2D:

    		D/2
    D/2	11	12	13
    	21	22	23
    	31	32	33
    维度D/2的向量表示X-embedding, D/2的向量表示Y-embedding
    contact成维度D --> 2d poisitional embedding
    
  • Relative position embedding:绝对距离、相对距离

实验结果:都可以

VIT论文阅读,paper reading,论文阅读

ptach-level而不是pixel-level,图像块较小,获取小块之间相对位置较容易,因此采用不同位置编码差异不大。

本文中vision transformer采用class token 跟1d position embedding(对标准的transformer不做过多改动)

整体过程公式

VIT论文阅读,paper reading,论文阅读

Inductive bias

cnn: locality、translation equivariance,模型每一层均体现,先验知识贯穿

vit:mlp layer是局部、平移等变性,self-attention全局,图片2d信息基本没有使用。位置编码也是随机初始化,没有携带任何2d信息。(缺少偏置,中小数据集效果不如cnn)

Hybrid Architecture

使用CNN进行预处理

图片通过CNN获取feature map,拉直后跟全连接层操作

VIT论文阅读,paper reading,论文阅读

2.FINE-TUNINGANDHIGHERRESOLUTION

微调用较大尺寸图像,得到更好结果。

使用预训练好的vision transformer,当用更大尺寸图像,patch size 保持一致,序列长度增加,提前预训练好的位置编码失效。

进行2d插值解决该问题(临时解决方案,微调局限性),2D interpolation

实验

对比resnet、vit和hybrid表征学习能力,不同大小数据集做预训练,在很多数据集做测试。vit在大多数数据集上训练时间短效果好

数据集:imagetNet、imagetNet-21k、JFT

下游任务分类:CIFAR-10/100、Oxford-IIIT Pets、,OxfordFlowers-102
VIT论文阅读,paper reading,论文阅读

ViT-L/16:Large模型,patch size 16x16

序列长度跟patch size成反比,模型用更小的patch size时,计算代价更大

VIT论文阅读,paper reading,论文阅读

bit:cnn中较大的模型

noisy student:image net中表现最好 ,pseudo-label进行self training (伪标签)

vit训练时间更短
VIT论文阅读,paper reading,论文阅读

1.小数据集cnn效果好

2.数据规模大于ImageNet-21K,vit效果较好

VIT论文阅读,paper reading,论文阅读

使用预训练模型当做特征提取器,做5-shot

原因:缺少归纳偏置,小数据集效果较cnn差;

平均注意力距离

VIT论文阅读,paper reading,论文阅读

自监督:masked patch,将图片分成几个patch,随机涂抹几个patch;文章来源地址https://www.toymoban.com/news/detail-852131.html

到了这里,关于VIT论文阅读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Paper Reading: (ACRST) 基于自适应类再平衡自训练的半监督目标检测

    题目:《Semi-Supervised Object Detection with Adaptive Class-Rebalancing Self-Training》, AAAI’22 , 基于自适应类再平衡自训练的半监督目标检测 日期:2021.7.11(v1),2022.6.28(AAAI’22) 单位:清华大学 论文地址:https://arxiv.org/abs/2107.05031 GitHub:- 作者 王斌,清华大学软件学院副教授,个人主页

    2024年02月04日
    浏览(39)
  • Guided Diffusion/Diffusion Models Beat GANs on Image Synthesis (Paper reading)

    Prafulla Dhariwal, OpenAI, NeurlPS2021, Cited: 555, Code, Paper. 对于条件图像合成,我们通过分类器指导进一步提高样本质量:一种简单、计算效率高的方法,使用分类器的梯度来权衡样本质量的多样性。我们在 ImageNet 128×128 上实现了 2.97 的 FID,在 ImageNet 256×256 上实现了 4.59,在 ImageNe

    2024年02月16日
    浏览(42)
  • 【Paper Reading】DETR:End-to-End Object Detection with Transformers

    Transformer已经在NLP领域大展拳脚,逐步替代了LSTM/GRU等相关的Recurrent Neural Networks,相比于传统的RNN,Transformer主要具有以下几点优势 可解决长时序依赖问题,因为Transformer在计算attention的时候是在全局维度进行展开计算的,所以不存在长时序中的梯度消失等问题。 Transformer的

    2024年02月14日
    浏览(52)
  • [paper reading] Federated Learning With Differential Privacy:Algorithms and Performance Analysis

    1.整篇论文的总结: (1)提出了一种基于差分隐私的联邦学习框架:NbAFL(noising before model aggregation FL),在局部模型聚合成全局模型之前加入噪声(客户端和服务器端都会加噪声)。 (2)对训练的FL模型的损失函数规定了一个 理论上的收敛界限 (就是要求损失函数低于某

    2024年02月11日
    浏览(44)
  • paper阅读慢?免费速读工具ChatPaper上线啦

    ChatPaper已经在Hugging Face上在线了,不用配置,不用fq,即可使用。 web端:https://huggingface.co/spaces/wangrongsheng/ChatPaper 使用教程:打开可直接使用 实现展示: 从github截一段吧 更多请点击: 源仓库: https://github.com/kaixindelele/chatpaper bilibili视频

    2024年02月11日
    浏览(60)
  • ViT 论文逐段精读

    https://www.bilibili.com/video/BV15P4y137jb Vision Transformer 挑战了 CNN 在 CV 中绝对的统治地位。Vision Transformer 得出的结论是如果在足够多的数据上做预训练,在不依赖 CNN 的基础上,直接用自然语言上的 Transformer 也能 CV 问题解决得很好。Transformer 打破了 CV、NLP 之间的壁垒。 先理解题目

    2024年02月05日
    浏览(36)
  • 《Vision Transformer (ViT)》论文精度,并解析ViT模型结构以及代码实现

    《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》 论文共有22页,表格和图像很多,网络模型结构解释的很清楚,并且用四个公式展示了模型的计算过程;本文章对其进行精度,并对源码进行剖析,希望读者可以耐心读下去。 论文地址:https://arxiv.org/abs/2010.11929 源

    2024年02月05日
    浏览(41)
  • ViT(Version Transformer)原始论文解读

    paper:2010.11929.pdf (arxiv.org) code:google-research/vision_transformer (github.com) 期刊/会议:ICLR 2020 虽然Transformer体系结构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉方面的应用仍然有限。在视觉上,注意力要么与卷积网络结合应用,要么用于替换卷积网络的某些组件

    2024年02月15日
    浏览(45)
  • 【论文笔记】 VIT论文笔记,重构Patch Embedding和Attention部分

    相关链接: VIT论文:https://arxiv.org/abs/2010.11929 VIT视频讲解:https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.999.0.0vd_source=fff489d443210a81a8f273d768e44c30 VIT源码:https://github.com/vitejs/vite VIT源码(Pytorch版本,非官方,挺多stars,应该问题不大):https://github.com/lucidrains/vit-pytorch 重点掌握:

    2024年02月11日
    浏览(45)
  • NILM非侵入式负荷识别(papers with code、data)带代码的论文整理——(论文及实现代码篇) 全网最全

            研究生三年快毕业了,毕业前整理一下该领域的研究工作。正所谓,我栽树,后人乘凉。研究NILM的时候,个人觉得最快的方法是直接复现别人的论文,或者甚至用别人论文的代码直接跑出来体会整个流程(数据集导入-数据预处理-运行模型-输出结果)。研究生三

    2024年02月05日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包