ViT网络模型

这篇具有很好参考价值的文章主要介绍了ViT网络模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、背景介绍:

自2017年Google提出的Transformer结构以来,迅速引发一波热潮,最初《Attention is all you need》这篇论文的提出是针对于NLP领域的,通过自注意力机制代替传统处理序列数据时采用的循环神经网络结构,不仅实现了并行训练,提升了训练的效率,同时也在应用中取得很好的结果。之后的一段时间中,各种基于Transformer改进的网络结构涌现出来,在不同领域中都达到SOTA的效果。

2020年Google又提出了《AN IMAGE IS WORTH 16X16 WORDS : TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》这篇论文,该文章已经被收录于ICLR 2021。首次提出Vision Transformer(ViT)将Transformer结构应用在了CV领域图像分类中,论文中表明,与当前效果最好的卷积神经网络结构相比,ViT仍然取得很好的成绩,同时需要更少的计算资源。

本次实验内容是复现ViT模型,并将该模型应用在CIFAR10数据集上进行实验,与原论文中的实验结果做比较和分析。

二、基本思想:

2.1 整体结构:

借鉴于2017年Google提出Transformer的思想,ViT的作者希望能够把最纯净的Transformer结构应用在图像分类中,但是Transformer最初提出是针对NLP领域中的机器翻译任务,所以作者对Transformer结构做了一些细小的改动,让它完成图像分类任务。

改动的地方有:

(1)传统Transformer结构是由Encoder-Decoder框架组成,而对于ViT来说,只使用了Encoder部分。

(2)标准Transformer的输入是一维序列数据,所以需要将图像转换为序列数据,论文作者提出的思路就是将一张图片无重叠切分成固定大小的patches,然后将每一个patch通过拉伸操作转换为一维向量,最后通过一个线性变换层将输入的patches转换为一个固定长度的向量,称为patch_embedding。

(3)因为对于分类任务,最后的输出应该是一个标签,所以作者对Transformer Encoder的输入做了调整, 在输入序列的最开始位置添加了一个CLS Token。

整体网络结构如下图所示:

2.2 模块分析:

2.2.1 Patch Embedding:

Transformer在NLP领域应用时,处理的都是词向量序列,所以在处理二维图像时,我们需要对图像做一些特殊处理,在原论文中,作者提出的方式是将一张图片切分成大小相同的图像块,比如16*16,并将每一个patch映射到固定维度的向量embed_dim=768,该向量的维度在整个计算过程中保持不变。这一块的操作是通过一个二维的卷积来完成的,卷积核大小设置为16*16 ,步长为16。

将图片进行切分之后,我们还需要对每个patches添加不同的位置信息文章来源地址https://www.toymoban.com/news/detail-441141.html

到了这里,关于ViT网络模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《Vision Transformer (ViT)》论文精度,并解析ViT模型结构以及代码实现

    《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》 论文共有22页,表格和图像很多,网络模型结构解释的很清楚,并且用四个公式展示了模型的计算过程;本文章对其进行精度,并对源码进行剖析,希望读者可以耐心读下去。 论文地址:https://arxiv.org/abs/2010.11929 源

    2024年02月05日
    浏览(39)
  • ViT模型架构和CNN区别

    目录 Vision Transformer如何工作 ViT模型架构 ViT工作原理解析 步骤1:将图片转换成patches序列 步骤2:将patches铺平 步骤3:添加Position embedding 步骤4:添加class token 步骤5:输入Transformer Encoder 步骤6:分类 总结 Vision Transformer(VIT)与卷积神经网络(CNN)相比 数据效率和泛化能力:

    2024年02月11日
    浏览(27)
  • 中国移动提出的ABCDNETS和DSSN数联网技术介绍

    一、引言 在2023年4月14日,中国移动召开“数据要素流通与治理产业高峰论坛上,中国移动发布了《数联网(DSSN)白皮书》,同时发布了全球首创的数联网(DSSN)服务平台等产品,为大数据的管控、流动和共享利用探索出了一条创新道路。 大家都知道IaaS、PaaS、SaaS,也有部分人

    2024年02月06日
    浏览(54)
  • 大模型的数据隐私问题有解了,浙江大学提出联邦大语言模型

    作者 | 小戏、Python 理想化的 Learning 的理论方法作用于现实世界总会面临着诸多挑战,从模型部署到模型压缩,从数据的可获取性到数据的隐私问题。 而面对着公共领域数据的稀缺性以及私有领域的数据隐私问题,联邦学习(Federated Learning)作为一种分布式的机器学习框架吸

    2024年02月13日
    浏览(33)
  • AI大模型应用入门实战与进阶:图像识别与大模型:ViT解析

    随着深度学习技术的不断发展,大模型在图像识别领域取得了显著的成功。ViT(Vision Transformer)是Google Brain团队2020年推出的一种新颖的图像识别方法,它将传统的卷积神经网络(CNN)替换为Transformer架构,实现了在图像识别任务中的显著性能提升。 本文将从以下几个方面进行深入

    2024年02月20日
    浏览(48)
  • CoCo2017数据集使用(简单介绍)

    本人使用训练图片用在目标跟踪上作为数据集扩展,因此只查看了train的json文件。 COCO的全称是Common Objects in Context,是微软团队提供的一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练、验证和测试集。论文 、数据集官方网址 CoCo2017数据集包括train(118287张

    2024年02月05日
    浏览(46)
  • Mobile-ViT (MobileViT)网络讲解

      上篇博文我们分析了 VIT 的代码,有不了解的小伙伴可以去看下:Vision Transformer(VIT)代码分析——保姆级教程。这篇博文我们先介绍下Mobile-ViT的原理部分,代码分析我们下篇博文再介绍。下面附上论文和官方代码。 论文连接:https://arxiv.org/abs/2110.02178 官方代码:https://g

    2024年02月06日
    浏览(37)
  • 【计算机视觉】Visual Transformer (ViT)模型结构以及原理解析

    Visual Transformer (ViT) 出自于论文《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》,是基于Transformer的模型在视觉领域的开篇之作。 本文将尽可能简洁地介绍一下ViT模型的整体架构以及基本原理。 ViT模型是基于Transformer Encoder模型的,在这里假设读者已经了解Transfo

    2024年02月02日
    浏览(44)
  • NIPS2022|南京大学提出基于点击后行为的广义延迟反馈模型

    Generalized Delayed Feedback Model with Post-Click Information in Recommender Systems Jia-Qi Yang De-Chuan Zhan Nanjing University https://proceedings.neurips.cc/paper_files/paper/2022/file/a7f90da65dd41d699d00e95700e6fa1e-Paper-Conference.pdf 转化率预估(比如预测某个用户购买某个商品的概率)在机器学习推荐系统中是一个基本问

    2024年02月05日
    浏览(45)
  • 12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法

    本文源自:量子位 只需12秒,只凭手机自己的算力,就能拿Stable Diffusion生成一张图像。 而且是完成了20次迭代的那种。 要知道,现在的扩散模型基本都超过了10亿参数,想要快速生成一张图片,要么基于云计算,要么就是要本地硬件够强大了。 而随着大模型应用逐渐普及开

    2024年02月01日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包