Vision Transformer推理中线性-角度注意转换压缩自注意

这篇具有很好参考价值的文章主要介绍了Vision Transformer推理中线性-角度注意转换压缩自注意。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference

摘要

与卷积神经网络(cnn)相比,ViTs表现出令人印象深刻的性能,但仍然需要较高的计算成本,其中一个原因是ViTs的注意力衡量全局相似性,因此具有与输入令牌数量的二次复杂度。现有的高效ViTs采用局部注意或线性注意,牺牲了ViTs捕获全局或局部上下文的能力。
本文方法

  1. vit在学习全局和局部背景的同时,在推理过程中是否更有效,为此,我们提出了一个称为Castling-ViT的框架
  2. 使用线性角注意和基于掩码的基于softmax的二次注意来训练vit,但在推理期间切换到仅使用线性角注意。
  3. Castling-ViT利用角核通过谱角度量查询和键之间的相似性。我们用两种技术进一步简化它:(1)新颖的线性-角注意机制:将角核分解为线性项和高阶残差,只保留线性项;(2)我们采用两个参数化模块来逼近高阶残差:深度卷积和辅助掩码softmax关注,以帮助学习全局和局部信息,其中softmax关注的掩码被正则化,逐渐变为零,因此在推理过程中不会产生开销。
    代码地址
    Vision Transformer推理中线性-角度注意转换压缩自注意,# 全监督,transformer,深度学习,人工智能

本文方法

Vision Transformer推理中线性-角度注意转换压缩自注意,# 全监督,transformer,深度学习,人工智能
Vision Transformer推理中线性-角度注意转换压缩自注意,# 全监督,transformer,深度学习,人工智能
线性注意力比以前的设计更强大,同时在推理过程中仍然有效。特别地,我们提出了(1)一种新的基于谱角的基于核函数的线性角注意,以缩小线性注意与基于软最大值的注意之间的精度差距;(2)利用基于softmax的注意力作为辅助分支来辅助线性-角度注意力的训练增强方法
Vision Transformer推理中线性-角度注意转换压缩自注意,# 全监督,transformer,深度学习,人工智能

实验结果

Vision Transformer推理中线性-角度注意转换压缩自注意,# 全监督,transformer,深度学习,人工智能
Vision Transformer推理中线性-角度注意转换压缩自注意,# 全监督,transformer,深度学习,人工智能文章来源地址https://www.toymoban.com/news/detail-536254.html

到了这里,关于Vision Transformer推理中线性-角度注意转换压缩自注意的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • VLT:Vision-Language Transformer用于引用的视觉语言转换和查询生成分割

    在这项工作中,我们解决了引用分割的挑战性任务。引用分割中的查询表达式通常通过描述目标对象与其他对象的关系来表示目标对象。因此,为了在图像中的所有实例中找到目标实例,模型必须对整个图像有一个整体的理解。为了实现这一点,我们 将引用分割重新定义为直

    2024年02月14日
    浏览(45)
  • 【读点论文】Separable Self-attention for Mobile Vision Transformers,通过引入隐变量将Q矩阵和K矩阵的算数复杂度降低成线性复杂度,分步计算注意力。

    移动视觉transformer(MobileViT)可以在多个移动视觉任务中实现最先进的性能,包括分类和检测。虽然这些模型的参数较少, 但与基于卷积神经网络的模型相比,它们具有较高的延迟 。MobileViT的主要效率瓶颈是transformer中的多头自我注意(MHA),相对于令牌(或补丁)的数量k,它需要

    2023年04月16日
    浏览(33)
  • Transformer---ViT:vision transformer

    记录一下对transformer方法在计算机视觉任务中的应用方法的理解 参考博客:https://blog.csdn.net/weixin_42392454/article/details/122667271 参考代码:https://gitcode.net/mirrors/Runist/torch_vision_transformer?utm_source=csdn_github_accelerator 模型网络图 假设输入维度为[B, C, H, W],假设其中C=3,H=224,W=224 假设patch_s

    2024年02月12日
    浏览(36)
  • Vision Transformer综述 总篇

    Transformer首先应用于自然语言处理领域,是一种以自我注意机制为主的深度神经网络。由于其强大的表示能力,研究人员正在寻找将变压器应用于计算机视觉任务的方法。在各种视觉基准测试中,基于变压器的模型表现类似或优于其他类型的网络,如卷积和循环神经网络。由

    2024年02月09日
    浏览(35)
  • Vision Transformer (ViT)

    生成式模型与判别式模型 生成式模型,又称概率模型 ,是指 通过学习数据的分布来建立模型P(y|x) ,然后利用该模型来生成新的数据。生成式模型的典型代表是 朴素贝叶斯模型 ,该模型通过学习数据的分布来建立概率模型,然后利用该模型来生成新的数据。 判别式模型,又

    2024年02月15日
    浏览(51)
  • Vision Transformer(VIT)

    Vision Transformer(ViT)是一种新兴的图像分类模型,它使用了类似于自然语言处理中的Transformer的结构来处理图像。这种方法通过将输入图像分解成一组图像块,并将这些块变换为一组向量来处理图像。然后,这些向量被输入到Transformer编码器中,以便对它们进行进一步的处理。

    2024年02月07日
    浏览(43)
  • Vision Transformer (ViT)介绍

    paper:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 把transformer直接应用于图像块序列,也可以在图像分类任务上表现很好。 通过在大数据集上预训练,然后迁移到中等规模和小规模数据集上,ViT可以取得和SOTA的卷积网络同样出色(甚至更好)的结果,同时需要更

    2024年02月13日
    浏览(51)
  • Vision Transformer(VIT)调研

    综述参考:https://zhuanlan.zhihu.com/p/598785102 2020 VIT 代码库 https://github.com/lucidrains/vit-pytorch 只有分类任务,有训练的测试。有各种各样的vit模型结构。 原文 https://arxiv.org/abs/2010.11929 2021 Swim Transformer https://arxiv.org/abs/2103.14030 v2 https://arxiv.org/pdf/2111.09883.pdf code and pretrain_model https:/

    2023年04月11日
    浏览(53)
  • CNN + Vision Transformer 结合学习

    介绍三篇结合使用CNN+Transformer进行学习的论文:CvT(ICCV2021),Mobile-Former(CVPR2022),SegNetr(arXiv2307). 论文:https://arxiv.org/abs/2103.15808 代码:https://github.com/leoxiaobin/CvT 解读:CvT | CNN+Vision Transformer会有什么样的火花呢? - 知乎 (zhihu.com) 读论文之transformer系列-CvT:将卷积引入

    2024年02月16日
    浏览(35)
  • 论文阅读 Vision Transformer - VIT

    通过将图像切成patch线形层编码成token特征编码的方法,用transformer的encoder来做图像分类 解决问题: transformer输入限制: 由于自注意力+backbone,算法复杂度为o(n²),token长度一般要512才足够运算 解决:a) 将图片转为token输入 b) 将特征图转为token输入 c)√ 切patch转为token输入 tra

    2024年02月01日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包