FLatten Transformer 简化版Transformer

这篇具有很好参考价值的文章主要介绍了FLatten Transformer 简化版Transformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

今天在找论文时,看到一篇比较新奇的论文,在这里跟大家分享一下,希望可以给一些人提供一些思路。虽然现在Transformer 比较火,在分割上面也应用的比较多,但是我一直不喜欢用,其中一个原因是结构太复杂了,平时我主要用一个sel-attention 感觉都有点复杂了,如果用多头会更复杂。虽然网上有很多人提供了各种解决方法,但是都没有从根本上解决。直到我看到这篇文章。与自然语言不同,视觉图片中的特征数量更多,由于自注意力是平方复杂度,直接进行全局自注意力的计算往往会带来过高的计算量。针对这一问题,先前的工作通常通过减少参与自注意力计算的特征数量的方法来降低计算量。例如,设计稀疏注意力机制(如PVT)或将注意力的计算限制在局部窗口中(如Swin Transformer)。尽管有效,这样的自注意力方法很容易受到计算模式的影响,同时也不可避免地牺牲了自注意力的全局建模能力。

与这些方法不同,线性注意力将Softmax解耦为两个独立的函数,从而能够将注意力的计算顺序从(query·key)·value调整为query·(key·value),使得总体的计算复杂度降低为线性。然而,目前的线性注意力方法要么性能明显不如Softmax注意力,要么引入了过多的额外计算量导致模型推理速度很慢,难以实际应用。

FLatten Transformer 简化版Transformer,论文推荐,transformer,深度学习,人工智能

 当然如果直接使用这个版本,网络准确性并没有想象的那么高。后面作者提出个一些解决方法,如果大家想了解这些细节,可以直接看论文。

这篇文章给我最大的感受是:原来不一定要按照传统的样式进行,也可以换一种方法。不能总是一成不变。文章来源地址https://www.toymoban.com/news/detail-650019.html

到了这里,关于FLatten Transformer 简化版Transformer的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文学习笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    论文阅读:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 今天学习的论文是 ICCV 2021 的 best paper,Swin Transformer,可以说是 transformer 在 CV 领域的一篇里程碑式的工作。文章的标题是一种基于移动窗口的层级 vision transformer。文章的作者都来自微软亚研院。 Abstract 文章的

    2024年02月08日
    浏览(42)
  • 【Transformer论文】CMKD:用于音频分类的基于 CNN/Transformer 的跨模型知识蒸馏

    文献题目:CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification 文献时间:2022 音频分类是一个活跃的研究领域,具有广泛的应用。 在过去十年中,卷积神经网络 (CNN) 已成为端到端音频分类模型的事实上的标准构建块。 最近,仅基于自注意力机制(如音频频谱

    2023年04月17日
    浏览(40)
  • [论文笔记] Transformer-XL

            这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决  长依赖问题中受到固定长度上下文的限制 ,如 Bert 采用的 Transformer 最大上下文为 512(其中是因为计算资源的限制,不是因为位置编码,因为使用的是绝对位置编码正余弦编码)。         Transformer-X

    2024年03月12日
    浏览(71)
  • 【论文+代码】1706.Transformer简易学习笔记

    Transformer 论文: 1706.attention is all you need! 唐宇迪解读transformer:transformer2021年前,从NLP活到CV的过程 综述:2110.Transformers in Vision: A Survey 代码讲解1: Transformer 模型详解及代码实现 - 进击的程序猿 - 知乎 代码讲解2:: Transformer代码解读(Pytorch) - 神洛的文章 - 知乎 输入:词向量(

    2024年02月09日
    浏览(45)
  • 论文阅读 Vision Transformer - VIT

    通过将图像切成patch线形层编码成token特征编码的方法,用transformer的encoder来做图像分类 解决问题: transformer输入限制: 由于自注意力+backbone,算法复杂度为o(n²),token长度一般要512才足够运算 解决:a) 将图片转为token输入 b) 将特征图转为token输入 c)√ 切patch转为token输入 tra

    2024年02月01日
    浏览(43)
  • ViT(Version Transformer)原始论文解读

    paper:2010.11929.pdf (arxiv.org) code:google-research/vision_transformer (github.com) 期刊/会议:ICLR 2020 虽然Transformer体系结构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉方面的应用仍然有限。在视觉上,注意力要么与卷积网络结合应用,要么用于替换卷积网络的某些组件

    2024年02月15日
    浏览(45)
  • 【论文笔记】Attention和Visual Transformer

    Attention机制在相当早的时间就已经被提出了,最先是在计算机视觉领域进行使用,但是始终没有火起来。Attention机制真正进入主流视野源自Google Mind在2014年的一篇论文\\\"Recurrent models of visual attention\\\"。在该文当中,首次在RNN上使用了Attention进行图像分类 。 然而,Attention真正得到

    2024年02月07日
    浏览(45)
  • 【论文笔记】Video Vision Transformer(ViViT)

    以下是我看了ViViT这篇文章的理解,如果理解有误,欢迎各位大佬指正。 原文:https://arxiv.org/abs/2103.15691 代码:https://github.com/google-research/scenic. 目录 一.介绍 二.简单介绍ViT原理  三.Video Vision Transformer原理(ViViT)  1.Tublet Embedding 2.“central  frame initialisation”3D滤波器生成方法

    2024年04月27日
    浏览(43)
  • [异构图-论文阅读]Heterogeneous Graph Transformer

    这篇论文介绍了一种用于建模Web规模异构图的异构图变换器(HGT)架构。以下是主要的要点: 摘要和引言 (第1页) 异构图被用来抽象和建模复杂系统,其中不同类型的对象以各种方式相互作用。 许多现有的图神经网络(GNNs)主要针对同构图设计,无法有效表示异构结构。

    2024年02月06日
    浏览(51)
  • 【论文笔记】Mamba:挑战Transformer地位的新架构

    Mamba: Linear-Time Sequence Modeling with Selective State Spaces 背景 基础模型,它现在驱动着深度学习中大多数令人振奋的应用,几乎都是基于Transformer架构及其核心注意力模块。 存在的问题 许多subquadratic-time架构如线性注意力、门控卷积和循环模型以及structured state space models (SSMs)已经被

    2024年03月13日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包