14篇最新Transformer热门论文!涵盖注意力机制、架构改进、适用性扩展等

这篇具有很好参考价值的文章主要介绍了14篇最新Transformer热门论文!涵盖注意力机制、架构改进、适用性扩展等。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在深度学习技术的飞速发展中,Transformer模型无疑成为了当今研究的热点,它凭借其独特的架构和强大的表达能力,在自然语言处理、计算机视觉和语音识别等领域取得了令人瞩目的成果。

今天,特意为大家整理了14篇Transformer热门论文,这些论文涵盖了注意力机制、架构改进以及适用性扩展等多个方向,一起看看Transformer方向近期的研究成果和进展吧!

┃Attention机制改进与替代

1、Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers(AAAI2024)

重新思考注意力:探索浅层前馈神经网络作为Transformer中注意力层的替代方案

简述:本文研究探讨了使用简单的浅层前馈网络来模拟Transformer模型中注意力机制的有效性,研究用浅层前馈网络替换了Transformer中注意力机制的关键元素,并通过知识蒸馏对这些网络进行训练。在IWSLT2017数据集上的实验表明,这些“无注意力的变形金刚”与原始架构的性能相当。通过消融研究和替代网络试验,支持了该方法的可行性,这表明浅层前馈网络在简化序列到序列任务的复杂架构方面具有潜力。

transformer参考文献,transformer,架构,深度学习

2、Fairness-Aware Structured Pruning in Transformers(AAAI2024)

Transformer中的公平感知结构化剪枝

简述:本文研究分析了注意力头如何影响基于转换器的预训练语言模型中的公平性和性能,并提出了一种新方法,用于修剪对公平性产生负面影响的注意力头,同时保留对性能至关重要的注意力头。这种方法实用,因为它不需要微调最终修剪的模型。研究结果表明,与有偏见的模型相比,不同尺寸的模型在减少性别偏见的同时,性能仅略有下降。

transformer参考文献,transformer,架构,深度学习

3、FLatten Transformer: Vision Transformer using Focused Linear Attention(ICCV2023)

FLatten Transformer:使用聚焦线性注意力的视觉Transformer

简述:本文提出了一种聚焦线性注意力模块,旨在提高效率和性能。通过分析线性注意力的局限性,研究人员引入了映射函数和秩恢复模块,增强了自我注意力的表现力,同时保持较低的计算复杂度。实验证明,该模块适用于多种视觉转换器,并在多个基准测试中实现了性能提升。

transformer参考文献,transformer,架构,深度学习

┃Transformer架构改进

4、SeTformer is What You Need for Vision and Language(AAAI2024)

SeTformer:视觉与语言任务所需的模型

简述:本文提出了一种新型变压器SeTformer,完全用自优化传输(SeT)替代了点积自注意力(DPSA),以提高性能和计算效率。SeT基于两个基本softmax属性:保持非负注意力矩阵和使用非线性重新加权机制强调重要标记。在ImageNet-1K上,SeTformer实现了84.7%和86.2%的前1准确率,并在目标检测和语义分割任务中优于其他模型。SeTformer还在GLUE基准测试中实现了最先进的语言建模结果,展示了其在视觉和语言任务中的适用性。

transformer参考文献,transformer,架构,深度学习

5、Simplifying Transformer Blocks

简化Transformer块

简述:深度 Transformer 的复杂构建块可能导致训练困难,本文研究探索了简化标准 Transformer 块的可行性。通过结合理论和观察,研究人员修改了模块,移除了跳过连接、投影或值参数、顺序子块和归一化层,以简化结构。在自回归解码器和 BERT 编码器模型实验中,简化版 Transformer 与标准版速度和性能相当,但训练吞吐量提高 15%,参数减少 15%。

transformer参考文献,transformer,架构,深度学习

6、Token Merging: Your ViT But Faster(ICLR 2023)

Token合并:你的ViT但更快

简述:本文提出了令牌合并(ToMe),一种简单且无需训练的方法,能够提高现有ViT模型的吞吐量。ToMe使用准确的匹配算法将相似标记组合在一起,使得图像和视频吞吐量大幅提升,精度下降很小。ToMe也能够用于训练,加速MAE视频微调,并且使音频吞吐量提高2倍,mAP下降仅0.4%。总体而言,ToMe在图像、视频和音频方面的准确性和速度与最先进的产品相媲美。

transformer参考文献,transformer,架构,深度学习

7、Effcient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer(EMNLP2023)

高效长程Transformer:你需要更多地关注,但不必在每一层都进行注意

简述:本文提出了 MASFormer,这是一种转换器变体,它使用混合注意跨度来高效处理远程和短程依赖关系。在自然语言建模和生成任务中,MASFormer 表现出与普通变压器相当的性能,但计算成本显著降低(高达 75%)。此外,研究人员还研究了使用长序列数据进行持续训练的有效性,以及序列长度对生成性能的影响。

transformer参考文献,transformer,架构,深度学习

8、Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture(NeurIPS 2023)

Monarch Mixer:基于GEMM的简单亚二次架构

简述:本文提出了一种新架构Monarch Mixer(M2),使用亚二次基元沿序列长度和模型维度扩展。M2通过Monarch矩阵实现,这是一种简单但富有表现力的结构化矩阵类,能够在GPU上实现高硬件效率。实验表明,M2在非因果BERT风格语言建模、ViT风格图像分类和因果GPT风格语言建模中表现出色,与BERT-base和BERT-large在GLUE质量上相匹配,参数最多减少27%,在ImageNet上精度提高,同时在The PILE的预训练困惑中以360M参数匹配GPT风格的Transformers,表明了在缺乏注意力或MLP的情况下匹配Transformer质量的可能性。

transformer参考文献,transformer,架构,深度学习

┃Transformer适用性扩展

9、iTransformer: Inverted Transformers Are Effective for Time Series Forecasting(ICLR 2024)

iTransformer:反相变压器对时间序列预测有效

简述:本文提出了iTransformer模型,通过将时间序列中的每个变量独立嵌入为变量子token,并应用自注意力机制和前馈网络来学习非线性表示,有效地捕捉多变量相关性并提高预测性能。iTransformer在具有挑战性的真实数据集上实现了最先进的技术,增强了Transformer系列的性能、泛化能力以及对任意回溯窗口的利用,使其成为时间序列预测的基本支柱。

transformer参考文献,transformer,架构,深度学习

10、Vision Transformers Need Registers(ICLR 2024)

视觉 Transformer 需要寄存器

简述:本文研究了监督和自监督视觉Transformer(ViT)网络中的特征图伪影,这些伪影与推理时的高范数标记相关,主要位于图像的低信息背景区域。为了解决这个问题,研究人员提出了一种为输入序列添加额外令牌的方法,这有效解决了监督和自监督模型的问题。这项改进为自监督视觉模型在密集视觉预测任务上设定了新的技术标准,使得使用更大模型的对象检测方法成为可能,并为下游视觉处理提供了更平滑的特征图和注意力图。

transformer参考文献,transformer,架构,深度学习

11、Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting(ICLR 2024)

具有自适应路径的多尺度变换器用于时间序列预测

简述:本文提出了Pathformer,一种具有自适应通路的多尺度Transformer模型,用于时间序列预测。该模型通过将时间序列划分为不同尺度的斑块并进行双重注意力机制,捕捉全局和局部特征。自适应路径进一步优化了多尺度建模过程,提升了预测精度和泛化性。实验证明,Pathformer在多个真实数据集上超越了当前所有模型,展现了卓越的性能和泛化能力。

transformer参考文献,transformer,架构,深度学习

12、OneFormer: One Transformer to Rule Universal Image Segmentation(CVPR2023)

OneFormer:一个Transformer统治通用图像分割

简述:本文提出了OneFormer,一个通用的图像分割框架,通过将分割与多任务训练相结合,实现了对语义、实例和全景分割的联合训练。OneFormer使用任务令牌动态调节模型,支持多任务训练和推理。此外,研究人员在训练中引入了查询文本对比损失,以增强任务间和类间的区分。实验表明,OneFormer在ADE20k、Cityscapes和COCO的三个分割任务上都优于单独训练的Mask2Former模型。

transformer参考文献,transformer,架构,深度学习

13、Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting(ICLR 2023)

Crossformer:利用跨维度依赖关系进行多变量时间序列预测的 Transformer

简述:本文提出了一种基于Transformer的模型Crossformer,专为多变量时间序列(MTS)预测而设计,它通过DSW嵌入方法将MTS数据转为2D阵列,并使用两阶段注意力(TSA)层捕捉时间和跨维度依赖。该模型采用了分层编码器-解码器(HED)框架,以便有效地利用不同尺度的信息进行预测。实验结果表明,Crossformer 在真实世界数据集上的表现优于之前的技术。

transformer参考文献,transformer,架构,深度学习

┃精度与效率平衡

14、EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention(CVPR2023)

EfficientViT: 具有级联组注意力的内存高效视觉Transformer

简述:本文提出了一种称为Efficient ViT的高速视觉Transformer,为了提高现有transformer模型的速度,研究人员使用了一种三明治布局的新构建块,使用单个内存绑定的MHSA,在保证通道通信的同时提高内存效率。还使用了级联的群体注意力模块来提高注意力多样性,避免计算冗余。实验表明,Efficient ViT优于现有的高效模型,在速度和精度方面获得了良好的平衡。

transformer参考文献,transformer,架构,深度学习

码字不易,欢迎大家点赞评论收藏!

关注下方《享享学AI》

回复【Transformer】获取完整论文

👇

 文章来源地址https://www.toymoban.com/news/detail-840538.html

到了这里,关于14篇最新Transformer热门论文!涵盖注意力机制、架构改进、适用性扩展等的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 简单理解Transformer注意力机制

    这篇文章是对《动手深度学习》注意力机制部分的简单理解。 生物学中的注意力 生物学上的注意力有两种,一种是无意识的,零一种是有意识的。如下图1,由于红色的杯子比较突出,因此注意力不由自主指向了它。如下图2,由于有意识的线索是想要读书,即使红色杯子比较

    2024年02月03日
    浏览(38)
  • 【Transformer系列(2)】注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解

    注意力机制一直是一个比较热的话题,其实在很早之前就提出了,我们在学习图像分类时在SENet就见到过(直通车:经典神经网络论文超详细解读(七)——SENet(注意力机制)学习笔记(翻译+精读+代码复现))自从谷歌发表了《Attention Is All You Need》这篇论文后,注意力

    2024年02月06日
    浏览(68)
  • Transformer中的注意力机制及代码

    最近在学习transformer,首先学习了多头注意力机制,这里积累一下自己最近的学习内容。本文有大量参考内容,包括但不限于: ① 注意力,多注意力,自注意力及Pytorch实现 ② Attention 机制超详细讲解(附代码) ③ Transformer 鲁老师机器学习笔记 ④ transformer中: self-attention部分是否需

    2023年04月11日
    浏览(45)
  • 图解transformer中的自注意力机制

    本文将将介绍注意力的概念从何而来,它是如何工作的以及它的简单的实现。 在整个注意力过程中,模型会学习了三个权重:查询、键和值。查询、键和值的思想来源于信息检索系统。所以我们先理解数据库查询的思想。 假设有一个数据库,里面有所有一些作家和他们的书籍

    2024年02月09日
    浏览(52)
  • 大模型基础之注意力机制和Transformer

    核心思想:在decoder的每一步,把encoder端所有的向量提供给decoder,这样decoder根据当前自身状态,来自动选择需要使用的向量和信息. decoder在每次生成时可以关注到encoder端所有位置的信息。 通过注意力地图可以发现decoder所关注的点。 注意力使网络可以对齐语义相关的词汇。

    2024年02月11日
    浏览(43)
  • 【】理解ChatGPT之注意力机制和Transformer入门

    作者:黑夜路人 时间:2023年4月27日 想要连贯学习本内容请阅读之前文章: 【原创】理解ChatGPT之GPT工作原理 【原创】理解ChatGPT之机器学习入门 【原创】AIGC之 ChatGPT 高级使用技巧 GPT是什么意思 GPT 的全称是 Generative Pre-trained Transformer(生成型预训练变换模型),它是基于大

    2024年02月16日
    浏览(49)
  • 注意力机制——Spatial Transformer Networks(STN)

    Spatial Transformer Networks(STN)是一种空间注意力模型,可以通过学习对输入数据进行空间变换,从而增强网络的对图像变形、旋转等几何变换的鲁棒性。STN 可以在端到端的训练过程中自适应地学习变换参数,无需人为设置变换方式和参数。 STN 的基本结构包括三个部分:定位网

    2024年02月07日
    浏览(46)
  • Transformer仅有自注意力还不够?微软联合巴斯大学提出频域混合注意力SpectFormer

    本文介绍一篇来自 英国巴斯大学(University of Bath)与微软合作完成的工作, 研究者从频率域角度入手探究视觉Transformer结构中的频域注意力和多头注意力在视觉任务中各自扮演的作用。 论文链接: https://arxiv.org/abs/2304.06446 项目主页: https://badripatro.github.io/SpectFormers/ 代码链

    2024年02月07日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包