【计算机视觉 | Transformer】魔改Transformer！9种提速又提效的模型优化方案分享！

10月前作者：旅途中的宽~ 分类：Toy博客阅读(46) 违法举报

这篇具有很好参考价值的文章主要介绍了【计算机视觉 | Transformer】魔改Transformer！9种提速又提效的模型优化方案分享！。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Transformer目前已经成为人工智能领域的主流模型，应用非常广泛。然而Transformer中注意力机制计算代价较高，随着序列长度的增加，这个计算量还会持续上升。

为了解决这个问题，业内出现了许多Transformer的魔改工作，以优化Transformer的运行效率。我这次就给大家分享9篇对Transformer模型进行效率优化的改进文章，以方便大家更高效地使用模型，寻找论文创新点。

文章主要涉及4个方向：稀疏注意力机制、Transformer处理长文本、Transformer运行提效以及卷积Attention，原文及源码都已整理。

一、稀疏注意力机制

1.1 Longformer: The Long-Document Transformer

长文档Transformer

「方法简述：」Transformer-based models处理长序列时存在困难，因为它们的自注意力操作与序列长度呈二次方关系。Longformer通过引入一个与序列长度呈线性关系的注意力机制解决了这个问题，使其能够轻松处理数千个标记或更长的文档。Longformer在字符级语言建模方面表现优秀，并在各种下游任务上取得了最先进的结果。此外，Longformer还支持长文档生成序列到序列任务，并在arXiv摘要生成数据集上展示了其有效性。

nlptransformer模型优化,计算机视觉,计算机视觉,transformer,人工智能

1.2 Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

增强局部性并打破Transformer在时间序列预测中的内存瓶颈

「方法简述：」时间序列预测是许多领域中的重要问题，包括太阳能发电厂能源输出、电力消耗和交通拥堵情况的预测。本文提出了使用Transformer来解决这种预测问题的方法。虽然初步研究表明其性能令人印象深刻，但作者发现它有两个主要缺点：局部性不敏感和内存瓶颈。为了解决这两个问题，作者提出了卷积自注意力和LogSparse Transformer，它们能够更好地处理局部上下文并降低内存成本。实验表明，这些方法在时间序列预测方面具有优势。

nlptransformer模型优化,计算机视觉,计算机视觉,transformer,人工智能

1.3 Adaptive Attention Span in Transformers

Transformers中的自适应注意力跨度

「方法简述：」论文提出了一种新的自注意力机制，可以学习其最优的注意力跨度。这使得我们可以显著扩展Transformer中使用的最大上下文大小，同时保持对内存占用和计算时间的掌控。作者在字符级语言建模任务上展示了该方法的有效性，在该任务中，作者使用最大8k个字符的上下文实现了在text8和enwiki8上最先进的性能。

nlptransformer模型优化,计算机视觉,计算机视觉,transformer,人工智能

二、Transformer处理长文本

2.1 Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

超越固定长度上下文的注意语言模型

「方法简述：」Transformers在语言建模中受到固定长度上下文的限制，作者提出了一种新的神经网络架构Transformer-XL，可以学习超过固定长度的依赖关系。它由一个段级别循环机制和一个新的位置编码方案组成，能够捕捉更长的依赖关系并解决上下文碎片化问题。该方法不仅在短序列和长序列上都取得了更好的性能，而且在评估期间比普通的Transformers快1,800+倍。

nlptransformer模型优化,计算机视觉,计算机视觉,transformer,人工智能

三、Transformer运行提效

3.1 REFORMER: THE EFFICIENT TRANSFORMER

高效的Transformer

「方法简述：」大型Transformer模型训练成本高，尤其是在长序列上。论文提出了两种技术来提高效率：使用局部敏感哈希替换点积注意力，将复杂度从O(L^2)降低到O(L log L)；使用可逆残差层代替标准残差，允许只存储一次激活。由此产生的Reformer模型在长序列上表现相当，但更内存高效和更快。

nlptransformer模型优化,计算机视觉,计算机视觉,transformer,人工智能

3.2 RETHINKING ATTENTION WITH PERFORMERS

重新思考注意力机制：Performer模型

「方法简述：」论文介绍了Performers，一种Transformer架构，可以以可证明的准确性估计常规（softmax）全秩注意力Transformers，但仅使用线性空间和时间复杂度。为了近似softmax注意力核，Performers使用了一种新颖的快速注意通过正交随机特征方法（FAVOR+），并可以用于高效地建模可核化的注意力机制。

nlptransformer模型优化,计算机视觉,计算机视觉,transformer,人工智能

3.3 Linformer: Self-Attention with Linear Complexity

具有线性复杂度的自注意力机制

「方法简述：」大型Transformer模型在自然语言处理应用中表现出色，但长序列的训练和部署成本很高。本文提出一种新自注意力机制，将复杂度从O(n^2)降低到O(n)，同时保持性能不变。由此产生的Linformer比标准的Transformer更节省时间和内存。

nlptransformer模型优化,计算机视觉,计算机视觉,transformer,人工智能

四、卷积Attention

4.1 Conformer: Convolution-augmented Transformer for Speech Recognition

用于语音识别的卷积增强Transformer

「方法简述：」Conformer是一种结合了卷积神经网络和Transformer的模型，用于语音识别。它能够同时捕捉音频序列的局部和全局依赖关系，并实现了最先进的准确率。在LibriSpeech基准测试中，Conformer在不使用语言模型的情况下实现了2.1％/4.3％的WER，在使用外部语言模型的情况下实现了1.9％/3.9％的WER。此外，它还具有竞争力的小模型，只有10M参数。

nlptransformer模型优化,计算机视觉,计算机视觉,transformer,人工智能

4.2 LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION

具有长短范围注意力的轻量级Transformer

「方法简述：」本文提出了一种高效的移动自然语言处理架构Lite Transformer，它使用长短范围注意力（LSRA）来提高性能。LSRA将一组头专门用于局部上下文建模（通过卷积），另一组头则专门用于长距离关系建模（通过注意力）。在三个语言任务上，Lite Transformer始终优于普通的Transformer。在受限资源下，Lite Transformer比Transformer在WMT’14英法翻译任务上高出1.2/1.7 BLEU分数。

nlptransformer模型优化,计算机视觉,计算机视觉,transformer,人工智能文章来源地址https://www.toymoban.com/news/detail-773468.html

到了这里，关于【计算机视觉 | Transformer】魔改Transformer！9种提速又提效的模型优化方案分享！的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

深度学习与计算机视觉：从CNN到Transformer

计算机视觉是人工智能领域的一个重要分支，它涉及到计算机自动识别和理解人类视觉中的图像和视频。深度学习是计算机视觉的核心技术之一，它借鉴了人类的思维和学习过程，通过神经网络模拟人类大脑中的神经元活动，实现了对图像和视频的自动处理和理解。深度学习

2024年02月02日
浏览(50)
【计算机视觉】Visual Transformer （ViT）模型结构以及原理解析

Visual Transformer (ViT) 出自于论文《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》，是基于Transformer的模型在视觉领域的开篇之作。本文将尽可能简洁地介绍一下ViT模型的整体架构以及基本原理。 ViT模型是基于Transformer Encoder模型的，在这里假设读者已经了解Transfo

2024年02月02日
浏览(47)
【计算机视觉】最新综述：南洋理工和上海AI Lab提出基于Transformer的视觉分割综述

SAM （Segment Anything ）作为一个视觉的分割基础模型，在短短的3个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解SAM背后的技术，并跟上内卷的步伐，并能做出属于自己的SAM模型，那么接下这篇Transformer-Based的Segmentation Survey是不容错过！近期，南洋理工大学和上

2024年02月12日
浏览(59)
深度学习与计算机视觉的新技术：从卷积神经网络到Transformer

深度学习是一种人工智能技术，它旨在模拟人类大脑中的神经网络，以解决复杂的问题。计算机视觉是人工智能的一个分支，旨在让计算机理解和解析人类视觉系统中的图像和视频。深度学习与计算机视觉的结合，使得计算机在处理图像和视频方面具有强大的能力。在过去的

2024年02月02日
浏览(52)
动手学CV-Pytorch计算机视觉使用transformer实现OCR字符识别

2024年01月20日
浏览(46)
医学图像分割方向优质的论文及其代码【Medical Image Segmentation】UNet、transformer、计算机视觉

作者：Yifei Chen, Chenyan Zhang, Yifan Ke, Yiyu Huang, Xuezhou Dai, Feiwei Qin 中文摘要：由于收集过程具有挑战性、标记成本高、信噪比低以及生物医学图像特征复杂，传统的监督学习方法在医学图像分割方面历来遇到一定的限制。本文提出了一种半监督模型DFCPS，创新性地融合了

2024年04月13日
浏览(51)
计算机视觉算法——基于Transformer的目标检测（DETR / Deformable DETR / Dynamic DETR / DETR 3D）

DETR是DEtection TRansformer的缩写，该方法发表于2020年ECCV，原论文名为《End-to-End Object Detection with Transformers》。传统的目标检测是基于Proposal、Anchor或者None Anchor的方法，并且至少需要非极大值抑制来对网络输出的结果进行后处理，涉及到复杂的调参过程。而DETR使用了Transformer

2024年02月09日
浏览(55)
【计算机视觉 | 注意力机制】13种即插即用涨点模块分享！含注意力机制、卷积变体、Transformer变体等

用即插即用的模块“缝合”，加入自己的想法快速搭积木炼丹。这种方法可以简化模型设计，减少冗余工作，帮助我们快速搭建模型结构，不需要从零开始实现所有组件。除此以外，这些即插即用的模块都具有标准接口，意味着我们可以很方便地替换不同的模块进行比较，加

2024年02月04日
浏览(49)
深度学习应用篇-计算机视觉-图像分类[3]：ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍

【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等专栏详细介绍：【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、

2024年02月14日
浏览(54)
计算机视觉计算机视觉识别是什么？

计算机视觉识别（Computer Vision Recognition）是计算机科学和人工智能领域中的一个重要分支，它致力于使计算机系统能够模拟和理解人类视觉的过程，从而能够自动识别、分析和理解图像或视频中的内容。这一领域的发展旨在让计算机具备视觉感知和理解的能力，使其能够从视

2024年02月07日
浏览(55)