Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

这篇具有很好参考价值的文章主要介绍了Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

相关链接:arxiv github
关键字:Vision-RWKVVisual PerceptionLinear AttentionRWKVTransformer

摘要

Transformers 在计算机视觉和自然语言处理领域引起了革命,但它们的高计算复杂度限制了它们在高分辨率图像处理和长上下文分析中的应用。本文介绍了 Vision-RWKV (VRWKV),这是一个从NLP领域的RWKV模型改编而来,对视觉任务做了必要修改的模型。与ViT(Vision Transformer)类似,我们的模型旨在高效处理稀疏输入,并展示出强大的全局处理能力,同时也能有效地扩展,适应大规模参数和大量数据集。它的独特优势在于它降低了空间聚合的复杂性,使其能够无缝处理高分辨率图像,无需窗口操作。我们在图像分类评估中证明了VRWKV在显著提高速度和降低内存使用的同时,能达到与ViT相当的分类性能。在密集预测任务中,它也优于基于窗口的模型,并保持了相近的速度。这些结果突显了VRWKK作为视觉感知任务更高效替代方案的潜力。

核心方法

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures,LLM,人工智能,深度学习,机器学习,语言模型

  • Quad-directional Shift (Q-Shift): 对视觉任务量身定制的数据转换方法,通过四向移位和线性插值扩展了单个代币的语义范围。
  • Bidirectional Global Attention Mechanism: 转换了原始的RWKV注意力机制为双向全局注意力机制,以线性计算复杂度在RNN形式的前向和后向中计算全局注意力。
  • 在RWKV注意力机制中进行调整,去除了衰变向量的限制,将绝对位置偏差转化为相对偏差,增强了模型处理能力的同时确保了可扩展性和稳定性。
  • 为了稳定模型的输出,在不断扩大的网络中引入了额外的层归一化(Layer Normalization)。

实验说明

以下是部分实验结果的展示:

Method #Param FLOPs Top-1 Acc
DeiT-T [48] 5.7M 1.3G 72.2
DeiT-S [48] 22.1M 4.6G 79.9
DeiT-B [48] 86.6M 17.6G 81.8
ViT-L [13] 309.5M 191.1G 85.2
VRWKV-T 6.2M 1.2G 75.1
VRWKV-S 23.8M 4.6G 80.1
VRWKV-B 93.7M 18.2G 82.0
VRWKV-L 334.9M 189.5G 85.3

详细说明:

  • 参数量(#Param)和计算量(FLOPs)表示了模型的大小和处理一个224×224分辨率图像时的工作量。
  • Top-1 准确率是指在ImageNet-1K数据集上进行图像分类任务的准确率。
  • 可以看出,VRWKV在各个尺寸的模型中与ViT表现相当,但在计算资源使用上更为高效。

结论

我们提出的Vision-RWKV (VRWKV) 是一个具有线性计算复杂度注意力机制的高效视觉编码器。我们证明它在包括分类、密集预测和掩模图像建模预训练等综合视觉任务中可以作为ViT的一个替代后骨架。与ViT相比,VRWKV展示了类似的性能和可扩展性,并且具有更低的计算复杂性和内存消耗。得益于它的低复杂性,VRWKV在一些ViT难以负担全局注意力高计算开销的任务中,可以实现更好的性能。我们希望VRWKV能成为ViT的一个高效和低成本的替代方案,在视觉领域展示出线性复杂度Transformers的强大潜力。文章来源地址https://www.toymoban.com/news/detail-840476.html

到了这里,关于Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】Perception, Planning, Control, and Coordination for Autonomous Vehicles

    单纯作为阅读笔记,文章内容可能有些混乱。 作者先介绍了一些关于自动驾驶汽车在未来城市交通系统中的潜在作用,包括增加安全性、提高生产力、提高可达性、提高道路效率以及对环境的积极影响;接着介绍自动驾驶汽车的起源与发展,当然少不了介绍DARPA;作者还介绍

    2024年02月08日
    浏览(42)
  • 多标签分类论文笔记 | ML-Decoder: Scalable and Versatile Classification Head

    个人论文精读笔记,主要是翻译+心得,欢迎旁观,如果有兴趣可以在评论区留言,我们一起探讨。 Paper: https://arxiv.org/pdf/2111.12933.pdf Code: https://github.com/Alibaba-MIIL/ML_Decoder 翻译 本文介绍了一种新的基于注意力的分类头——ML-Decoder。ML-Decoder通过查询预测类标签的存在,与全局

    2024年02月05日
    浏览(43)
  • 大一统模型 Universal Instance Perception as Object Discovery and Retrieval 论文阅读笔记

    写在前面   马上又是一周周末了,开始写论文博客啦。   这是一篇顶会文章,标题很清楚,就是一个一统的框架用于解决各种任务。这类文章在 21 年的时候挺多的,现在倒是不常见了。因为需要的资源很多,外部数据集也很庞大,一般的小资源团队基本搞不定。但一旦

    2024年02月04日
    浏览(56)
  • 论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing

    H. Liao et al., “Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing : Industry Track Paper,” 2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA), Seoul, Korea (South), 2021, pp. 789-801, doi: 10.1109/HPCA51647.2021.00071. 计算核内cube、vector、scaler部件的指令同步 昇腾910包

    2024年03月11日
    浏览(91)
  • 【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement 原文链接:https://ieeexplore.ieee.org/abstract/document/10363646 本文的3DOPFormer使用空间交叉注意力机制和反卷积恢复3D占用,然后基于激光雷达射线方向特征提出优化3D占用感知模型的新方法。使

    2024年01月25日
    浏览(42)
  • LLaMA: Open and Efficient Foundation Language Models

    用最少的计算资源,解决了LLM大模型预测问题,训练了一些列的LLaMa模型,在参数量比较少的情况下,达到业界大模型效果。 主要贡献就是提升了LLM模型的训练速度和效率,在小容量的基础上,大大提升了模型的效果。 同时由于模型结构更小更简单,大大提升了推理速度。

    2024年02月13日
    浏览(43)
  • LLaMA:Open and Efficient Foundation Language Models

    在大规模数据下训练的大模型,已经展示了很好的表现,当模型足够大的时,模型会出现一个 涌现 的能力,如下图: 最近的一项研究表明,在有限的算力下,表现最好的模型不是参数最大的,而是小一点模型搭配了更多数据。 这项工作的重点是训练一系列语言模型,通过对

    2024年02月09日
    浏览(40)
  • LLaMA Open and Efficient Foundation Language Models

    来源Meta AI github地址: facebookresearch/ llama 论文:LLaMA: Open and Efficient Foundation Language Models 模型:目前可以在huggingface上直接下载,https://huggingface.co/decapoda-research 包括: LLaMA-7B LLaMA-13B LLaMA-33B LLaMA-65B 一、摘要 我们介绍了LLaMA,这是一组从7B到65B参数范围内的基础语言模型。我们

    2024年02月11日
    浏览(72)
  • 技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

    首先作者说了最近ChatGPT等模型在AGI领域表现出了很好的性能,但是收到算力、闭源的限制,阻碍了研究。 然后Meta与MIT分别开源了LLaMA、Alpaca,这让研究有了希望。 然后作者说这两个模型是基于英文预料训练的,词表中的中文只有几百个,中文性能不好,然后作者通过扩充词

    2024年02月09日
    浏览(41)
  • LLaMA: Open and Efficient Foundation Language Models笔记

    一个基础语言模型的集合,参数范围从7B到65B 在数万亿的token上训练的模型,不依赖于专有的和不可访问的数据集 大多数基准测试中优于GPT-3 (175B) LLaMA65B与最好的模型Chinchilla-70B和PaLM-540B具有竞争力 全部模型开源!! 最近的工作表明,对于给定的计算预算,最佳性能不是由最

    2024年02月09日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包