【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention

这篇具有很好参考价值的文章主要介绍了【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., & Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila & T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html

Perceiver:迭代关注的通用感知

摘要
这篇论文介绍了Perceiver,这是一种建立在Transformer基础上的模型。它在处理来自视觉、听觉、触觉、本体感觉等多种形式的高维输入时,不像深度学习中的感知模型那样被设计为针对单一模态。相反,传统的感知模型通常依赖于特定于领域的假设,例如几乎所有现有视觉模型都利用的局部网格结构。这些先验引入了有用的归纳偏见,但也使模型被锁定到单个模态。

Perceiver模型利用不对称的注意力机制,将输入迭代地提炼为一个紧凑的潜在瓶颈,使其能够扩展以处理非常大的输入。论文展示了这种架构在各种模态的分类任务上与或优于强大的专门模型:图像、点云、音频、视频和视频+音频。Perceiver在ImageNet上通过直接关注50,000像素而获得了与ResNet-50和ViT相媲美的性能,而不需要2D卷积。在AudioSet中,它在所有模态中都表现出竞争力。

【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention,论文阅读
图1:Perceiver是一种基于关注机制原理的架构,能够处理高维输入,如图像、视频、音频、点云和多模态组合,而不做特定于领域的假设。Perceiver使用交叉注意力模块,将高维输入字节数组投影到一个固定维度的潜在瓶颈(输入索引数M远远大于潜在索引数N),然后使用潜在空间中的一堆Transformer风格的自注意力块进行处理。Perceiver通过交替使用交叉注意力和潜在自注意力块,对输入字节数组进行迭代式关注。

【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention,论文阅读
图2:我们在来自ImageNet(Deng等人,2009)的图像(左侧),AudioSet(Gemmeke等人,2017)的视频和音频(既考虑多模态也考虑单模态)(中间),以及ModelNet40(Wu等人,2015)的3D点云(右侧)上对Perceiver架构进行训练。基本上不需要进行架构上的更改,就可以在各种不同的输入数据上使用该模型。

【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention,论文阅读
表1:在ImageNet上的Top-1验证准确率(以%表示)。使用2D卷积的模型在架构上利用了特定领域的网格结构,而仅使用全局注意力的模型则没有这样的假设。第一个模块报告了从像素获得的标准性能 - 这些数字来自文献。第二个模块显示了当输入是RGB值与2D傅里叶特征(FF)串联在一起时的性能 - 这与Perceiver接收的输入相同。这个模块使用我们对基线的实现。Perceiver在ImageNet上与标准基线竞争,而不依赖于特定领域的架构假设。

【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention,论文阅读
图3:来自我们在ImageNet上表现最佳模型的第一、第二和第八(最后)个交叉关注层的注意力图(参见表1)。在该模型中,交叉关注模块2-8共享权重。第1行:原始图像和来自每个这些层的一个注意力图的局部放大图。第2-4行:交叉关注模块的注意力图概览。注意力图似乎以一系列空间频率的格子状图案扫描输入图像。可视化的注意力图没有叠加在输入图像上:任何明显的图像结构都存在于注意力图本身中(狗在第一个模块的注意力图中清晰可见)。文章来源地址https://www.toymoban.com/news/detail-828779.html

到了这里,关于【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《论文阅读》SetGNER:General Named Entity Recognition as Entity Set Generation

    不知道是不是大模型的流行还是什么其他原因,导致现在网上都没有人来分享NER模型的相关论文了~ 本文方法简单,代码应该也比较简单(但是没见作者放出来)。 推荐指数:★★☆☆☆ 处理三种不同场景的NER 与 sequence-to-sequence NER 方法不同,本模型不需要强制实体按照顺序

    2023年04月21日
    浏览(45)
  • 论文阅读-A General Language for Modeling Social Media Account Behavior

      论文链接:https://arxiv.org/pdf/2211.00639v1.pdf 目录 摘要 1 Introduction 2 Related work 2.1 Automation 2.2 Coordination 3 Behavioral Language for Online Classification  3.1 BLOC alphabets 3.1.1 Action alphabet 3.1.2 Content alphabets 3.2 BLOC models 3.2.1语言模式 3.2.2 Vector models 4 Discriminative power of BLOC 4.1 Characterizing individu

    2024年02月09日
    浏览(42)
  • 论文阅读 - Coordinated Behavior on Social Media in 2019 UK General Election

    论文链接: https://arxiv.org/abs/2008.08370 目录 摘要: Introduction Contributions Related Work Dataset Method Overview Surfacing Coordination in 2019 UK GE Analysis of Coordinated Behaviors         协调的在线行为是信息和影响力行动的重要组成部分,因为它们可以更有效地传播虚假信息。 大多数关于协同

    2024年02月07日
    浏览(42)
  • 【论文阅读】Uformer:A General U-Shaped Transformer for Image Restoration

    🐳博客主页:😚睡晚不猿序程😚 ⌚首发时间:2023.6.8 ⏰最近更新时间:2023.6.8 🙆本文由 睡晚不猿序程 原创 🤡作者是蒻蒟本蒟,如果文章里有任何错误或者表述不清,请 tt 我,万分感谢!orz 目录 🚩前言 1. 内容简介 2. 论文浏览 3. 图片、表格浏览 4. 引言浏览 5. 方法 5.

    2024年02月08日
    浏览(46)
  • 论文阅读综述:自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    题目 :Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自动驾驶感知的多模态传感器融合:综述 链接 :https://arxiv.org/abs/2202.02703 只翻译了个人认为比较重要的东西,有些官方话就省了。这篇文章通俗易懂,不过综述都是标记文献[xx]干了啥,其实咱也不知道他具体是咋

    2023年04月08日
    浏览(51)
  • 图像融合论文阅读:IFCNN: A general image fusion framework based on convolutional neural network

    @article{zhang2020ifcnn, title={IFCNN: A general image fusion framework based on convolutional neural network}, author={Zhang, Yu and Liu, Yu and Sun, Peng and Yan, Han and Zhao, Xiaolin and Zhang, Li}, journal={Information Fusion}, volume={54}, pages={99–118}, year={2020}, publisher={Elsevier} } 论文级别:SCI A1 影响因子:18.6 📖 该论文是【

    2024年02月03日
    浏览(46)
  • XLINK (SIGCOMM ‘21) MPQUIC多路径传输论文阅读笔记

    论文及视频:XLINK: QoE-driven multi-path QUIC transport in large-scale video services XLINK设计思想: 结合MPQUIC与短视频应用——传输层应用层协同 通过重注入来解决HoL阻塞以最大化QoE,同时最小化重注入成本 XLINK的核心贡献: MPQUIC+短视频大规模部署经验 基于播放器buffer的重注入调节策略

    2024年02月10日
    浏览(37)
  • 《论文阅读21》Equivariant Multi-View Networks

    研究领域:计算机视觉 | 多视角数据处理中实现 等变性 论文:Equivariant Multi-View Networks ICCV 2019 论文链接 视频链接 在计算机视觉中,模型在不同视角下对数据(例如,点云、图像等)对数据的变化具有一定的响应性。为了使模型能够更好地适应这种变化,不是仅仅对某个特定

    2024年02月10日
    浏览(44)
  • 《论文阅读:Dataset Condensation with Distribution Matching》

    点进去这篇文章的开源地址,才发现这篇文章和DC DSA居然是一个作者,数据浓缩写了三篇论文,第一篇梯度匹配,第二篇数据增强后梯度匹配,第三篇匹配数据分布。DC是匹配浓缩数据和原始数据训练一次后的梯度差,DSA是在DC前加入了一层数据增强,DM直接就匹配浓缩数据和

    2024年02月08日
    浏览(44)
  • 【论文阅读笔记】Contrastive Learning with Stronger Augmentations

    基于提供的摘要,该论文的核心焦点是在对比学习领域提出的一个新框架——利用强数据增强的对比学习(Contrastive Learning with Stronger Augmentations,简称CLSA)。以下是对摘要的解析: 问题陈述: 表征学习(representation learning)已在对比学习方法的推动下得到了显著发展。 当前

    2024年02月19日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包