【论文阅读】Pay Attention to MLPs

这篇具有很好参考价值的文章主要介绍了【论文阅读】Pay Attention to MLPs。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作者:Google Research, Brain Team

泛读:只关注其中cv的论述

提出了一个简单的网络架构,gMLP,基于门控的MLPs,并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用

【论文阅读】Pay Attention to MLPs,点云,论文阅读,笔记

提出了一个基于MLP的没有self-attention结构名为gMLP,仅仅存在静态参数化的通道映射(channel projections)和空间映射(spatial projections)

gMLP由  L 个如上图所示的模块堆叠而成

具有空间门控单元(SGU)的gMLP架构的概述。该模型由具有相同结构和大小的L个块的堆叠组成。所有的投影运算都是线性的,“ ⊙” 指的是逐元素乘法(线性门控)

CV上,使用gMLP做图片分类并在ImageNet上取得了与DeiT、ViT等Transformer模型相当的效果。与先前的MLP模型MLP-Mixer相比,gMLP做到了参数更少(参数减少66%)效果更强(效果提升3%)

【论文阅读】Pay Attention to MLPs,点云,论文阅读,笔记

总的来说,研究了Transformers关键语言和视觉应用中自我注意模块的必要性。具体来说,提出了一种基于mlp的Transformers替代方案,其中没有自我注意,它只是由通道投影和静态参数化的空间投影组成。我们对这种结构的几个设计选择进行了实验,发现当空间投影是线性的并与乘法门控配对时,效果很好。该模型命名为gMLP,因为它是由带有门控的基本MLP层构建而成的。文章来源地址https://www.toymoban.com/news/detail-691095.html

到了这里,关于【论文阅读】Pay Attention to MLPs的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读:Attention is all you need

    【最近课堂上Transformer之前的DL基础知识储备差不多了,但学校里一般讲到Transformer课程也接近了尾声;之前参与的一些科研打杂训练了我阅读论文的能力和阅读源码的能力,也让我有能力有兴趣对最最源头的论文一探究竟;我最近也想按照论文梳理一下LLM是如何一路发展而来

    2024年01月18日
    浏览(46)
  • 论文阅读 Attention is all u need - transformer

    提出一个仅需要self attention + linear组合成encoder+decoder的模型架构 2.2.1 对比seq2seq,RNN Self Attention 输入token转为特征输入 shape [n(序列长度), D(特征维度)] 输入 进入attention模块 输出 shape [n(序列长度), D1(特征维度)] 此时每个D1被N个D做了基于attention weight的加权求和 进入MLP 输出 sha

    2024年02月01日
    浏览(39)
  • 论文阅读NAM:Normalization-based Attention Module

    识别不太显著的特征是模型压缩的关键。然而,在革命性的注意力机制中却没有对其进行研究。在这项工作中,我们提出了一种新的基于归一化的注意力模块(NAM),它抑制了不太显著的权重。它对注意力模块应用了权重稀疏性惩罚,从而使它们在保持类似性能的同时具有更

    2024年04月22日
    浏览(38)
  • Abandoning the Bayer-Filter to See in the Dark 论文阅读笔记

    这是CVPR2022的一篇暗图增强的文章,TCL AI Lab与福州大学,韩国延世大学,安徽大学的合作论文 网络以黑暗环境下拍摄的color raw为输入,用一个de-bayer-filter module恢复无拜尔滤波器的raw data(文章认为拜尔滤波器使得光子数量被滤去许多,无拜尔滤波器的摄像机拍摄得到的raw d

    2024年02月16日
    浏览(48)
  • 【论文阅读笔记】Local Model Poisoning Attacks to Byzantine-Robust Federated Learning

    个人阅读笔记,如有错误欢迎指出! 会议: Usenix 2020 [1911.11815] Local Model Poisoning Attacks to Byzantine-Robust Federated Learning (arxiv.org) 问题:         模型攻击对拜占庭鲁棒性联邦学习的攻击效果尚未清楚 创新点:         1、基于不同防御方法,设计了具有针对性的模型攻击

    2024年02月10日
    浏览(60)
  • ExposureDiffusion: Learning to Expose for Low-light Image Enhancement论文阅读笔记

    南洋理工大学、鹏城实验室、香港理工大学在ICCV2023发表的暗图增强论文。用diffusion模型来进行raw图像暗图增强,同时提出了一个自适应的残差层用来对具有不同信噪比的不同区域采取不同的去噪策略。 方法的框图如下所示: 一张raw图片可以由信号和噪声组成,其中信号是曝

    2024年02月07日
    浏览(40)
  • [论文阅读]Coordinate Attention for Efficient Mobile Network Design

      最近关于移动网络设计的研究已经证明了通道注意力(例如, the Squeeze-and-Excitation attention)对于提高模型的性能有显著的效果,但它们通常忽略了位置信息,而位置信息对于生成空间选择性注意图非常重要。在本文中,我们提出了一种新的移动网络注意力机制,将位置信息

    2024年02月07日
    浏览(49)
  • 论文阅读 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插帧的文章,q,kv,来自不同的图像 代码:【here】 传统的插帧方法多用光流,但是光流的局限性在于 第一:它中间会算至少两个 cost volumes,它是四维的,计算量非常大 第二:光流不太好处理遮挡(光流空洞)以及运动的边缘(光流不连续)

    2024年02月09日
    浏览(42)
  • 【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention

    Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html Perceiver:迭代关注的

    2024年02月20日
    浏览(39)
  • RIS 系列 Beyond One-to-One: Rethinking the Referring Image Segmentation 论文阅读笔记

    写在前面   又是一周,没思路调代码囧么办?当然是继续淦论文了,(┬_┬) 论文地址:Beyond One-to-One: Rethinking the Referring Image Segmentation 代码地址:https://github.com/toggle1995/RIS-DMMI 收录于:ICCV2023 Ps:2023 年每周一篇博文阅读笔记,主页 更多干货,欢迎关注呀,期待 6 千粉丝

    2024年02月20日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包