论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作

这篇具有很好参考价值的文章主要介绍了论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  •  
    • 摘要

      一、简介

      3研究方法

      3.1标准卷积操作回顾

      3.2空间注意力回顾

      3.3 空间注意与标准卷积运算

      3.4创新空间注意力和标准卷积操作


      入数据
  • 总结

摘要

空间注意力被广泛用于提高卷积神经网络的性能。但是,它也有一定的局
限性。本文提出了空间注意有效性的新视角,即空间注意机制从本质上解决了
卷积核参数共享问题。
然而,空间注意生成的注意图所包含的信息对于大尺寸
卷积核是不够的。因此,我们提出了一种新的注意机制——接受场注意
(RFA)。现有的空间注意,如卷积块注意模块(CBAM)和协调注意模块(CA)只关
注空间特征,没有完全解决卷积核参数共享的问题。相比之下,RFA不仅关注
接收域空间特征,而且为大规模卷积核提供了有效的注意权值。RFA开发的接
受域注意力卷积运算(RFA- Conv)是一种替代标准卷积运算的新方法。它提供
了几乎可以忽略不计的计算成本和参数增量,同时显著提高了网络性能。
我们
在ImageNet-1k、COCO和VOC数据集上进行了一系列的实验,以证明我们的
方法的优越性。特别重要的是,我们认为现在是时候将注意力从空间特征转移
到当前的空间注意机制的接受场空间特征。这样可以进一步提高网络性能,达
到更好的效果。相关任务的代码和预先训练的模型可以在 https://github.com/
Liuchen1997/RFAConv上找到。


提示:以下是本篇文章正文内容,下面案例可供参考

一、简介

       对于分类、目标检测和语义分割任务,一方面,目标在图像中不同位置的形状、大小、颜色和分布是可变的。而在卷积运算过程中,卷积核在各个接收域使用相同的参数来提取信息,不考虑来自不同位置的差异信息。因此,网络的性能是有限的,正如最近的作品所证明的[11,12,13]。另一方面,卷积过程没有考虑到每个特征的重要性,进一步降低了提取特征的效率,最终限制了模型的性能。此外,注意机制[14,15,16]使模型能够集中于显著特征上,增强了特征提取的效益和卷
积神经网络捕获详细特征信息的能力。

      通过考察卷积操作的内在局限性和注意机制的性质,我们认为当前的空间注意机制虽然从根本上解决了卷积操作中的参数共享问题,但仍局限于空间特征的识别。目前的空间注意机制并不能完全解决大卷积核的参数共享问题。此外,他们不能强调每个特征在接受域的重要性,如现有的卷积块注意模块 (Convolutional BlockAttention Module, CBAM)[17]和协调注意模块(Coordinate Attention, CA)[18]。因此,我们提出一种新颖的接受域注意(RFA),它全面地解决了卷积核的参数共享问题,并考虑了接受域中每个特征的重要性。RAF设计的卷积运算(RFAConv)是一种开创性的方法,可以取代目前神经网络中的标准卷积运算。RFAConv只需要一些额外的参数和计算开销,就可以提高网络性能。在 ImagNet- 1k[19]、COCO[20]、VOC[21]上进行的大量实验证明了 RFAConv 的有效性。 RFAConv 作为一种基于注意的卷积运算,其性能优于CAMConv、CBAM- Conv、CAConv(分别由CAM[17]、CBAM、CA构造)以及标准的卷积运算。此外,为了解决现有方法提取接受域特征速度慢的问题,我们提出了一种轻量级操作。在构建 RFAConv的过程中,我们还设计了CBAM和CA的升级版本,并进行了相关实验。我们认为,空间注意机制应关注接受场空间特征,以进一步推进卷积神经网络的发展,增强其优势。

3研究方法

3.1标准卷积操作回顾

标准的卷积操作是构造卷积神经网络的基本构件。它利用具有共享参数的滑动窗口提取特征信息,克服了全连通层构造神经网络固有的参数多、计算开销大的问题。设 X R∈C×H×W
表示输入特征图,其中C、H、W分别表示特征图的通道数、高度、宽度。为了清楚地演示卷积核的特征提取过程,我们使用 C = 1 的例子。从每个接受域滑块中提取特征信息的卷积运算可以表示为:论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作,论文阅读

这里,Fi 表示计算后每个卷积滑块得到的值,Xi 表示每个滑块内对应位置的像素值,K表示卷积核,S表示卷积核中的参数个数,N表示接收域滑块的总数。可以看出,每个滑块内相同位置的 feature共享相同的参数Ki。因此,标准的卷积运算并不能捕捉到不同位置所带来的信息差异,这最终在一定程度上限制了卷积神经网络的性能。 

3.2空间注意力回顾

目前,空间注意机制是利用学习得到的注意图来突出每个特征的重要性。与前一节类似,这里以 C=1为例。突出关键特征的空间注意机制可以简单表述为:论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作,论文阅读这里,Fi 表示加权运算后得到的值。xi 和Ai 表示输入特征图和学习到的注意图在不同位置的值,N为输入特征图的高和宽的乘积,表示像素值的总数。

3.3 空间注意与标准卷积运算

将注意力机制整合到卷积神经网络中,可以提高卷积神经网络的性能。通过对标准卷积运算和现有空间注意机制的研究,我们认为空间注意机制有效地克服了卷积神经网络固有的参数共享的局限性。目前卷积神经网络中最常用的核大小是 1 × 1和3 × 3。在引入空间注意机制后,提取特征的卷积操作可以是 1 × 1或3 × 3卷积操作。为了直观地展示这个过程,在 1 × 1卷积运算的前面插入了空间注意机制。通过注意图对输入特征图(Re-weight“×”)进行加权运算,最后通过 1 × 1卷积运算提取接收域的滑块特征信息。整个过程可以简单地表示如下:论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作,论文阅读

 这里卷积核K仅代表一个参数值。如果取A i× ki 的值作为一种新的卷积核参数,有趣的是它解决了 1×1卷积运算提取特征时的参数共享问题。然而,关于空间注意机制的传说到此结束。当空间注意机制被插入到3×3卷积运算前面时。具体情况如下:论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作,论文阅读

如上所述,如果取A的值 i × ki (4)式作为一种新的卷积核参数,完全解决了大规模卷积核的参数共享问题。然而,最重要的一点是,卷积核在提取每个接受域滑块的特征时,会共享一些特征。换句话说,每个接收域滑块内都有一个重叠。仔细分析后会发现A12= a21, a13 = a22, a15 = a24……,在这种情况下,每个滑动窗口共享空间注意力地图的权重。因此,空间注意机制没有考虑整个接受域的空间特征,不能有效地解决大规模卷积核的参数共享问题。因此,空间注意机制的有效性受到限制。 

3.4创新空间注意力和标准卷积操作

RFA的提出解决了现有空间注意机制的局限性,为空间处理提供了一种创新的解决方案。受RFA的启发,一系列空间注意机制被开发出来,可以进一步提高卷积神经网络的性能。RFA可以看作是一个轻量级即插即用模块,RFA设计的卷积运算(RFAConv)可以代替标准卷积来提高卷积神经网络的性能。因此,我们预测空间注意机制与标准卷积运算的结合将继续发展,并在未来带来新的突破。
接受域空间特征:为了更好地理解接受域空间特征的概念,我们将提供相关的定义。接收域空间特征是专门为卷积核设计的,并根据核大小动态生成。如图1所示,以3×3卷积核为例。在图1中,“Spatial Feature”指的是原始的Feature map。“接受域空间特征”是空间特征变换后的特征图,
论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作,论文阅读

   图1。通过对空间特征进行变换,得到接收域空间特征。

由不重叠的滑动窗口组成。当使用 3×3卷积内核提取特征时,接收域空间特征中的每个 3×3大小窗口代表一个接收域滑块。接受域注意卷积(RFAConv):针对接受域的空间特征,我们提出了接受域注意卷积(RFA)。该方法不仅强调了接收域滑块内不同特征的重要性,而且对接收域空间特征进行了优先排序。通过该方法,完全解决了卷积核参数共享的问题。接受域空间特征是根据卷积核的大小动态生成的,因此,RFA是卷积的固定组合,不能与卷积操作的帮助分离,卷积操作同时依赖于RFA来提高性能,因此我们提出了接受场注意卷积(RFAConv)。具有3×3大小的卷积核的RFAConv整体结构如图2所示。论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作,论文阅读

 图二。RFAConv的详细结构,动态地确定各特征在接受域中的重要性,解决了参数共享问题。

目前,最广泛使用的接受域特征提取方法是缓慢的。经过大量的研究,我们开发了一种快速的方法,用分组卷积来代替原来的方法。具体来说,我们利用相应大小的分组卷积来动态生成基于接受域大小的展开特征。尽管与原始的无参数方法(如PyTorch提供的nn.())相比,该方法增加了一些参数,但它的速度要快得多。注意:如前一节所述,当使用 3×3卷积内核提取特征时,接收域空间特征中的每个 3×3大小窗口表示一个接收域滑块。而利用快速分组卷积提取感受野特征后,将原始特征映射为新的特征。最近的研究表明。交互信息可以提高网络性能,如[40,41,42]所示。同样,对于RFAConv来说,通过交互接受域特征信息来学习注意图可以提高网络性能。然而,与每个接收域特征交互会导致额外的计算开销,因此为了最小化计算开销和参数的数量,我们使用AvgPool来聚合每个接收域特征的全局信息。然后,使用 1×1 组卷积操作进行信息交互。最后,我们使用softmax来强调每个特征在接受域特征中的重要性。一般情况下,RFA的计算可以表示为:
论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作,论文阅读
这里gi×i 表示一个大小为 i×i的分组卷积,k表示卷积核的大小,Norm表示归一化,X表示输入的特征图,F由注意图 a相乘得到 rf 与转换后的接受域空间特征 Frf。与CBAM和CA不同,RFA能够为每个接受域特征生成注意图。卷积神经网络的性能受到标准卷积操作的限制,因为卷积操作依赖于共享参数,对位置变化带来的信息差异不敏感。然而,RFAConv通过强调接收域滑块中不同特征的重要性,并对接收域空间特征进行优先级排序,可以完全解决这个问题。通过RFA得到的feature map是接受域空间特征,在“Adjust Shape”后没有重叠。因此,学习到的注意图将每个接受域滑块的特征信息聚合起来。换句话说,注意力地图不再共享在每个接受域滑块。这完全弥补了现有 CA和CBAM注意机制的不足。RFA为标准卷积内核提供了显著的好处。而在调整形状后,特征的高度和宽度是 k倍,需要进行 stride = k的k × k卷积运算来提取特征信息。RFA设计的卷积运算RFAConv为卷积带来了良好的增益,对标准卷积进行了创新。
此外,我们认为现有的空间注意机制应该优先考虑接受域空间特征,以提高网络性能。众所周知,基于自注意机制的网络模型[43,44,45]取得了很大的成功,因为它解决了卷积参数共享的问题,并对远程信息进行建模。然而,自注意机制也为模型引入了显著的计算开销和复杂性。我们认为,将现有的空间注意机制的注意力引导到接受场空间特征上,可以以类似于自我注意的方式解决长期信息的参数共享和建模问题。与自我关注相比,这种方法需要的参数和计算资源少得多。答案如下:(1)将以接收场空间特征为中心的空间注意机制与卷积相结合,消除了卷积参数共享的问题。(2)现有的空间注意机制已经考虑了远程信息,可以通过全局平均池或全局最大池的方式获取全局信息,其中明确考虑了远程信息。因此,我们设计了新的 CBAM和CA模型,称为RFCBAM和RFCA,它们专注于接受域空间特征。与RFA类似,使用最终的k × k stride = k 的卷积运算来提取特征信息。这两种新的卷积方法的具体结构如图 3所示,我们称这两种新的卷积操作为 RFCBAMConv和RFCAConv。与原来的CBAM相比,我们在RFCBAM中使用SE attention来代替CAM。因为这样可以减少计算开销。此外,在RFCBAM中,通道注意和空间注意不是分开执行的。相反,它们是同时加权的,使得每个通道获得的注意力地图是不同的。

 论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作,论文阅读

 文章来源地址https://www.toymoban.com/news/detail-759827.html

到了这里,关于论文阅读:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:创新空间注意力和标准卷积操作的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 论文阅读笔记

    写在前面   这周得加更两篇论文阅读笔记,完成 2023 的 flag。   此论文也是 Arxiv 比较新的文章,设计了一个大一统模型,解决图像和视频的指代分割问题,应该是篇大佬工作。 论文地址:UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 代码地址:https://github.com

    2024年02月03日
    浏览(45)
  • 论文阅读:Attention is all you need

    【最近课堂上Transformer之前的DL基础知识储备差不多了,但学校里一般讲到Transformer课程也接近了尾声;之前参与的一些科研打杂训练了我阅读论文的能力和阅读源码的能力,也让我有能力有兴趣对最最源头的论文一探究竟;我最近也想按照论文梳理一下LLM是如何一路发展而来

    2024年01月18日
    浏览(48)
  • 【论文阅读笔记】Attention Is All You Need

      这是17年的老论文了,Transformer的出处,刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。   在此论文之前,序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构,是完全基于注意力机制

    2024年04月13日
    浏览(42)
  • 论文阅读 Attention is all u need - transformer

    提出一个仅需要self attention + linear组合成encoder+decoder的模型架构 2.2.1 对比seq2seq,RNN Self Attention 输入token转为特征输入 shape [n(序列长度), D(特征维度)] 输入 进入attention模块 输出 shape [n(序列长度), D1(特征维度)] 此时每个D1被N个D做了基于attention weight的加权求和 进入MLP 输出 sha

    2024年02月01日
    浏览(40)
  • 论文阅读NAM:Normalization-based Attention Module

    识别不太显著的特征是模型压缩的关键。然而,在革命性的注意力机制中却没有对其进行研究。在这项工作中,我们提出了一种新的基于归一化的注意力模块(NAM),它抑制了不太显著的权重。它对注意力模块应用了权重稀疏性惩罚,从而使它们在保持类似性能的同时具有更

    2024年04月22日
    浏览(39)
  • 论文阅读 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插帧的文章,q,kv,来自不同的图像 代码:【here】 传统的插帧方法多用光流,但是光流的局限性在于 第一:它中间会算至少两个 cost volumes,它是四维的,计算量非常大 第二:光流不太好处理遮挡(光流空洞)以及运动的边缘(光流不连续)

    2024年02月09日
    浏览(44)
  • [论文阅读]Coordinate Attention for Efficient Mobile Network Design

      最近关于移动网络设计的研究已经证明了通道注意力(例如, the Squeeze-and-Excitation attention)对于提高模型的性能有显著的效果,但它们通常忽略了位置信息,而位置信息对于生成空间选择性注意图非常重要。在本文中,我们提出了一种新的移动网络注意力机制,将位置信息

    2024年02月07日
    浏览(53)
  • 【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention

    Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html Perceiver:迭代关注的

    2024年02月20日
    浏览(42)
  • 【论文阅读笔记】RAAGR2-Net: A brain tumor segmentation network using parallel processing of multiple spatial

    Rehman M U, Ryu J, Nizami I F, et al. RAAGR2-Net: A brain tumor segmentation network using parallel processing of multiple spatial frames[J]. Computers in Biology and Medicine, 2023, 152: 106426.【开放源码】 【论文核心思想概述】 本文介绍了一种名为RAAGR2-Net的新型脑肿瘤分割网络,这是一个基于编码器-解码器架构,用

    2024年02月03日
    浏览(43)
  • EfficientViT: Memory Efficient Vision Transformer withCascaded Group Attention论文阅读

    高效的记忆视觉transformer与级联的群体注意 摘要。 视觉transformer由于其高模型能力而取得了巨大的成功。然而,它们卓越的性能伴随着沉重的计算成本,这使得它们不适合实时应用。在这篇论文中,我们提出了一个高速视觉transformer家族,名为EfficientViT。我们发现现有的tran

    2024年01月22日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包