【ICCV2023】Scale-Aware Modulation Meet Transformer

这篇具有很好参考价值的文章主要介绍了【ICCV2023】Scale-Aware Modulation Meet Transformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Scale-Aware Modulation Meet Transformer, ICCV2023

论文:https://arxiv.org/abs/2307.08579

代码:https://github.com/AFeng-x/SMT

解读:ICCV2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花? - 知乎 (zhihu.com)

摘要

本文提出了一种新的视觉变换器——尺度感知调制变换器(Scale-Aware Modulation Transformer, SMT),通过将CNN和ViT相结合,可以有效地处理各种下游任务。SMT中提出的尺度感知调制(SAM)包括两个主要的新颖设计:

  • 多头混合卷积(MHMC)模块,该模块可以捕捉多尺度特征并扩展感受野。
  • 规模感知聚合(SAA)模块,该模块重量轻但有效,能够实现不同头部的信息融合。通过利用这两个模块,卷积调制得到了进一步增强。

此外,本文提出一种进化混合网络(Evolutionary Hybrid Network,EHN),它可以有效地模拟随着网络变得更深而从捕获局部依赖性到全局依赖性的转变,从而获得更优的性能。在ImagNet、COCO以及ADE20k等任务上都验证了该模型的有效性。SMT在ImageNet-22k上预训练后以仅仅80.5M的参数量在ImageNet-1k上达到了88.1%的精度。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

简介

对于多层级的网络架构来说,由于浅层特征图分辨率大的原因,使用ViT的自注意力的二次复杂性会带来严重的计算负担。因此,如何为浅层stage设计高效的attention计算机制是十分重要的。

  • 以往的大部分Hierarchical(Multi-scale)的模型,以Swin为代表,以及CvT,PvT,Shunted Transformer等等,其贡献点都是设计一种更高效的attention计算单元。
  • 另外一些方法并不直接改善attention,而是将CNN与Transformer结构混合,降低计算成本,并融合两种结构的优势。

ViT论文中提出,Transformer模型的注意力捕捉依赖关系为,浅层捕捉local信息,深层捕捉global信息,而这种特性在多层级网络架构上也会出现。在浅层使用CNN替代Transformer可以有效地降低attention计算成本,还能更好地建模局部信息。

但,简单地把卷积直接作用于特征图并不能有效获取所需信息。卷积调制网络,利用卷积调制可以聚合周围的上下文并自适应地调制,使得其建模能力更强。

因此,本文提出一种新的卷积调制,尺度感知调制(Scale-Aware Modulation,SAM),包括两个模块:多头混合卷积(Multi-Head Mixed Convolution,MHMC) 和 尺度感知聚合(Scale-Aware Aggregation,SAA)

  • MHMC模块旨在增强感受野并同时捕捉多尺度特征。
  • SAA模块旨在有效地聚合不同头部的功能,同时保持轻量级架构。

尽管有这些改进,但SAM在捕捉长期依赖方面没有达到自我关注机制。为此,提出了一种新的混合调制变压器架构,称为进化混合网络(Evolutionary Hybrid Network,EHN)。

  • 具体而言,在前两个阶段引入SAM区块,在后两个阶段纳入Transformer区块,同时在倒数第二阶段引入新的堆叠策略。该体系结构不仅模拟了从浅层到深层的长程依赖关系的变化,而且使每个阶段的每个块都能匹配其计算特性,从而提高了各种下游任务的性能。

总体而言,提出的架构称为尺度感知调制转换器(SMT)。

SMT方法

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

SMT网络包括四个阶段,每个阶段的下采样率为{4, 8, 16, 32}。

  • 首先在前两个阶段采用尺度感知调制(SAM),
  • 然后在倒数第二个阶段中依次堆叠一个SAM Block和一个多头自注意力(MSA) Block,以建模从捕捉局部到全局依赖关系的转变。
  • 对于最后一个阶段,仅使用MSA块来有效地捕捉长距离依赖关系。

Scale-Aware Modulation

SAM模块包括两个关键部分:MHMC 和 SAA 。 

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

 Multi-Head Mixed Convolution(MHMC)

引入了具有不同卷积核大小的多个卷积层,使其能够捕捉多个尺度上的空间特征。当N head设置得较大时,能够引入大卷积核来扩大感受野,增强其建模长距离依赖关系的能力。如图2(b)所示,MHMC将输入通道分为N个头,对每个头应用独立的深度可分离卷积。将卷积核大小初始化为3x3,并逐头递增。通过调整头的数量来调节感受野的范围和多粒度信息。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

​​​​【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

如图4(a)所示,每个不同的卷积特征图都学习以自适应的方式关注不同的粒度特征,正如预期的那样。值得注意的是,当通过可视化图中的调制图来比较单头和多头时。4(b),发现多头下的可视化在第一阶段准确地描绘了前景和目标对象,同时有效地过滤了背景信息。此外,随着网络的深入,它仍然可以呈现目标对象的整体形状,而与细节相关的信息在单头卷积下丢失。这表明,MHMC在浅层阶段比单个头部更好地捕捉局部细节,同时随着网络的深入,保持目标对象的详细和语义信息。

Scale-Aware Aggregation

为了增强MHMC中多个头之间的信息交互,引入了一种新的轻量化聚合模块,称为多尺度感知聚合(SAA),如图2(c)所示。SAA首先对MHMC生成的不同粒度的特征进行重组和分组。具体而言,从每个头中选择一个通道来构建一个组,然后在每个组内进行up-down的特征融合,从而增强多尺度特征的多样性。Num_group = C / N_head,C为输入通道数,这意味着组的数量与MHMC中头的数量成反比,每个组里只包含N个特征通道。随后,使用1x1卷积进行组内-组间模式的跨组信息融合,从而实现轻量且高效的聚合效果。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

图5显示,SAA模块明确地增强了语义相关的低频信号,并精确地关注了目标对象的最重要部分。例如,在第2阶段,眼睛、头部和身体被清楚地突出显示为目标对象的基本特征,从而显著提高了分类性能。与卷积映射预聚合相比,SAA模块展示了更好的能力来捕捉和表示视觉识别任务的基本特征。

Scale-Aware Modulation Transformer

在使用MHMC捕捉多尺度空间特征并通过SAA进行聚合后,获得一个输出特征图,称为调制器Modulator。然后,使用标量乘积采用这个调制器来调制 V。

 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

Evolutionary Hybrid Network 

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

提出根据网络的捕捉范围依赖关系的变化模式重新分配适当的计算模块,以实现更好的计算性能。提出两种混合堆叠策略用于倒数第二个阶段,(i) 依次堆叠一个SAM块和一个MSA块。(ii) 在stage的前半部分使用SAM块,在后半部分使用MSA块。(i)混合堆叠策略更加有效。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

计算了倒数第二个阶段中MSA块的相对感受野。浅层layer的相对感受野开始阶段有一个轻微的下降趋势。这种下降可以归因于SAM对早期MSA Block的影响,将这种现象称为计算单元磨合适应期。而随着网络的加深,可以看到感受野呈平稳上升的趋势,这表明提出的进化混合网络有效地模拟了从局部到全局依赖捕捉的过渡。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

实验

对比实验

分类任务: 

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

目标检测任务: 

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

分割任务: 

 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

 消融实验

 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习

 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,论文笔记,transformer,计算机视觉,深度学习文章来源地址https://www.toymoban.com/news/detail-608177.html

到了这里,关于【ICCV2023】Scale-Aware Modulation Meet Transformer的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Relation-Aware Graph Transformer for SQL-to-Text Generation

    SQL2Text 是一项将 SQL 查询映射到相应的自然语言问题的任务。之前的工作将 SQL 表示为稀疏图,并利用 graph-to-sequence 模型来生成问题,其中每个节点只能与 k 跳节点通信。由于无法捕获长期且缺乏特定于 SQL 的关系,这样的模型在适应更复杂的 SQL 查询时将会退化。为了解决这

    2024年01月17日
    浏览(51)
  • 【深度学习】MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    论文:https://arxiv.org/abs/2203.15270 代码:https://github.com/fenglinglwb/MAT Generator 参数统计: Discriminator参数统计,用了VGG16. 最近的研究表明,在修复图像中存在长距离相互作用的建模非常重要。为了实现这个目标,现有的方法利用独立的注意力技术或transformers,但通常考虑到计算成

    2024年02月14日
    浏览(47)
  • 论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    原文链接: 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting  [pdf]   [code] 本文创新点: 开发了一种新颖的修复框架 MAT,是第一个能够直接处理高分辨率图像的基于 transformer 的修复系统。 提出了一种新的多头自注意力 (MSA) 变体,称为多头上下文注意力 (MCA),只使用

    2024年02月08日
    浏览(47)
  • 【论文阅读】Relation-Aware Graph Transformer for SQL-to-Text Generation

    SQL2Text 是一项将 SQL 查询映射到相应的自然语言问题的任务。之前的工作将 SQL 表示为稀疏图,并利用 graph-to-sequence 模型来生成问题,其中每个节点只能与 k 跳节点通信。由于无法捕获长期且缺乏特定于 SQL 的关系,这样的模型在适应更复杂的 SQL 查询时将会退化。为了解决这

    2024年02月20日
    浏览(49)
  • CVPR 2022 Image Dehazing Transformer with Transmission-Aware 3D Position Embedding 个人学习笔记

    源码下载: CVPR2022ImageDehazingTransformerwithTransmission-Aware3D代码-深度学习文档类资源-CSDN下载 Abstract 尽管卷积神经网络(CNNs)的单图像去模糊已经取得了良好的进展,但卷积固有的 等方差 和 局部性 仍然是去雾性能的 瓶颈 。虽然 Transformer 占据了各种计算机视觉任务,但直接利

    2023年04月08日
    浏览(50)
  • [论文阅读]Ghost-free High Dynamic Range Imaging with Context-aware Transformer

    高动态范围成像(HDR)是一种图像技术,它能够捕捉到比传统图像更广泛的亮度范围。1997年,Paul Debevec在他的论文《Recovering High Dynamic Range Radiance Maps from Photographs》中提出了HDR的概念。论文里提出可以通过对同一个场景进行不同曝光时间的拍摄,然后用这些低动态范围 (L

    2024年02月07日
    浏览(43)
  • 『论文精读』FastViT(ICCV 2023,Apple开源)论文解读

    『论文精读』FastViT(ICCV 2023,Apple开源)论文解读 论文下载链接:https://arxiv.org/pdf/2303.14189.pdf 论文代码链接:https://github.com/apple/ml-fastvit 关于VIT论文的解读可以关注我之前的文章:『论文精读』Vision Transformer(VIT)论文解读 关于Deit论文的解读可以关注我之前的文章:『论文精读

    2024年02月12日
    浏览(34)
  • 【Call for papers】ICCV-2023(CCF-A/人工智能/2023年3月8日截稿)

    ICCV is the premier international computer vision event comprising the main conference and several co-located workshops and tutorials. We expect ICCV 2023 to happen in person at the Paris Convention Center in downtown Paris. Jana Kosecka, Jean Ponce, Cordelia Schmid, Andrew Zisserman 会议介绍: ICCV是主要的国际计算机视觉活动,包括主要会

    2023年04月08日
    浏览(44)
  • 【计算机视觉】ICCV2023放榜!一起看看CV最新热门研究方向!

    最近吃过晚饭看到新闻的时候,属实有点惊讶: ICCV 2023 近日也开奖了!看了一下,总共收录了2160篇论文,创了历史新高。作为计算机视觉三大顶级会议之一,ICCV 收录的论文自然也都具有非常高的研究价值,建议有需求的同学多关注多关注,说不定下一篇中稿的论文ideal就在

    2024年02月07日
    浏览(52)
  • Yolov8魔术师:卷积变体大作战,涨点创新对比实验,提供CVPR2023、ICCV2023等改进方案

     💡💡💡 本文独家改进: 提供各种卷积变体 DCNV3、DCNV2、ODConv、SCConv、PConv、DynamicSnakeConvolution、DAT ,引入 CVPR2023、ICCV2023 等改进方案,为Yolov8创新保驾护航,提供各种科研对比实验 💡💡💡Yolov8魔术师,独家首发创新(原创),适用于Yolov5、Yolov7、Yolov8等各个Yolo系列,专

    2024年02月09日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包