ELAN:用于图像超分辨率的高效远程注意力网络

这篇具有很好参考价值的文章主要介绍了ELAN:用于图像超分辨率的高效远程注意力网络。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Efficient Long-Range Attention Network for Image Super-resolution

文章目录

前言

一、Introduction

二、Method

1、Network Architecture

2、Local feature extraction

3、Group-wise multi-scale self-attention (GMSA)

4、Accelerated self-attention (ASA)

5、Shared Attention

6、Shifted Window

2. Experiments

Comparison with classic SR models

Quantitative comparison

Qualitative comparison

3. Conclusion


前言

论文:https://arxiv.org/pdf/2203.06697.pdf

代码:https://github.com/xindongzhang/ELAN


一、Introduction

最近,基于Transformer的方法已经证明了令人印象深刻的效果,在各种视觉任务中,包括图像超分辨率(SR),利用自我注意(SA)的特征提取。然而,在大多数现有的基于Transformer的模型中,SA的计算是非常昂贵的,而一些所采用的操作对于SR任务来说可能是冗余的。这限制了SA计算的范围并且因此限制了SR的性能。

在这项工作中,本文提出了一种用于图像超分的高效长距离网络ELAN(Efficient Long-Range Attention Network)。具体来说,我们首先采用移位卷积(Shift Convolution)提取图像的局部结构信息同时保持与 1x1 卷积相当的复杂度;然后提出了一种GMSA(Group-wise Multi-scale Sel-Attention)模块,它在不同窗口尺寸特征上计算自注意力以探索长程依赖关系。通过简单地将两个移位卷积与一个GMSA模块级联,构建了一个高效的远程注意块(ELAB),并利用共享注意机制进一步加速了该模块的运行。实验结果表明:相比于其他Transformer方案,所提的ELAN可以取得更佳结果,同时具有更低的复杂度。

二、Method

1、Network Architecture

ELAN的整体流程图如图1(a)所示,该流程由三个模块组成:浅层特征提取、基于ELAB的深度特征提取和HR图像重建。该网络的拓扑结构比较简单,从浅层特征提取模块输出到深度特征提取模块输出之间有一个全局的快捷连接,然后再馈送给HR重构模块。

(a)ELAN的整体流程图,包含几个ELABs,两个3x3卷积核一个pixel shuffle算子。

elan原论文,超分辨率,超分辨率重建,transformer,计算机视觉,图像处理

如图1(b)所示,我们的ELAB由局部特征提取模块(Local Feature Extraction)和组多尺度注意力(Group-wise Multi-scale Sel-Attention,GMSA)模块组成,两者都配备了残差学习策略。

(b) 高效远程注意力块(ELAB)的架构。 (c) 移位卷积的图示,它由移位运算和一个 1 × 1 卷积组成。 (d) 分组多尺度自注意力(GMSA)的计算说明。 (e) 我们的加速自注意力(ASA)计算的图示:

elan原论文,超分辨率,超分辨率重建,transformer,计算机视觉,图像处理

2、Local feature extraction

给定中间特征X,之前的研究大多通过多层感知或两个级联的1×1卷积来提取局部特征,然而它们只有1×1的感受野。为了扩大感受野以更有效地提取局部特征,我们利用两个移位卷积,并在它们之间进行简单的 ReLU 激活。如图 1(c) 所示,shift-conv 由一组移位操作和一个 1×1 卷积组成。

具体来说,我们将输入特征平均分为五组,并将前四组特征沿不同的空间维度移动,包括左、右、上、下,而最后一组保持不变。因此,接下来的 1 × 1 卷积可以利用相邻像素的信息。在不引入额外的可学习参数和大量计算的情况下,shift-conv 可以提供更大的感受野,同时保持与 1 × 1 卷积几乎相同的算术复杂度。

3、Group-wise multi-scale self-attention (GMSA)

为了更有效地计算远程 SA,我们提出了 GMSA 模块,如图 1(d)所示。我们首先将输入特征 X 分成 K 组,用  表示,然后使用窗口大小 Mk 计算第 k 组特征上的 SA。这样,我们就可以通过设置不同窗口大小的比例来灵活控制计算成本。例如,假设将K组特征均分到C K 个通道,则K组SA的计算成本为elan原论文,超分辨率,超分辨率重建,transformer,计算机视觉,图像处理。然后,在不同组上计算的 SA 通过 1 × 1 卷积连接并合并。

4、Accelerated self-attention (ASA)

ASA 如图 1(e) 所示。在现有的Transformer模型中,SA 的计算是计算和内存密集型的。我们做了一些修改来加速 SA 的计算,特别是在推理阶段。首先,我们丢弃了之前的 Transformer 模型中广泛采用的层归一化(LN),因为 LN 将 SA 的计算分割为许多元素级操作,这对于高效来说并不友好推理。相反,我们利用批量归一化(BN)来稳定训练过程。值得一提的是,BN可以合并到卷积运算中,这不会在推理阶段造成额外的计算成本。。其次,SwinIR [28]中的SA是在嵌入的高斯空间上计算的,其中使用三个独立的1×1卷积(用θ、ψ和g表示)将输入特征X映射到三个不同的特征图。

5、Shared Attention

尽管重塑操作是无 FLOPs 的,但由于 SR 任务中的特征尺寸较大,该操作非常耗时。为了进一步加速整个网络的 SA 计算,我们建议在相邻 SA 模块之间共享注意力分数。如图2(b)所示,第i个SA模块中计算出的注意力分数直接被后续n个相同规模的SA模块重复使用。这样,我们就可以避免接下来的 n 个 SA 的 2n 次重塑和 n 1×1 卷积操作。我们发现,所提出的共享注意力机制仅通过使用少量的 n(例如 1 或 2)而导致 SR 性能略有下降,同时在推理过程中节省了大量的计算资源。

6、Shifted Window

在分组多尺度窗口上计算的 SA 仍然缺乏相同尺度内本地窗口之间的连接。我们改进了 SwinIR的移位窗口机制,为 SR 任务提供了一个简单而有效的移位方案。整个过程如图 2(c) 所示。

我们首先沿对角线方向对特征进行循环平移,并计算平移后的特征的 GMSA。然后我们通过逆循环移位将结果移回原处。半窗口大小的循环移位导致了特征图的新划分,并在先前的 GMSA 模块中引入了相邻非重叠窗口之间的连接。尽管边界上的一些像素通过循环移位移动到较远的区域,但我们发现它对最终 SR 性能的影响可以忽略不计,因为这些像素在 SR 任务中只占据整个特征图的一小部分。

受益于循环移位机制,我们删除了 SwinIR中采用的掩蔽策略和相对位置编码,使我们的网络更整洁、更高效。

elan原论文,超分辨率,超分辨率重建,transformer,计算机视觉,图像处理

2. Experiments

Comparison with classic SR models

为了验证ELAN的可扩展性,我们进一步将ELAN的普通版本与最先进的经典的面向性能的SR模型进行比较,包括EDSR,SRFBN,RNAN,RDN、RCAN、SAN、IGNN HAN、NLSA 和 SwinIR 。请注意,这些模型要么采用具有大量通道的非常深的网络拓扑,要么采用复杂的自注意力和非局部策略。

Quantitative comparison

elan原论文,超分辨率,超分辨率重建,transformer,计算机视觉,图像处理

Qualitative comparison

elan原论文,超分辨率,超分辨率重建,transformer,计算机视觉,图像处理

elan原论文,超分辨率,超分辨率重建,transformer,计算机视觉,图像处理

与多种超分方案进行了对比,从中可以看到:

  • 在所有尺度与基准数据集上,ELAN均取得了最佳性能;

  • 相比SwinIR,ELAN取得了最佳PSNR与SSIM,同时具有更少参数量与计算量、更快推理速度;

  • 相比CNN方案,ELAN在重建性能方面局具有显著优势,这得益于大感受野与长程特征相关性建模;

  • 尽管HAN与NLSA通过探索注意力机制与更深网络课要取得相当性能,但其计算量与内存负载非常昂贵。比如NLSA甚至无法在NVIDIA 2080Ti GPU上执行x2超分任务,而ELAN则可以凭借更少计算量取得比这些复杂方案更高的性能。


3. Conclusion

在本文中,我们提出了一种用于单图像超分辨率的高效远程注意网络(ELAN)

ELAN 具有简洁的拓扑结构,具有顺序级联的高效远程注意力块(ELAB)。每个ELAB由具有两个顺序移位卷积的局部特征提取模块和分组多尺度自注意(GMSA)模块组成,以逐渐增加自注意(SA)的感受野。受益于我们的加速 SA 计算和共享注意力机制,ELAB 可以以非常有效的方式有效捕获局部结构和远程依赖关系。

大量的实验表明,在轻量级和性能导向的设置上,ELAN 可以比以前最先进的 SR 模型获得极具竞争力的性能,同时比以前基于Transformer的 SR 方法更加经济。

尽管我们的 ELAN 比 SwinIR 实现了显着的加速,但与那些基于 CNN 的轻量级模型相比,SA 的计算仍然是计算和内存密集型的。未来,我们将进一步探索 SA 的更有效实现或近似,以实现更多低级视觉任务。文章来源地址https://www.toymoban.com/news/detail-842699.html

到了这里,关于ELAN:用于图像超分辨率的高效远程注意力网络的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • YOLOV5/YOLOV7/YOLOV8改进:用于低分辨率图像和小物体的新 CNN 模块SPD-Conv

    1.该文章属于YOLOV5/YOLOV7/YOLOV8改进专栏,包含大量的改进方式,主要以2023年的最新文章和2022年的文章提出改进方式。 2.提供更加详细的改进方法,如将注意力机制添加到网络的不同位置,便于做实验,也可以当做论文的创新点。 3.涨点效果:SPD-Conv提升小目标识别,实现有效涨

    2024年02月09日
    浏览(59)
  • 第九章:RefineNet——多路径细化网络用于高分辨率语义分割

    原文题目:《RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation》 原文引用:Lin G, Milan A, Shen C, et al. Refinenet: Multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1925-1934. 原文链接: https://o

    2024年02月16日
    浏览(64)
  • 调整远程电脑分辨率

    一些远程电脑因为没有接显示器,所以电脑启动之后会出现分辨率错乱的现象,有时甚至无法通过 windows 自带的分辨率修改应用来修改分辨率。 这种情况,可以通过 usbmmidd_v2 第三方软件来实现。 下载usbmmidd_v2.zip解压,双击usbmmidd.bat后,分辨率变成了1024*768,再就可以设置分

    2024年02月11日
    浏览(93)
  • 图像超分辨率简单介绍

    图像超分辨率(Image Super-Resolution,简称SR)是一种通过使用计算机算法提高图像分辨率的技术,即从低分辨率的图像中生成高分辨率的图像。图像SR可以在许多领域得到应用,例如计算机视觉、医学成像、遥感等。 图像SR旨在从低分辨率(低清晰度)图像中提高图像质量和信

    2024年02月06日
    浏览(42)
  • 图像超分辨率重建概述

    1. 概念:         图像分辨率是一组用于评估图像中蕴含细节信息丰富程度的性能参数,包括时间分辨率、空间分辨率及色阶分辨率等,体现了成像系统实际所能反映物体细节信息的能力。相较于低分辨率图像,高分辨率图像通常包含更大的像素密度、更丰富的纹理细节及更

    2024年02月04日
    浏览(51)
  • 图像超分辨率重建(pytorch)

             本文代码主体来自CVPR2020论文《Closed-loop matters: Dual regression networks for single image super-resolution》,但原作者并未提供论文亮点--如何使用unpair数据进行训练的代码,所以我在其基础上补齐了该过程的代码。         代码仓库:https://github.com/VitaminyW/Super_Solution      

    2024年01月16日
    浏览(46)
  • ISP之图像降分辨率

    1、图像缩放背景 图像的放大、缩小(简称缩放)是图像处理的一种处理方法。所谓图像缩放是指图像分辨率的改变,它在图像显示、传输、图像分析以及动画制作、电影合成、甚至医学图像处理中都有着相当广泛的应用。比如要在1024 X 768 分辨率的显示器上全屏显示800 X 600 的数

    2024年02月11日
    浏览(48)
  • ​目标检测算法——YOLOv5/YOLOv7改进之结合​SOCA(单幅图像超分辨率) CVPR19 单幅图像超分辨率来了!!!

    (一)前沿介绍 论文题目:Second-order Attention Network for Single Image Super-Resolution 论文地址:CVPR19 超分辨率 代码地址:https://github.com/daitao/SAN 1.SOCA moudle结构图 2.相关实验结果 (二)YOLOv5/YOLOv7改进之结合​SOCA 1.配置common.py文件 2.配置yolo.py文件 3.配置yolov5/yolov7_SOCA moudle.yaml文件

    2023年04月23日
    浏览(50)
  • 无人机航拍图像的空间分辨率计算

    GSD:无人机/遥感卫星的空间分辨率,指航片/遥感影像一个像素点代表的空间距离。 计算公式: d:单位cm、指空间分辨率。 s:单位µm、指像元大小(像素间距)。 H:单位m、指飞行高度。 f:单位mm、指焦段(即镜头的焦段)。 注意:计算时统一单位。同时,更值得注意的

    2024年02月01日
    浏览(54)
  • 使用OpenCV实现图像超分辨率(Python)

    超分辨率技术指的是将低分辨率的图像或视频通过算法转换成高分辨率的图像或视频的操作。 超分辨率可以分为两种:单图像超分辨率(Single Image Super Resolution,SISR)和视频超分辨率(Video Super Resolution,VSR)。 OpenCV中的超分辨率功能被集中在了contrib模块中,因此我们首先需

    2024年02月13日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包