【图像超分辨率重建】——HAT论文精读笔记

这篇具有很好参考价值的文章主要介绍了【图像超分辨率重建】——HAT论文精读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2022-Activating More Pixels in Image Super-Resolution Transformer(HAT)

基本信息

作者: Xiangyu Chen, Xintao Wang, Jiantao Zhou, and Chao Dong
期刊:
引用:
摘要: 基于 Transformer 的方法在图像超分辨率等低级视觉任务中表现出令人印象深刻的性能。然而,我们发现这些网络只能通过归因分析利用有限空间范围的输入信息。这意味着 Transformer 的潜力在现有网络中仍未得到充分利用。为了激活更多的输入像素进行重建,我们提出了一种新颖的混合注意力转换器 (HAT)。它结合了通道注意力(CAB)和自注意力([S]W-MSA)方案,从而利用它们的互补优势。此外,为了更好地聚合跨窗口信息,我们引入了重叠交叉注意模块(OCAB)来增强相邻窗口特征之间的交互。在训练阶段,我们额外提出了一种相同任务的预训练策略,以带来进一步的改进。大量实验证明了所提出模块的有效性,整体方法明显优于最先进的方法 1dB 以上。

1.简介

在SISR领域中,近些年均使用法国CNN的方法,获得了很好的效果,最近Transformer在NLP领域的成功带动了其在高级视觉任务中的发展,随后其在低级视觉任务方面也起到了很好的效果,尤其是Swin-Transformer。受到Swing-Transformer启发最近兴起的SISR算法是SwinIR

“为什么 Transformer 比 CNN 更好”?一个直观的解释是,这种网络可以受益于自我注意机制并利用远程信息。然而,我们采用归因分析方法 LAM [14] 来检查 SwinIR 中重建所涉及的利用信息范围。有趣的是,我们发现 SwinIR 在超分辨率方面并没有比基于 CNN 的方法(例如 RCAN [65])利用更多的输入像素。此外,尽管 SwinIR 获得了更高的定量性能,但在某些情况下,由于使用的信息范围有限,它产生的结果不如 RCAN。这些现象说明Transformer对局部信息的建模能力更强,但其利用信息的范围有待扩展。

本文的贡献:

  1. 将通道注意力引入 Transformer 以利用更多输入信息
  2. 提出了一个重叠的交叉注意力模块来更好地聚合跨窗口信息
  3. 提供了一个相同任务的预训练策略来进一步激活所提出的网络的潜力

2.相关工作

  • 基于CNN的SISR:以SRCNN为代表的超分网络显示出突出性能,残差块、密集块等模块增强了网络的表示能力;递归神经网络、图神经网络等框架也起到了很好的效果;基于对抗神经网络GAN的网络提高了感知质量,产生更真实的结果;注意力机制(RCAN、SAN、HAN、NLRN、NLSN)在图像保真度方面取得进一步提高;最近Transformer技术也显示出强大的表示能力。本文使用LAM分析理解SR网络的各种行为。
  • CV领域的Transformer:Transformer因其在自然语言处理领域的成功而引起了计算机视觉界的关注。一系列基于 Transformer 的方法已经被开发用于高级视觉任务,包括图像分类,目标检测,分割等。虽然vision Transformer已经显示出其在建模远程依赖方面的优势,仍有许多工作证明卷积可以帮助 Transformer 实现更好的视觉表示。由于令人印象深刻的性能,Transformer 也被引入用于低级视觉任务。SwinIR、EDT是将Transformer技术应用到SISR的伟大尝试

现有的作品仍然不能充分发挥 Transformer 的潜力,而本文方法可以激活更多的输入信息以实现更好的重建。

3.HAT模型

3.1.动机

  • Swin Transformer已经在图像超分辨率方面表现出色。然后我们很想知道是什么让它比基于 CNN 的方法更有效。为了揭示其工作机制,我们采用了一种诊断工具——LAM,这是一种为 SR 设计的归因方法。使用 LAM,我们可以判断哪些输入像素对所选区域的贡献最大。如图 2(a) 所示,红色标记点是有助于重建的信息像素。直观地说,利用的信息越多,可以获得越好的性能。比较 RCAN和 EDSR,这对于基于 CNN 的方法来说是正确的。然而,对于基于 Transformer 的方法——SwinIR,其 LAM 并没有显示出比 RCAN 更大的范围。这与我们的常识相矛盾,但也可以为我们提供额外的见解。首先,这意味着 SwinIR 具有比 CNN 更强的映射能力,因此可以使用更少的信息来获得更好的性能。其次,如果 SwinIR 可以利用更多的输入像素,它仍有改进空间。如图 2(a) 所示,SwinIR 在蓝色框中标记的重建模式不如 RCAN。 通道注意力帮助RCAN看到更多像素,这对Transformer可能也有好处。
  • 在 SwinIR 的中间特征图中观察到明显的块效应,如图 2(b)所示。这些伪影是由窗口分区机制引起的,这种现象表明移位窗口机制无法有效地建立跨窗口连接。一些针对高级视觉任务的工作也指出,增强窗口之间的连接可以改进基于窗口的自注意力方法。基于以上两点,我们研究了基于 Transformer 的模型中的通道注意力,并提出了一个重叠的交叉注意力模块,以更好地为基于窗口的 SR Transformer 聚合跨窗口信息。
    【图像超分辨率重建】——HAT论文精读笔记

3.2.网络结构

【图像超分辨率重建】——HAT论文精读笔记
【图像超分辨率重建】——HAT论文精读笔记

  • 总体结构:浅层特征提取——深层特征提取——图像重建(Pixel-Shuffle),L1损失
  • 残差混合注意力组(RHAG)深层特征提取的基本单元
  • 混合注意力块(HAB)在STL的基础上添加了CAB,修改MSA为(S)W-MSA
  • 重叠交叉注意力块(OCAB)在STL的基础上将MSA替换为OCA(基于重叠窗口分区计算,查询更大窗口)

3.3.ImageNet预训练

IPT、EDT等表明预训练在低级任务中起着重要作用。这些工作旨在探索多任务预训练对目标任务的影响。相比之下,我们基于相同的任务直接对更大规模的数据集(即 ImageNet )进行预训练。例如,当我们要为×4 SR训练一个模型时,我们首先在ImageNet上训练一个×4 SR模型,然后在特定的数据集上进行微调,比如DF2K。同任务预训练,更简单同时带来更多的性能提升。值得一提的是,足够的预训练训练迭代次数和适当的小学习率进行微调对于预训练策略的有效性非常重要。我们认为这是因为 Transformer 需要更多的数据和迭代来学习任务的一般知识,但需要较小的学习率进行微调以避免对特定数据集的过度拟合。

4.实验

4.1.实验设置

  • 训练集:DIV2K+Flicker2K
  • 预训练:ImageNet
  • 网络详情:RHAG、HAB均为6个,HAT-L中RHAG个数加倍
  • 比较指标:PSNR、SSIM(YCbCr)

4.2.不同窗口大小的影响

16*16的窗口效果最好,本文采用了该设置
【图像超分辨率重建】——HAT论文精读笔记

4.3.消融实验

  • OCAB与CAB的有效性
    【图像超分辨率重建】——HAT论文精读笔记
  • OCAB中重叠大小的影响
    【图像超分辨率重建】——HAT论文精读笔记
  • CAB不同设计的影响
    【图像超分辨率重建】——HAT论文精读笔记

4.4.与SOTA比较

在x2,x3,x4倍数下与EDSR, RCAN, SAN, IGNN, HAN, NLSN, RCAN-it,比较,同时在预训练方法下与IPT、 EDT比较,均达到了最优的效果。具体数据见原文。

4.5.同任务预训练的有效性

同任务预训练表现更好,不仅在预训练阶段,在微调过程中也表现得更好。与特定任务的预训练相比,多任务预训练似乎削弱了性能。从这个角度来看,我们倾向于认为“为什么预训练有效”的原因是数据的多样性,而不是任务之间的相关性。

5.结论

在本文中,我们提出了一种用于图像超分辨率的新型混合注意力转换器 HAT。我们的模型结合了通道注意力和自我注意力来激活更多像素来重建高分辨率结果。此外,我们提出了一个重叠的交叉注意力模块,它计算具有不同窗口大小的特征之间的注意力,以更好地聚合跨窗口信息。此外,我们引入了相同任务的预训练策略,以进一步激活所提出模型的潜力。广泛的实验表明了所提出模块的有效性,我们的 HAT 明显优于最先进的方法

代码实现

https://github.com/chxy95/HAT

个人总结

  • 对将Transformer引入超分SwinIR算法进行改进,在RCAN的基础上结合通道注意力(RCAN)和自注意力(SwinIR),并提出OCAB。总体而言,HAT是基于Transformer、注意力机制的超分的优秀作品

NLRN、NLSN…
SwinIR、EDT…文章来源地址https://www.toymoban.com/news/detail-477973.html

到了这里,关于【图像超分辨率重建】——HAT论文精读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机毕设 基于深度学习的图像超分辨率重建 - opencv python cnn

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年02月11日
    浏览(55)
  • 【Python&图像超分】Real-ESRGAN图像超分模型(超分辨率重建)详细安装和使用教程

            图像超分是一种图像处理技术,旨在 提高图像的分辨率 ,使其具有更高的清晰度和细节。这一技术通常用于图像重建、图像恢复、图像增强等领域,可以帮助我们更好地理解和利用图像信息。图像超分技术可以通过多种方法实现,包括插值算法、深度学习等。其

    2024年02月04日
    浏览(49)
  • 【YOLOv8改进】 SPD-Conv空间深度转换卷积,处理低分辨率图像和小对象问题 (论文笔记+引入代码)

    卷积神经网络(CNNs)在许多计算机视觉任务中取得了巨大成功,例如图像分类和目标检测。然而,当面对图像分辨率低或对象较小的更加困难的任务时,它们的性能迅速下降。在本文中,我们指出这一问题根源于现有CNN架构中一个有缺陷但常见的设计,即使用了步长卷积和

    2024年04月14日
    浏览(39)
  • 探秘GFPGAN:腾讯AI的超分辨率重建神器

    项目地址:https://gitcode.com/TencentARC/GFPGAN 在图像处理的世界中,提高低质量或模糊图片的清晰度一直是一项挑战。而今天,我们要介绍的就是来自腾讯ARC团队的开源项目——GFPGAN(Gated Frequency Priors Guided Generative Adversarial Networks)。这是一个基于深度学习的高精度超分辨率重建模

    2024年04月10日
    浏览(53)
  • 『CV学习笔记』图像超分辨率等图像处理任务中的评价指标PSNR(峰值信噪比)

    图像超分辨率等图像处理任务中的评价指标PSNR(峰值信噪比) 峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)是图像超分辨率等图像处理任务中常用的一个指标,用来评估图像质量。PSNR的值越高,表示失真越小,图像质量越好。 PSNR是通过对比原图像和处理后图像的每个像素的差异来

    2024年02月06日
    浏览(49)
  • 图像超分辨率简单介绍

    图像超分辨率(Image Super-Resolution,简称SR)是一种通过使用计算机算法提高图像分辨率的技术,即从低分辨率的图像中生成高分辨率的图像。图像SR可以在许多领域得到应用,例如计算机视觉、医学成像、遥感等。 图像SR旨在从低分辨率(低清晰度)图像中提高图像质量和信

    2024年02月06日
    浏览(42)
  • AI数字人:语音驱动面部模型及超分辨率重建Wav2Lip-HD

    数字人打造中语音驱动人脸和超分辨率重建两种必备的模型,它们被用于实现数字人的语音和图像方面的功能。通过Wav2Lip-HD项目可以快速使用这两种模型,完成高清数字人形象的打造。 项目代码地址:github地址 1.1 语音驱动面部模型wav2lip 语音驱动人脸技术主要是通过语音信

    2024年02月16日
    浏览(46)
  • ISP之图像降分辨率

    1、图像缩放背景 图像的放大、缩小(简称缩放)是图像处理的一种处理方法。所谓图像缩放是指图像分辨率的改变,它在图像显示、传输、图像分析以及动画制作、电影合成、甚至医学图像处理中都有着相当广泛的应用。比如要在1024 X 768 分辨率的显示器上全屏显示800 X 600 的数

    2024年02月11日
    浏览(47)
  • ​目标检测算法——YOLOv5/YOLOv7改进之结合​SOCA(单幅图像超分辨率) CVPR19 单幅图像超分辨率来了!!!

    (一)前沿介绍 论文题目:Second-order Attention Network for Single Image Super-Resolution 论文地址:CVPR19 超分辨率 代码地址:https://github.com/daitao/SAN 1.SOCA moudle结构图 2.相关实验结果 (二)YOLOv5/YOLOv7改进之结合​SOCA 1.配置common.py文件 2.配置yolo.py文件 3.配置yolov5/yolov7_SOCA moudle.yaml文件

    2023年04月23日
    浏览(49)
  • 无人机航拍图像的空间分辨率计算

    GSD:无人机/遥感卫星的空间分辨率,指航片/遥感影像一个像素点代表的空间距离。 计算公式: d:单位cm、指空间分辨率。 s:单位µm、指像元大小(像素间距)。 H:单位m、指飞行高度。 f:单位mm、指焦段(即镜头的焦段)。 注意:计算时统一单位。同时,更值得注意的

    2024年02月01日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包