论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

这篇具有很好参考价值的文章主要介绍了论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

抛砖引玉了,如有不同意见欢迎讨论。



论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
在超分Transformer中激活更多像素。
澳门大学、中科大、上海人工智能实验室的,董超老师的团队。
CVPR2023。

1 Motivation

LAM:一种为SR任务设计的归因方法,能显示模型在进行超分辨率重建的过程中哪些像素起到了作用。一般来说,被利用像素的范围越大,重建的效果往往越好。
论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
被利用像素的范围:定性看红色区域的范围;定量看DI(diffusion index),越大越好。
这个结论在EDSR和RCAN很显著,但是在SwinIR和RCAN相比就不成立。

  • 问题:SwinIR的性能更好,但是使用的像素范围更小。
    本文认为:SwinIR结构拥有更强的局部表征能力,能够使用更少的信息来达到更高的性能。

  • 问题:SwinIR虽然性能好,但是恢复出的图像纹理是错的。
    本文认为:是因为SwinIR的信息使用范围有限,窗口自注意力机制限制了信息的使用范围。SwinIR依然有较大提升空间,如果更多的像素能够被利用,那么应该会取得更大的性能提升。

  • 另外,文章发现,SwinIR网络前几层产生的中间特征会出现明显的块状效应。
    文章认为,这是由于模型在计算自注意力时的窗口划分导致的,因此认为现有结构进行跨窗口信息交互的方式也应该被改进。
    论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

2 Contribution

  • 1)设计了一种HAT(混合注意力transformer),结合自注意力、通道注意力和设计的重叠交叉注意力,激活更多的像素以更好地重建。
  • 2)同任务预训练策略,进一步挖掘SR-Transformer的潜力。表明了大规模数据集预训练对任务的重要性。
  • 3)SOTA。

3 Method

3.1 Overview

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

3.2 HAB (Hybrid Attention Block)

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
和SwinT Block一样,串联了CAB模块。

通道注意力: 利用全局信息;自注意力:强大表征能力。HAB同时结合两者优势。
SwinT模块的输入输出是同维度,CAB模块也是,所以可以直接实现三个矩阵相同位置元素叠加。
(SwinT:)
论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

3.2.1 Channel Attention

本质:对特征的各个通道的重要性进行学习,分配不同的权重。
代表模型:Squeeze-and-Excitation Networks (SENet)

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
对于H×W×C的input元素特征图:
压缩:全局平均池化,压缩通道 [H, W] -> [1, 1]
激励:全连接层1 -> Relu -> 全连接层2 -> sigmoid (学习各个通道权重的重要性,激活函数)
维度变换:[H×W×C] ->[1×1×C]->[1×1×n1]->[1×1×C]

3.2.2 CAB

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
经过卷积,gelu,卷积。这部分,不知道要做什么。但是压缩通道是为了节省参数。

后面是CA模块。平均池化是压缩特征尺度,区别于上面的全连接层,这里使用1*1卷积来学习通道权重。

3.2.3 OCAB (Overlapping Cross-Attention Block)

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
也是仿照Swin-T模块,替换自注意力机制变成自己设计的OCA模块,Overlapping Cross-Attention,重叠交叉注意力。

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
普通注意力:
QKV是由同一个X矩阵(HWC),分别乘上不同的CC矩阵,变成XQ,XK,XV,然后按照窗口划分QKV,在窗口内使用公式计算。
OCA:
论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
同样一个XQ矩阵,划分成MM大小的窗口,窗口内计算Q。
XK和XV的窗口划分要更大。先在周围做一圈零填充,宽度是γM/2。
然后划分成M0
M0,step=M的窗口,作为K和V,再与Q计算注意力。M0通过公式计算得到。
维度不一样的问题,使用广播机制扩充Q的维度。

结果:允许attention跨窗口计算,加强了相邻窗口的信息交互,减弱块效应。

3.3 The Same-task Pre-training

之前工作:
various low-level tasks / different degradation levels of a specific task
本文:
同任务、大规模数据集ImageNet预训练。
比如:×4模型。先在ImageNet进行×4的预训练,然后在特定数据集微调(使用小学习率)。
文章认为,是因为Transformer需要更多的数据和迭代学习任务的一般知识。

4 Experiment

首先做了一个实验。在SwinIR验证,自注意力的窗口越大,越有利于性能的提升。
所以选用了16的窗口大小。

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
主实验:
训练数据集:DF2K ( DIV2K + Flicker2K )
RHAG:6
HAB:6
Channel:180
Attention head number:6
Window size:16
α(HAB):0.01
β(CAB):3
重叠比γ:0.5

另提供2个版本的模型:
HAT-L:RHAG:12(ori:6)
HAT-S:channel:144(ori:180)
论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer
论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

5 Ablation study

OCAB、CAB

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

Channel attention、α、γ

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

Pre-training strategy

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer文章来源地址https://www.toymoban.com/news/detail-510569.html

到了这里,关于论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

    Project page: https://github.com/haoyuc/MaskedDenoising 前提:在捕获和存储图像时,设备不可避免地会引入噪声。减少这种噪声是一项关键任务,称为图像去噪。深度学习已经成为图像去噪的事实方法,尤其是随着基于Transformer的模型的出现,这些模型在各种图像任务上都取得了显著的最

    2024年03月15日
    浏览(50)
  • Curricular Contrastive Regularization for Physics-aware Single Image Dehazing (CVPR2023) 论文记录

    原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Zheng_Curricular_Contrastive_Regularization_for_Physics-Aware_Single_Image_Dehazing_CVPR_2023_paper.pdf 在单幅图像去雾领域,考虑到图像去雾问题的不适定性,Wu 1 提出了对比正则化方法,将负样本图像的信息引入作为下界。(本文主要是基于该方

    2024年02月16日
    浏览(40)
  • 【论文精读】 SadTalker:Stylized Audio-Driven Single Image Talking Face Animation(CVPR2023)

    论文: 《SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation》 github: https://github.com/Winfredy/SadTalker 通过人脸图像和一段语音音频生成TalkingHead Generation仍然包含许多挑战: 不自然的头部运动 、 扭曲的表情和身份变化 。 作者认为这些问题

    2024年02月02日
    浏览(35)
  • CVPR2023(论文笔记)

    基于抽象的鲁棒图像分类模型高效训练与验证方法: 针对问题: 深度神经网络在面对对抗性攻击时的鲁棒性问题 提出了一种基于抽象的、经过认证的训练方法,用于提高深度神经网络对抗性攻击的鲁棒性;提出黑盒验证方法,该方法与神经网络的大小和架构无关,可扩展到

    2024年02月09日
    浏览(45)
  • 顶会论文投稿经验分享-笔记【CVPR 2023预讲会】

    视频链接:Panel: 顶会论文投稿经验分享与大模型时代下的科研_哔哩哔哩_bilibili 嘉宾: 王琦,上海交通大学计算机系博士生 任星宇,上海交通大学博士三年级研究生 李逸轩,上海交通大学2022级硕士研究生 官同坤,上海交通大学2023级博士生 李逸轩:不管是对比实验、主图、

    2023年04月23日
    浏览(45)
  • BSRN网络——《Blueprint Separable Residual Network for Efficient Image Super-Resolution》论文解读

    目录 摘要: 网络架构: 具体流程: BSConv: ESDB——Efficient Separable Distillation Block:  Blueprint Shallow Residual Block (BSRB): ESA和CCA:  实验: BSRN的实现细节: BSRN-S(比赛)的实现细节: 不同卷积分解的效果: ESA和CCA的有效性:  不同激活函数对比: BSRN的有效性:  和SOTA方法的

    2024年02月05日
    浏览(35)
  • 论文笔记|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

    这篇论文的题目是 用于小样本Transformers的监督遮掩知识蒸馏 论文接收: CVPR 2023 论文地址: https://arxiv.org/pdf/2303.15466.pdf 代码链接: https://github.com/HL-hanlin/SMKD 1.ViT在小样本学习(只有少量标记数据的小型数据集)中往往会 过拟合,并且由于缺乏 归纳偏置 而导致性能较差;

    2024年02月06日
    浏览(37)
  • 【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

    论文地址:https://doi.org/10.48550/arXiv.2109.14335 单幅图像超分辨率(SISR)是图像处理中的一项重要任务,旨在提高成像系统的分辨率。近年来,在深度学习(DL)的帮助下,SISR取得了巨大的飞跃,并取得了可喜的成果。在本综述中,我们对基于dl的SISR方法进行了概述,并根据重建效率

    2024年02月08日
    浏览(38)
  • 【论文合集】CVPR2023年 部分论文

    参考: CVPR 2023 最全整理:论文分方向汇总 / 代码 / 解读 / 直播 / 项目(更新中)【计算机视觉】-极市开发者社区 (cvmart.net) amusi/CVPR2023-Papers-with-Code: CVPR 2023 论文和开源项目合集 (github.com)   [7]Fine-Grained Face Swapping via Regional GAN Inversion paper [6]Cross-GAN Auditing: Unsupervised Identifica

    2024年02月12日
    浏览(39)
  • 论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!

    论文 :Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval 代码 :https://github.com/anosorae/IRRA 这是今年CVPR2023的工作,也是目前在语言行人检索领域实现SOTA性能的模型,模型整体并不复杂性能却很好,代码也做了开源,是一个非常好的工作。 下面将对该文章进行

    2024年02月13日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包