【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

这篇具有很好参考价值的文章主要介绍了【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

论文地址:https://doi.org/10.48550/arXiv.2109.14335

摘要

单幅图像超分辨率(SISR)是图像处理中的一项重要任务,旨在提高成像系统的分辨率。近年来,在深度学习(DL)的帮助下,SISR取得了巨大的飞跃,并取得了可喜的成果。在本综述中,我们对基于dl的SISR方法进行了概述,并根据重建效率、重建精度和感知精度等指标对其进行了分组。具体来说,我们首先介绍了问题的定义、研究背景和SISR的意义。其次,我们介绍了一些相关的工作,包括基准数据集、上采样方法、优化目标和图像质量评估方法。第三,我们对SISR进行了详细的研究,并给出了它在特定领域的一些应用。第四,我们给出了一些经典的SISR方法的重构结果,直观地了解它们的性能。最后,我们讨论了目前SISR研究中还存在的一些问题,并总结了一些新的发展趋势和未来的发展方向。这是对SISR的详尽调查,可以帮助研究者更好地了解SISR,并启发该领域更多令人兴奋的研究。SISR的调查项目提供在https://github.com/CV-JunchengLi/SISR-Survey

Introduction

超分辨率(SISR),是图像变换的一种—MAGE超分辨率(SR),特别是单幅图像任务,在学术界和工业界受到越来越多的关注。如图1所示,SISR旨在从降级的低分辨率(LR)图像重建超分辨率(SR)图像。它被广泛应用于各种计算机视觉应用,包括安防和监视图像、医疗图像重建、视频增强和图像分割。
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
基于插值的双三次插值和Lanczos重采样等方法已经研究了很长时间。然而,**SISR是一个固有的病态问题,一个原始LR图像总会对应多个HR图像。**为了解决这一问题,一些数值方法利用先验信息来限制重构的解空间,如基于边缘的方法和基于图像统计量的方法。同时,有一些广泛使用的学习方法,如邻居嵌入方法和稀疏编码方法,它们假设LR和HR补丁之间存在转换。

最近,深度学习(DL)在许多人工智能领域表现出了比传统机器学习模型更好的性能,包括计算机视觉和自然语言处理。随着DL技术的迅速发展,基于DL的SISR方法层出不穷,不断推动着the - art - state (SOTA)的发展。与其他图像转换任务一样,**SISR任务通常可以被划分三步:特征提取与表示,非线性映射,图像重建。**在传统的数值模型中,设计满足所有这些过程的算法既耗时又低效。相反,DL可以将SISR任务转移到包含这三个过程的几乎端到端框架中,可以大大减少人工和计算成本。此外,考虑到SISR的病态性质会导致结果不稳定和难以收敛,DL可以通过高效的网络架构和损失函数设计来缓解这一问题。此外,现代GPU支持更深入、更复杂的DL模型快速训练,比传统的数值模型表现出更强的表示能力。

众所周知,基于dl的方法可以分为监督方法和非监督方法。这是最简单的分类标准,但这个分类标准的范围太大,不明确。因此,许多技术上不相关的方法可能被归为同一类型,而具有相似策略的方法可能被归为完全不同的类型。不同于以往的SISR调查均以监管为分类标准,或以纯文献的方式介绍方法,在本次调查中,我们试图对基于dl的SISR方法进行全面概述,并根据它们的具体目标进行分类。在图2中,我们显示了本次调查的内容和分类。显然,我们将基于dl的SISR方法分为四类:重构效率方法、重构精度方法、感知质量方法和进一步改进方法。该调查以目标为基础,背景清晰,便于读者查阅。具体来说,在本调查中,我们首先介绍了问题的定义、研究背景和SISR的意义。然后介绍了一些相关的工作,包括基准数据集、上样本方法、优化目标和评估方法。在此基础上,我们对SISR方法进行了详细的研究,并给出了它们的重建结果。最后,我们讨论了目前我国钢铁工业发展中还存在的一些问题,并提出了一些新的发展趋势和未来的发展方向。总体而言,这项调查的主要贡献如下:

(1)根据目标对基于dl的SISR方法进行了全面的概述。这是一种新的视角,使调查有了清晰的脉络,便于读者查阅。
(2)本次调查涵盖了100多种SR方法,并介绍了SISR近年来扩展的一系列新任务和特定领域的应用。
(3)我们提供了详细的重建结果对比,包括经典的、最新的和SOTA的SISR方法,帮助读者直观地了解它们的性能。
(4)讨论了目前我国钢铁工业研究中存在的一些问题,并总结出一些新的发展趋势和未来的发展方向。

2 PROBLEM SETTING AND RELATED WORKS

2.1问题定义
图像超分辨率是一种提高成像系统分辨率的经典技术,根据输入LR图像的数量,可将图像超分辨率分为单幅图像超分辨率(SISR)和多幅图像超分辨率(MISR)。其中,MISR已逐渐发展为视频超分辨率(video superresolution, VSR)。与MISR/VSR相比,SISR具有更大的挑战性,因为MISR/VSR有额外的信息可供参考,而SISR只有单幅输入图像的信息来进行缺失的图像特征重建。
近年来,已有研究将SISR转化为端到端的学习任务,依赖于大量的训练数据和有效的损失函数。与此同时,由于CNN强大的表示能力以及它在前向和后向计算中的便利,越来越多的基于dl的模型被提出。因此,SISR任务可以转化为以下优化目标
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
其中L表示生成的SR图像ISR和HR图像Iy之间的损失函数,Φ(θ)表示正则化项,λ是用于控制正则化项百分比的权衡参数

2.2 Benchmarks Datasets
对于数据驱动模型,尤其是基于dl的SISR模型,数据总是必不可少的,以实现有前景的重建性能(图3)。目前,工业界和学术界已经推出了几个可用的SISR数据集

2.2.1 Training and Test Datasets
最近,许多用于SISR任务的数据集被提出,包括BSDS300[17]、DIV2K[16]和Flickr2K[15]。同时,还有许多测试数据集可以用来有效地测试模型的性能,如Set5[25]、Set14[26]、Urban100[27]和Manga109[28]。在表1中,我们列出了一系列常用的数据集,并指出了它们的详细属性。在这些数据集中,DIV2K[16]是应用最广泛的模型训练数据集,它是一个包含800张训练图像、100张验证图像和100张测试图像的高质量数据集。Flickr2k是一个大型扩展数据集,包含来自Flickr的26502k张图片。RealSR[19]是第一个真正收集到的带有LR和HR图像的SISR数据集。除了列出的数据集,一些广泛用于其他计算机视觉任务的数据集也被用作SISR的补充训练数据集,如ImageNet[31]和CelebA[32]。此外,结合多个数据集(如DF2K)进行训练以进一步提高模型性能也被广泛使用

2.2.2 Degradation Mode
由于SISR任务的特殊性,构建大规模的成对真实SR数据集非常困难。**因此,研究人员通常对上述数据集应用退化模式,获取相应的退化图像,构建成对数据集。**然而,真实世界中的图像很容易受到各种因素的干扰(例如,传感器噪声、运动模糊和压缩伪影),导致捕获的图像比模拟图像更复杂。为了缓解这些问题,训练更有效和通用的SISR模型,一些研究将降解模式建模为几种操作的组合(Eq. 1)。基于该降解公式,提出了三种应用最广泛的降解模式:BI、BD和DN。其中BI是模拟LR图像使用最广泛的退化模式,实质上是一种双三次下采样操作。对于BD, HR图像采用大小为7 × 7的高斯核(标准差为1.6)进行模糊处理,然后以比例因子×3进行下采样。为了获得DN模式LR图像,对比例因子为×3的HR图像进行双三次下采样,然后在图像中加入噪声等级为30的高斯噪声

2.3 Upsampling Methods

SISR的目的是将较小尺寸的图像放大为较大的图像,并尽可能保持其准确性。因此,放大运算,也称为上采样,是SISR的一个重要步骤。**目前的上采样机制可分为四种类型:前上采样SR、后上采样SR、渐进上采样SR和迭代上下采样SR。**在本节中,我们将讨论支持这些上采样机制的几种上采样方法。

2.3.1 插值方法
插值是应用最广泛的上采样方法。目前的主流插补方法包括最近邻插补、双线性插补和双三次插补。这些方法具有高度的可解释性和易于实现的特点,至今仍被广泛使用。其中,最近邻插值是一种简单直观的算法,为每个要插值的位置选择最接近的像素值,执行速度快,但难以产生高质量的结果。双线性插值是在图像的两个轴上依次进行线性插值操作。该方法在保持较快速度的同时,可以获得比最近邻插值法更好的结果。双三次插值在两个轴上分别执行三次插值。与双线性相比,双三次插值的结果更平滑,伪影更少,但速度较其他插值方法慢。插值也是构建SISR配对数据集的主流方法,广泛应用于基于cnn的SISR模型的数据预处理。

2.3.2 Transposed Convolutional Layers
如图4所示,研究人员通常考虑两种转置卷积操作:**一种是在输入矩阵周围添加填充,然后应用卷积运算,另一个在输入矩阵的值之间添加填充,然后进行直接卷积运算。后者也被称为分数步幅卷积,因为它的工作原理类似于步幅小于1的卷积。**在转置卷积层中,上采样电平由填充大小控制,本质上与正常卷积层的操作相反。在FSRCNN[13]中首次提出了转置卷积层,并广泛应用于基于dl的SISR模型中。
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

2.3.3 Sub-pixel Convolutional Layer
在ESPCN[33]中,Shi等人提出了一种高效的亚像素卷积层。亚像素不是通过直接增加LR特征映射的个数来增加分辨率,而是先增加LR特征映射的维数,即LR特征映射的个数,然后使用周期性变换算子对展开的特征映射中的这些点进行重新排列,得到HR输出(图5)。具体来说,亚像素卷积层的表述可以定义为:
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
其中PS为周期变换算子,将h × w × C·r2张量变换为形状为rh × rw × C的张量,rh × rw显式为HR图像的大小,C为操作通道的维数。此外,卷积滤波器WL的形状为nL−1×r2C×KL×KL,其中nL为L−1层中的特征映射数。与转置卷积层相比,亚像素卷积层具有更好的效率,因此在基于dl的SISR模型中也得到了广泛的应用。
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

2.4优化目标
评估和参数升级是所有基于dl模型的重要步骤。在本节中,我们将介绍模型训练中必要的程序

2.4.1 Learning Strategy
根据策略的不同,基于dl的SISR模型主要分为有监督学习方法和无监督学习方法。

2.4.2 Loss Function
在SISR任务中,利用损失函数通过计算某种误差来指导模型的迭代优化过程。同时,研究人员发现,**与单一损失函数相比,多个损失函数的组合更能反映图像恢复的情况。**在本节中,我们将简要介绍几种常用的损失函数

1、像素误差(Pixel Loss):
像素误差是SISR丢失函数中最简单、最常用的一种类型,其目的是在像素的基础上测量两幅图像之间的差异,使两幅图像尽可能收敛。主要包括L1误差、均方误差(MSE loss)和Charbonnier损耗(L1误差的可微变体)
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

2、Content Loss:
内容丢失又称感知丢失,它使用预先训练的分类网络来度量图像之间的语义差异,可以进一步表示为这两个图像的高级表示之间的欧氏距离
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
其中,φ表示预训练的分类网络,φ(l)(IHQ)表示从网络的l层提取的高层表示。Hl、wl、cl分别为特征图在LTH层的高度、宽度和通道数。用这种方法,可以使这两幅图像的视觉效果尽可能一致。其中,VGG[37]和ResNet[38]是最常用的训练前分类网络

3、Adversarial Loss:
为了使重构的SR图像更加真实,生成对抗网络(GANs[39])被提出并引入到各种计算机视觉任务中。具体来说,GAN由发生器和鉴别器组成。生成器负责生成假样本,判别器用于判断生成样本的真实性。例如,基于交叉熵的判别损失函数由SRGAN提出
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
其中G(ILQ)为重构的SR图像,G和D分别表示生成器和鉴别器

4、Prior Loss
除了上述损失函数外,还可以在SISR模型中引入一些先验知识,如稀疏先验、梯度先验、边缘先验等,参与高质量的图像重建。其中,梯度先验损失和边缘先验损失是应用最广泛的先验损失函数,定义如下:
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

2.5评估方法
图像质量评价(IQA)一般可分为客观方法和主观方法。客观方法一般采用特定的公式计算结果,简单公正,成为SISR的主流评价方法。但是,它们只能从数值的角度反映图像像素的恢复情况,难以准确衡量图像的真实视觉效果。相比之下,主观方法总是基于人的主观判断,更多地与评价图像的感知质量有关。基于上述两种方法的优缺点,下面从图像重建精度、图像感知质量和重建效率三个方面简要介绍几种评估方法。

2.5.1图像重建精度
用于评估图像重建精度的评估方法也称为失真测量,它是全参考的。具体来说,给定一个失真图像x和一个地面真实参考图像x,全参考失真通过使用不同的算法测量x在[40]中的差异来量化x^的质量
1、峰值信噪比:PSNRPeak Signal-to-Noise Ratio (PSNR)
2、结构相似指数测量:Structural Similarity index measure(SSIM)

2.5.2图像感知质量
由于人类的视觉系统是复杂的,判断两幅图像之间的差异涉及到很多方面,即图像内部的纹理和流动,追求绝对相似差异(PSNR/SSIM)的方法并不总是表现良好。虽然失真测量已被广泛应用,但重建精度的提高并不总是伴随着视觉质量的改善。事实上,研究人员已经证明,在某些情况下,扭曲和感知质量是相互矛盾的。图像x^的图像感知质量被定义为它看起来像自然图像的程度,这与它与任何参考图像的相似性无关
1、平均意见分Mean Opinion Score (MOS)
2、自然图像质量评估器Natural Image Quality Evaluator (NIQE)
3、Ma
4、PI

2.5.3重构效率
虽然设计更深层次的网络是获得更好重构性能的最简单方法,但不可忽视的是,这些模型也会带来更多的参数、执行时间和计算成本。为了扩大SISR的实际应用,我们需要考虑模型性能和模型复杂性之间的权衡。因此,通过以下基本评估来评估重建效率是非常重要的
1、模型大小:模型的参数量是衡量模型大小最直观的指标。
2、执行时间:通常,轻量级模型往往需要较短的执行时间,但注意力机制等复杂策略的出现打破了这种平衡。换句话说,当将一些复杂的操作引入模型时,轻量级网络也可能需要较长的执行时间。因此,评估模型的执行时间是非常重要的。
3、多重-添加:由于CNN模型中的运算主要是乘法和加法,所以总是用乘法-累加操作的数量来衡量模型的计算量。多重添加的值与运行模型所需的速度或时间有关。综上所述,模型性能与模型复杂性之间的权衡仍然是需要关注的问题

单幅图像超分辨率

3.1基于dl的SISR基准框架
2014年,Dong et al.[9]提出了超分辨率卷积神经网络(SRCNN)。SRCNN是第一个基于cnn的SISR模型。结果表明,深度CNN模型等价于基于稀疏编码的方法,是一种基于实例的SISR方法。近年来,越来越多的SISR模型将其视为端到端的学习任务。因此,构建深度神经网络直接学习LR和HR图像之间的映射关系已成为SISR中的主流方法。在SRCNN的推动下,基于cnn的SISR方法正在蓬勃发展,并不断刷新最佳结果
根据目标的不同,我们将基于dl的SISR模型分为四类:重构效率方法、重构精度方法、感知质量方法和进一步改进方法

3.2重构效率方法
由于硬件限制导致的精度不高的问题,提出了研究高效SISR模型的需求。因此,迫切需要设计轻量级的SISR模型,使其能够实现与笨重的同类产品相同甚至更好的性能。在本节中,我们将讨论一些有助于高效网络结构设计的方法。

3.2.1 Residual Learning
SRCNN中,研究人员发现,通过增加更多的卷积层来增加接受野,可以获得更好的重建性能。然而,直接堆叠层将导致消失/爆炸的梯度和退化问题[48]。同时,增加更多的层数将导致更高的训练误差和更昂贵的计算成本。
ResNet[49]中,He等人提出了一种残差学习框架,该框架需要残差映射,而不是拟合整个底层映射(图6)。在SISR中,由于LR图像和HR图像共享大部分相同的信息,很容易对LR图像和HR图像之间的残差图像进行显式建模。剩余学习使深度网络和缓解梯度消失和退化的问题。在剩余学习的帮助下,Kim[50]提出了一个非常深的超分辨率网络,也被称为VDSR。为了便于网络设计,剩余块[49]逐渐成为网络结构中的基本单元。在卷积分支中,它通常有两个3×3卷积层,两个批处理归一层,中间有一个ReLU激活函数。值得注意的是,批处理归一层经常在SISR任务中被移除,因为EDSR[51]指出批处理归一层会消耗更多的内存,但不会提高模型性能
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
Global and Local Residual Learning:
全局残差学习是一种从输入到最终重构层的跳跃式连接,有助于改善信息从输入到输出的传递,在一定程度上减少信息的丢失。然而,随着网络变得越来越深,在经过这么多层之后,大量的图像细节不可避免地会丢失。因此,提出了**局部残差学习,它是在每几个堆叠层中执行,而不是从输入到输出。**该方法形成了多路径模式,承载了丰富的图像细节,也有利于梯度流动。此外,许多新的特征提取模块引入了局部残差学习,增强了较强的学习能力[52],[53]。当然,结合局部剩余学习和全局剩余学习现在也很流行[38],[51],[53]。

Residual Scaling
在EDSR[51]中,Lim等人发现,将特征图(即信道维度)增加到8以上会使训练过程数值不稳定。为了解决这些问题,他们采用了残差缩放[54],在将残差添加到主路径之前,通过乘以0到1之间的常数来缩小残差。利用这种残差尺度法,可以进一步提高模型的性能。

3.2.2递归学习Recursive Learning
为了在不增加模型参数的情况下获得较大的接受域,对SISR提出了递归学习,即在网络中重复应用相同的子模块,并且它们共享相同的参数。在其他情况下,递归块是递归单元的集合,其中这些递归单元之间的对应结构共享相同的参数。例如,在DRCN[55]中应用相同的卷积层16次,产生41 × 41大小的感受野。但是,在基于递归学习的模型中,过多的堆叠层仍然会导致梯度消失/爆炸的问题。因此,在DRRN[56]中,递归块是基于残差学习进行的(图7)。最近,越来越多的模型在其递归单元中引入残差学习策略,如MemNet [57], CARN [58], SRRFN [59]
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
3.2.3 Gating Mechanism闸门机制
**上述残差学习中的跳过连接往往使输出特征的通道维数极高。如果这样的高维通道在接下来的几层中保持不变,计算成本将非常大,从而影响重构的效率和性能。直观地说,跳过连接后的输出特征应该被有效地拒绝融合,而不是简单地连接。为了解决这个问题,研究人员建议使用门控机制来自适应地提取和学习更有效的信息。大多数情况下,采用1×1卷积层来完成门控机制,可以降低通道维数,留下更有效的信息。在SRDenseNet[60]MSRN[52]中,这样的1×1卷积层作为重构模块之前的瓶颈层。在MemNet[57]中,它是每个记忆块末端的一个门单元,用来控制长期记忆和短期记忆的权重。注意,栅极不仅可以作为瓶颈放置在网络的末端,还可以在网络中连续进行。例如MemNet[57]、IDN[61]和CARN[62]**中,在全局和局部区域都使用了门控机制。**有时还可以结合其他操作,如注意机制,构建更有效的栅极模块,实现特征蒸馏。**如Li等结合MDCN中的1 × 1卷积层和注意机制,提出了分层特征蒸馏块(图8)[63]。
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

3.2.4 Curriculum Learning
Curriculum Learning是指逐步增加学习任务的难度。对于一些序列预测任务或序列决策问题,采用Curriculum Learning的方法来减少训练时间,提高泛化性能。由于SISR是一个不适定问题,由于尺度因子大、退化核未知、噪声等不利条件,总是面临很大的学习难度,因此可以采用课程学习来简化学习过程,提高重构效率。LapSRN[64]采用课程学习逐步重建高分辨率图像的子带残差。在ProSR[65]中,将金字塔的每一层逐渐混合进来,以减少对之前训练层的影响,并逐步增加每个尺度的训练对。在SRFBN[66]中,应用课程学习策略来解决复杂的退化任务,对不同难度的目标进行排序,逐步学习。通过课程学习,可以将复杂的问题分解为多个简单的任务,加快模型收敛速度,获得更好的重构效果。

3.3 Reconstruction Accuracy Methods
重建SR图像的质量一直是SISR中关心的主要问题。在本节中,我们将介绍一些经典的方法和策略,可以帮助提高SISR模型的重建精度。

3.3.1多尺度学习
众所周知,丰富而准确的图像特征对于SR图像重建至关重要。同时,大量研究[64]、[67]、[68]指出,图像在不同尺度下可能表现出不同的特征,充分利用这些特征可以进一步提高模型的性能。Li et al.[52]受inception模块[68]的启发,提出了一种多尺度残馀块(MSRB,图9)用于特征提取。MSRB将不同的卷积核集成在一个块中,自适应地提取不同尺度的图像特征。之后,Li等[63]进一步优化了结构,提出了一种更高效的9多尺度密集交叉块(MDCB)进行特征提取。MDCB本质上是一个双路径密集网络,可以有效地检测局部和多尺度特征。
近年来,越来越多的多尺度SISR模型被提出。如秦等[69]提出了一种多尺度特征融合残差网络(MSFFRN)来充分利用图像特征进行SISR。Chang等[70]将多尺度学习与密集连接相结合,提出了多尺度密集网络(MSDN)。Cao等[71]开发了一种新的SR方法,称为多尺度剩余通道注意网络(MSRCAN),将通道注意机制引入MSRB。以上实例表明,多尺度图像特征的提取和利用对于进一步提高重建图像的质量越来越重要。
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
3.3.2 Dense Connection
密集连接机制在DenseNet[72]中提出,近年来被广泛应用于计算机视觉任务中。与只将层次特征发送到最终重构层的结构不同,稠密块中的每一层都接收到前面所有层的特征(图10)。大多数层之间创建的短路径可以帮助缓解梯度消失/爆炸的问题,加强层之间的深层信息流,从而进一步提高重建精度。在密集连接机制的激励下,Tong等人将其引入到SISR中,提出了SRDenseNet[60]。SRDenseNet不仅使用层级密连接,还使用块级密连接,每个密块的输出都通过密连接连接起来。这样,将底层特征和高层特征结合起来,充分利用底层特征进行重构。在RDN[73]中,将密集连接与残差学习相结合,形成残差密集块(residual dense block, RDB), RDB允许通过多个跳过连接绕过低频特征,使主分支专注于学习高频信息。除了上述模型外,密集连接还应用于MemNet[57]、RPMNet[74]、MFNet[75]等。借助密集连接机制,可以充分利用网络不同深度之间的信息流,从而提供更好的重建效果。
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
3.3.3 Attention Mechanism
注意力机制可以被视为一种工具,可以将可用资源分配到输入中信息量最大的部分。为了提高学习过程中的效率,提出了一些工作来引导网络更加关注感兴趣的区域。例如,Hu等人[76]提出了一种
挤压-激励(SE)块
来建模图像分类任务中的通道关系。Wang等[77]通过引入非局部操作,提出了一种用于视频分类的非局部注意力神经网络。在这些方法的激励下,注意机制也被引入到SISR中

1、Channel Attention:
在SISR中,我们主要希望尽可能多地恢复有价值的高频信息。然而,常见的基于cnn的方法对通道特征一视同仁,这在处理不同类型的信息时缺乏灵活性。为了解决这一问题,许多方法[53],[78]在SISR模型中引入了SE机制。例如,Zhang et al.[53]基于SE机制提出了一种新的模块,命名为残差通道注意块(residual channel attention block, RCAB)。如图11所示,使用全局平均池化层和Sigmoid函数对每个特征通道进行重新缩放,使网络集中在更多有用的通道上,增强判别学习能力。在SAN[79]中,我们探索了特征的二阶统计来进行基于协方差归一化的注意机制。大量实验表明,二阶通道注意可以帮助网络获得更具判别性的表示,从而获得更高的重构精度。

2、Non-Local Attention:
当基于cnn的方法在局部接受域进行卷积时,该域以外的上下文信息被忽略,而远处区域的特征可能具有较高的相关性,可以提供有效的信息。针对这一问题,提出了非局部注意作为一种滤波算法来计算图像中所有像素的加权平均值。通过这种方式,远处的像素也可以对关注的位置做出反应。例如,非局部操作在有限邻域内进行,以提高NLRN中的鲁棒性[80]。RNAN中提出了一种非局部注意块[81],在其掩码分支中同时使用通道和空间两方面的注意机制,以更好地指导主干分支中的特征提取。同时,在HAN[82]中提出了一个整体注意网络,该网络由一个层注意模块和一个通道-空间注意模块组成,用于建模层、通道和位置之间的整体相互依赖关系。在CSNLN[83]中,提出了跨尺度非局部注意模块,用于挖掘同一特征图中LR特征与大规模HR补丁之间的长期依赖关系。这些方法都证明了非局部注意的有效性,可以进一步提高模型的性能。

3.3.4 Feedback Mechanism
反馈机制是指将一个输出的概念带入到之前的状态中,使模型有一个自我修正的过程。值得注意的是,反馈机制不同于递归学习,因为在反馈机制中,模型参数保持自校正,不共享。近年来,反馈机制已被广泛应用于许多计算机视觉任务[84],[85],这也有利于SR图像重建。具体而言,反馈机制可以使网络将高级信息带回前一层,并对低级信息进行细化,从而充分引导LR图像恢复高质量的SR图像。在DBPN[86]中,提供了迭代的上下采样层,实现了每个阶段投影误差的误差反馈机制。在DSRN[87]中,提出了一种双状态循环网络,通过延迟反馈在这些状态之间双向交换循环信号。在SFRBN[66]中,提出了一个反馈块,每次迭代的输入都是前一次迭代的输出作为反馈信息。接着是几个具有密集跳过连接的投影组,对低级表示进行细化,并成为更强大的高级表示。
3.3.5 Additional Prior
大多数方法都倾向于构建端到端的CNN模型来实现SISR,因为它简单且易于实现。然而,由于大量有用的特征已经丢失或损坏,他们很难重建真实的高频细节。为了解决这一问题,提出了先验引导的SISR框架。大量实验表明,在图像先验的帮助下,模型收敛速度更快,重构精度更高。近年来,许多图像先验被提出,如全变分先验、稀疏先验和边缘先验。基于此,Yang等人将边缘先验与递归网络相结合,提出了一种**深度边缘引导循环残差网络(DEGREE[88])**用于SISR。之后,Fang等人提出了一种高效准确的Soft-edge Assisted Network (SeaNet[89])。与直接应用现有边缘检测器检测图像边缘的DEGREE不同,SeaNet自动从构建的edge - net中学习更精确的图像边缘。同时,作者指出,引入的先验越准确,性能的改善就越大。

3.4 Perceptual Quality Methods感知质量方法

大多数方法只是寻求重建具有高PSNR和SSIM的SR图像。然而,重建精度的提高并不总是伴随着视觉质量的提高。Blau等人[90]指出存在一种感知扭曲的权衡。只有提高感知质量或扭曲的一种可能,而提高一种必须以牺牲另一种为代价。因此,在本节中,我们提供了缓解这种权衡问题的方法,希望在保持图像良好感知质量的同时提供更少的失真。

3.4.1 Perceptual Loss
3.4.2 Adversarial Training
3.4.3 Additional Prior (Perceptual)
3.4.4 Cycle Consistency

3.5 进一步改进的方法
在前面的部分中,我们介绍了如何设计一个高效的SISR模型,以及如何获得高重建精度和高感知质量的SR图像。虽然目前的SISR模型在实现重建精度和感知质量之间的平衡方面已经取得了重大突破,但探索更有效的模型仍然是一个热门话题。
3.5.1内部统计
在[103]中,Zontak等人发现一些补丁只存在于特定的图像中,而在任何外部的示例数据库中都找不到。因此,在外部图像上训练的SR方法由于缺乏补丁信息,在外部图像上不能很好地工作,而基于内部统计的方法可能有很好的性能。同时,Zontak等人指出,单幅图像中斑块的内部熵比一般自然图像集合中斑块的外部熵要小得多。因此,利用内部图像统计来进一步提高模型性能是一个很好的选择。
在ZSSR[34]中,内部图像统计属性用于训练特定于图像的CNN,其中训练示例从测试图像本身提取。在训练阶段,使用数据增强生成若干个LR-HR对,并使用这些对训练一个CNN。在测试时,将LR图像ILR作为输入输入给训练好的CNN,得到重建图像。在此过程中,模型充分利用图像本身的内部统计信息进行自我学习。在SinGAN[104]中,提出了一种具有全卷积GANs金字塔的无条件生成模型,以学习图像在不同尺度上的内部斑块分布。为了利用内部信息的递归,他们对LR图像进行了多次上采样(取决于最终的尺度),以获得最终的SR输出。

3.5.2 Multi-factors Learning
通常,在SISR中,我们经常需要针对不同的上采样因素训练特定的模型,并且很难期望一个模型可以应用于多个上采样因素。为了解决这一问题,一些多上采样因子模型被提出,如LapSRN [105], MDSR [51], MDCN[63]。在LapSRN[105]中,LR图像在金字塔网络中逐步重建,得到大尺度结果,中间结果可直接作为相应的多因素结果。在[51]中,Lim等人发现多尺度任务之间存在着相互关联的现象,即用预先训练好的低尺度网络初始化高尺度模型参数可以加快训练过程,提高性能。因此,他们在模型的头部和尾部提出了特定于标度的处理模块,以处理不同的上采样因子。为了进一步挖掘不同上采样因子之间的尺度间相关性,Li等人在MDCN中进一步优化了策略[63]。不同于MDSR在模型的头部和尾部都引入了尺度特定的处理策略,MDCN可以最大限度地重用模型参数并学习尺度间的相关性。

3.5.3 Knowledge Distillation
知识蒸馏是指将一个大模型(教师)的表示能力转移到一个小模型(学生),以增强学生模型的性能的技术。因此,它被广泛应用于网络压缩或进一步提高学生模型的性能,并在许多计算机视觉任务中显示出了有效性。同时,知识蒸馏主要有两种,软标签蒸馏和特征蒸馏。在软标签蒸馏中,教师模型的softmax输出被视为软标签,为学生模型提供信息性的暗知识[106]。在特征蒸馏中,中间特征图被转移到学生模型[107],[108]。受此启发,一些工作将知识蒸馏技术引入到SISR中,以进一步提高轻量级模型的性能。例如,在SRKD[109]中,一个小型但高效的学生网络由一个深入而强大的教师网络引导,以实现与教师相似的特征分布。在[110]中,教师网络利用HR图像作为特权信息,通过特征蒸馏将教师网络解码器的中间特征传递给学生网络,使学生可以从用HR图像训练过的教师那里了解高频细节

3.5.4 Reference-based SISR
与仅使用单个LR图像作为输入的SISR不同,基于参考的SISR (RefSR)采用参考图像来辅助SR过程。参考图像可以从各种来源获得,如相册、视频帧和网络图像搜索。同时,提出了几种增强图像纹理的方法,如图像对齐和补丁匹配。最近,一些RefSR方法[111],[112]在假设参考图像与LR图像具有相似内容的情况下,选择将LR图像与参考图像对齐。例如,Yue等[111]在参考图像和LR图像之间进行全局配准和局部匹配,以解决能量最小化问题。在CrossNet[112]中,提出了光流来对齐不同尺度的参考图像和LR图像,然后将它们连接到解码器的相应层中。然而,这些方法都假设参考图像与LR图像有良好的对齐。否则,他们的表现将受到很大的影响。与这些方法不同,Zhang et al.[23]在LR图像与参考图像的VGG特征之间进行补丁匹配,自适应地将参考图像中的纹理传输到LR图像中。在TTSR[113]中,Yang等人提出了一种纹理转换器网络,基于注意机制从参考图像中搜索相关纹理并将其传输到LR图像中。

3.5.5 Transformer-based SISR
Transformer的核心思想是自注意机制,它可以捕获序列元素之间的长期信息。最近,Transformer[114]在NLP任务中取得了辉煌的成绩。例如,预先训练的深度学习模型(例如BERT [115], GPT[116])已经显示出比传统方法更有效的效果。受此启发,越来越多的研究者开始探索Transformer在计算机视觉任务中的应用,并在许多任务中取得了突破性的成果。目前,一些研究者试图将Transformer引入图像恢复任务。例如,Chen等人提出了图像处理转换器(Image Processing Transformer, IPT[117]),它是在大规模数据集上进行预训练的。此外,针对不同的图像处理任务引入了对比学习。因此,经过优化后的预训练模型可以有效地用于预期任务。但IPT[117]依赖于大规模数据集,参数数量庞大(超过115.5亿个参数),极大地限制了其应用场景。为了解决这一问题,Liang等人在Swin Transformer[119]的基础上提出了用于图像恢复的SwinIR[118]。具体来说,提出了Swin Transformer块(RSTB)进行特征提取,使用DIV2K+Flickr2K进行训练。此外,Lu等人[120]提出了一种高效超分辨率变换器(Efficient SuperResolution Transformer, ESRT),用于快速准确的SISR。值得注意的是,ESRT是一种轻量级模型,它以更少的参数和较低的计算成本实现了具有竞争力的结果。Transformer是一项强大的技术,但如何使用更少的参数和数据集来有效地训练模型仍然值得探索

4 特定领域的应用

4.1真实世界的SISR
退化模式在现实场景中是复杂和未知的,其中降采样通常在各向异性模糊后执行,有时还添加了信号相关的噪声。它还受到相机内信号处理(ISP)管道的影响。因此,双三次退化训练的SISR模型在处理真实图像时表现不佳。此外,上述所有模型都只能应用于某些特定的积分上采样因子,但针对不同的实际应用,开发尺度任意的SISR模型至关重要
近年来,针对真实SISR提出了一些数据集和新技术。在[19]中,提出了RealSR数据集,通过调整数码相机的焦距来捕获同一场景上的配对LR-HR图像。同时,利用该数据集训练一个基于拉普拉斯金字塔的核预测网络(LP-KPN)来学习像素核以恢复SR图像。然后,提出了一系列基于实数图像对的方法[121]、[122]、[123]。然而,该数据集是后处理的,难以大量收集,这仍然限制了模型的性能。此外,还提出了一些新的技术,如无监督学习[124],[125],自监督学习[34],[126],零镜头学习[34],[127],元学习[128],[129],盲SISR,尺度任意SISR[130],[131]。在这一部分中,我们将介绍后三种方法,因为它们令人印象深刻的远见卓识和通用性

4.1.1Blind SISR
Blind SISR是一种针对退化未知的LR图像的超分辨技术,由于其在实际应用中的重要意义,越来越受到人们的关注。根据退化建模的方法,可以简单地分为显式退化建模方法和隐式退化建模方法两类。其中,显式退化建模方法根据是否使用核估计技术可以进一步分为两类。例如,Zhang等人提出了一种简单且可扩展的深度CNN框架,用于多次退化(SRMD[132])学习。在SRMD中,采用维数拉伸策略后,将LR图像和退化图拼接起来作为输入。在DPSR[133]中,深度超解析器可以作为一种新的退化模型的先验,以处理具有任意模糊核的LR图像。在此基础上,提出了UDVD[134]、AMNet[135]、USRNet[136]等一系列盲SISR方法,将退化图作为SR图像重建的附加输入。相比之下,一些盲SISR方法在SR过程[137]、[138]、[139]、[140]的同时也关注核估计。例如,在IKC[137]中,提出了迭代核校正过程,以帮助盲SISR任务找到更准确的模糊核。在DAN[138]中,Luo等人采用交替优化算法在单一网络中估计模糊核和恢复SR图像,使得恢复器和估计器之间能够很好地兼容,从而在核估计方面取得了很好的效果。然而,上述方法的重构精度在很大程度上取决于退化模式估计的精度。为了解决这一问题,提出了更多隐式退化建模方法[35],[141],[142],其目的是通过外部数据集隐式地学习潜在的退化模式

4.1.2 Meta-Learning
人工智能很难像人类智能那样快速适应新事物/数据,因为将先前的经验与更多的新信息相结合具有挑战性。元学习,或学会学习,是针对基于学习的问题提出的机制,通常用于少次/零次学习和迁移学习。在元学习中,训练后的模型在大任务空间中快速学习新任务,其中测试样本用于优化元学习器,因此在遇到新任务时,模型可以在元学习器的帮助下快速适应。在SISR中,考虑到缺乏真实的配对样本,我们希望模型能够在模拟的配对数据集上进行训练,然后将学习到的经验转移到真实的SISR任务中。为了解决这个问题,Soh等人提出了MZSR[128]。在MZSR中,提出了一种新的基于元迁移学习的训练方案,在零镜头无监督设置下学习有效的初始权值以快速适应新任务,使模型能够应用于实际场景并取得良好的效果。在[129]中,Park等人提出了一种有效的元学习方法,在不改变传统SISR网络架构的情况下进一步提高模型性能。该方法可以应用于任何现有的SISR模型,有效地处理未知的SR内核。在[143]中,Hu等人提出了第一个统一的用于任意退化参数的元学习超分辨率网络,称为Meta-USR[143]。

4.1.3 Scale Arbitrary SISR
在实际应用场景中,除了处理真实图像外,使用单个模型处理任意比例因子也很重要。为了实现这一点,Hu等人提出了两种简单但功能强大的方法,称为Meta-SR[130]和Meta-USR[143]。其中,Meta-SR是第一个可用于任意尺度因子的SISR方法,MetaUSR是可用于任意退化模式(包括任意尺度因子)的改进版本。尽管Meta-SR和Meta-USR在非整数尺度因子上表现良好,但它们不能处理非对称尺度因子下的SR。为了缓解这一问题,Wang等人[131]建议从特定尺度网络中学习任意尺度的SISR模型,并为现有模型开发了一个插件模块,以实现任意尺度的sr。具体而言,所提出的插件模块使用条件卷积根据输入尺度信息动态生成滤波器,因此配备了该模块的网络在只有单个模型的任意尺度下也能取得很好的效果。

4.2遥感图像超分辨率

随着卫星图像处理技术的发展,遥感技术变得越来越重要。然而,由于现有成像传感器的局限性和复杂的大气条件,如有限的空间分辨率、光谱分辨率和辐射分辨率,我们在遥感应用方面面临着巨大的挑战
近年来,人们提出了许多实现遥感图像超分辨率的方法。例如,文献[144]针对超分辨率遥感图像提出了一种新的无监督沙漏神经网络。该模型使用生成随机噪声引入更多种类的空间模式,并根据全局重构约束将其提升到更高的尺度。文献[145]提出了深度剩余挤压激励网络(Deep Residual Squeeze and励磁网络,DRSEN)来克服遥感图像分布的高复杂性问题。文献[146]提出了一种混合高阶注意网络(mixed high-order attention network, MHAN),该网络由用于特征提取的特征提取网络和具有高阶注意机制的特征细化网络组成,用于细节恢复。在[147]中,作者开发了一种高密度采样超分辨率网络(DSSR)来探索遥感图像的大规模SR重建

4.3高光谱图像超分辨率
与人眼只能暴露在可见光下不同,高光谱成像是一种在整个电磁波谱范围内收集和处理信息的技术[148]。高光谱系统往往受到入射能量的限制,因此在空间分辨率和光谱分辨率之间存在权衡。因此,研究高光谱图像的超分辨率来解决这一问题。在[149]中,提出了一种三维全卷积神经网络来提取高光谱图像的特征。在[150]中,Li等人通过设计一个群递归模块并将其嵌入到全局残差结构中,提出了一种分组深度递归残差网络。在[151]中,提出了一种基于无监督cnn的方法来有效地利用高光谱图像的潜在特征。在[152]中,Jiang等人提出了一种群卷积和渐进上采样框架来减小模型的规模,使得在小数据条件下获得稳定的训练结果成为可能。在[153]中,提出了一种光谱分组和注意驱动的残差密集网络(Spectral Grouping and Attention-Driven Residual density Network),以促进所有光谱波段的建模,并专注于空间光谱特征的探索。

4.4光场图像超分辨率
光场(LF)相机是一种可以捕捉关于从场景中发出的光场信息的相机,可以提供场景的多个视图。近年来,由于低频图像可以用于捕获后的重聚焦、深度感知和去遮挡,它变得越来越重要。然而,低频相机面临着空间分辨率和角度分辨率之间的权衡[154]。为了解决这一问题,引入了SR技术,在空间分辨率和角度分辨率之间实现了良好的平衡。在[155]中,引入了级联卷积神经网络来同时对光场图像的空间和角度分辨率进行上采样。同时,提出了一种新的光场图像数据集进行训练和验证。为了减少光场图像超分辨率对精确深度或视差信息作为先验的依赖,Sun等[156]提出了一种双向递归卷积神经网络和隐式多尺度融合的SR图像重建方案。在[154]中,Wang等人提出了用于低频图像SR的空间-角度交互网络(LF- internet)。同时,他们设计了用于特征级对齐的角度可变形对齐模块,并提出了可变形卷积网络(LF- dfnet[157])来处理低频图像SR的视差问题。

4.5人脸图像超分辨率
人脸图像超分辨率是将SR技术应用于特定领域图像的最著名领域。由于人脸图像超分辨率在安防监控等人脸识别系统中的潜在应用,已成为一个活跃的研究领域。近年来,基于dl的方法在人脸图像超分辨率方面取得了显著进展。在文献[158]中,提出了一种将人脸幻觉和照明补偿结合在一起的译制CPGAN,该算法通过传统的人脸幻觉损失和一种新的照明补偿损失进行优化。在[159]中,Zhu等人提出联合学习面部幻觉和面部空间对应场估计。在[160]中,发电机架构中使用了空间变压器网络,以克服与输入图像不对齐相关的问题。在[161],[162]中,通过最小化SR和HR人脸图像嵌入向量之间的距离,利用身份损失来保留与身份相关的特征。在[163]中,掩模遮挡被视为图像噪声,并构造了一个联合协作学习网络(JDSR-GAN)用于掩模面部超分辨率任务。

4.6 医学图像超分辨率
计算机断层扫描(CT)和磁共振成像(MRI)等医学成像方法对临床诊断和手术规划至关重要。因此,需要高分辨率的医学图像来提供必要的人体视觉信息。近年来,许多医学图像超分辨率的方法被提出,例如Chen等人提出了一种采用gan引导训练的多层密集连接超分辨率网络(mDCSRN[164])来生成高分辨率的磁共振图像,可以快速训练和推理。文献[165]提出了一种3D超分辨率卷积神经网络(3DSRCNN)来提高3D- ct体积图像的分辨率。在[166]中,Zhao等人提出了深度通道分裂网络(deep Channel Splitting Network, CSN),以减轻深度模型的表示负担,进一步提高MR图像的SR性能。在[167]中,Peng等人引入了用于医疗切片合成的空间感知插值网络(spatial - aware Interpolation Network, SAINT),以缓解体积数据带来的内存约束。这些方法都是构建智能医疗系统的基石,具有重要的研究意义和价值

4.7立体图像超分辨率
双摄像机已经广泛应用于深度信息的估计。同时,立体成像也可以应用于图像恢复。在立体图像对中,我们有两个视差远远大于一个像素的图像。因此,充分利用这两幅图像可以提高空间分辨率。在StereoSR[168]中,Jeon等人提出了一种在增强立体图像的空间分辨率之前先学习亚像素视差的方法。然而,在StereoSR中,右移图像的数量是固定的,这使得它无法处理视差变化较大的不同立体图像。为了解决这一问题,Wang等人[169],[170]提出了一种视差注意机制,该机制具有沿极线的全局接受场,可以在立体图像对之间产生可靠的对应关系,15提高了重建SR图像的质量。在[22]中,提出了一个名为Flickr1024的立体图像超分辨率数据集,该数据集由1024个高质量立体图像对组成。在[171]中,提出了一种立体注意模块,将预训练的SISR网络扩展到立体图像SR,该网络以对称紧凑的方式与立体信息双向交互。在[172]中,为了有效地交互交叉视图信息,提出了对称双向视差注意模块和内联遮挡处理方案。在[173]中,提出了一种立体图像超分辨率和视差估计反馈网络(SSRDE-FNet),在一个统一的框架内同时处理立体图像的超分辨率和视差估计

5重建结果

为了帮助读者直观地了解上述SISR模型的性能,我们对这些模型的重构结果进行了详细的比较。根据模型参数的数量,我们将SISR模型分为两类:轻量级模型和大型模型。注意,我们将参数小于1000K的模型称为轻量级模型,将参数大于1M (M=million)的模型称为大型模型。具体来说,我们收集了44个具有代表性的SISR模型,包括最经典的、最新的和SOTA SISR模型。
在表2中,我们提供了这些模型的重建结果、训练数据集和模型参数(轻量级模型和大型模型由粗体黑线分隔)。根据结果,我们可以发现:
(1)使用大数据集(如DIV2K+Flickr2K)可以使模型获得更好的结果;
(2)“模型参数越多,模型性能越好”的说法并不完全正确。这意味着不合理地增加模型尺寸并不是最好的解决方案;
(3)无论是轻量级模型(如ESRT[120])还是大型模型(如SwinIR[118]),基于变压器的模型都显示出强大的优势;
(4)对于微小模型(参数小于1000K)的研究仍然缺乏。未来,探索更具鉴别性的评价指标,开发更有效的SISR模型仍是重要课题
【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution

6有待解决的问题及未来发展方向

上述模型确实取得了很好的效果,极大地促进了SISR的发展。然而,我们不能忽视的是,SISR仍然存在许多具有挑战性的问题。在本节中,我们将指出一些挑战,并总结一些有希望的趋势和未来方向。

6.1边缘设备的轻量化SISR
随着智能终端市场的巨大发展,轻量化SISR模型的研究越来越受到重视。虽然现有的轻量级SISR模型已经在模型尺寸和性能之间取得了很好的平衡,但我们发现它们仍然不能用于边缘设备(例如智能手机、智能相机)。这是因为这些模型的模型大小和计算成本仍然超过了边缘设备的限制。因此,探索可用于边缘器件的轻量化SISR模型具有重要的研究意义和商业价值。为此,更高效的网络结构和机制值得进一步探索。此外,还需要使用网络二值化[184]、网络量化[185]等技术来进一步减小模型规模。在未来,将轻量级的SISR模型与模型压缩方案相结合,以实现SISR在边缘设备上的使用是值得的。

6.2 灵活可调的SISR
尽管基于dl的SISR模型已经取得了令人满意的结果,但我们注意到一个现象,即所有这些模型的结构在训练和测试过程中必须保持一致。这极大地限制了模型的灵活性,使得同一模型难以应用于不同的应用场景。换句话说,训练专门设计的模型来满足不同平台的要求是以前的方法所必需的。然而,这将需要大量的人力和物力。因此,设计一个灵活的、可调节的SISR模型,在不需要再训练的情况下部署在不同的平台上,同时保持良好的重构效果是至关重要的

6.3新的损失函数和评估方法

在过去,大多数的SISR模型依赖于L1损失或MSE损失。虽然提出了内容损失、纹理损失、对抗性损失等新的损失函数,但仍不能很好地实现重构精度和感知质量之间的平衡。因此,探索新的损失函数来缓解感知失真的权衡仍然是一个重要的研究课题。同时,一些新的考核方法存在主观性和不公平性。因此,能够同时有效反映图像感知和失真的新评估方法也是必不可少的

6.4与高水平任务相互促进
众所周知,高级计算机视觉任务(如图像分类、图像分割和图像分析)高度依赖于输入图像的质量,因此通常使用SISR技术进行预处理。同时,SR图像的质量将极大地影响这些任务的准确性。因此,我们建议使用高水平CV任务的准确性作为评价指标来衡量SR图像的质量。同时,我们可以设计一些与高级任务相关的损失函数,这样我们就可以结合其他任务的反馈来进一步提高SR图像的质量。另一方面,我们发现利用SISR模型对图像进行预处理的两步方法效率较低,不能充分利用图像本身的潜在特征,导致模型性能较差。因此,我们建议探索可以与高级别CV任务交互的SISR模型,这样SISR和其他任务可以相互促进和学习。

6.5高效准确的真实SISR
真正的SISR注定将成为该领域未来的主流。因此,它必然成为未来几年的研究人员的焦点。一方面,足够大且准确的真实图像数据集对真实SISR至关重要。为了实现这一点,除了手动收集之外,我们建议使用生成技术来模拟图像,以及使用生成对抗网络来模拟足够的退化模式来构建大型真实数据集。另一方面,考虑到构建真实图像数据集的难度,开发基于无监督学习的ssir、基于元学习的SISR和盲SISR是非常重要的。其中,无监督学习可以使模型摆脱对数据集的依赖,元学习可以通过简单的微调帮助模型从模拟数据集迁移到真实数据,盲SISR可以显示或隐式学习图像的退化模式,然后根据学习到的退化模式重建高质量的SR图像。虽然已有大量盲SISR方法被提出,但它们的性能往往不稳定或具有严格的前提条件。因此,将它们结合起来可能会为真实的SIS带来新的解决方案

6.6高效准确的任意标度SISR
SISR已经在不同的现实场景和用户中得到了应用。因此,有必要开发一个灵活、通用的尺度任意SISR模型,可以适应任何尺度,包括非对称和非整数尺度因子。目前,大多数基于dl的SISR模型只能应用于一个或有限数量的多个上采样因子17。虽然也提出了一些尺度任意的SISR方法,但它们往往缺乏使用的灵活性和实现的简单性,这极大地限制了它们的应用场景。因此,探索一种像Bicubic一样简单灵活的基于cnn的精确标度任意SISR模型对SISR技术的推广至关重要。

6.7考虑不同图像的特点
虽然针对特定领域的应用已经提出了一系列模型,但大多数模型都直接将SISR方法转移到这些特定领域。这是最简单可行的方法,但由于忽略了特定领域图像的数据结构特征,也会抑制模型的性能。因此,充分挖掘和利用域特定图像的潜在先验特征和数据特征,有利于高效、准确地构建域特定SISR模型。在未来,基于先验知识和特定领域图像的特征进一步优化现有的SISR模型将是一个趋势。

7结论

在本次调查中,我们根据基于dl的单幅图像超分辨率方法的目标,包括重建效率、重建精度、感知质量以及其他可以进一步提高模型性能的技术,对这些方法进行了全面的概述。同时,我们对SISR的相关工作进行了详细的介绍,并介绍了SISR扩展的一系列新任务和领域特定应用。为了更直观地查看各个模型的性能,我们还提供了重建结果的详细对比。此外,我们还提出了一些潜在的问题,并介绍了一些值得进一步探索的新趋势和未来方向。我们相信这次调查可以帮助研究者更好地了解这一领域,进一步促进这一领域的发展。文章来源地址https://www.toymoban.com/news/detail-478683.html

到了这里,关于【论文阅读】SISR综述:From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【威胁情报挖掘-论文阅读】综述:高级持续性威胁智能分析技术 Advanced Persistent Threat intelligent profiling technique: A survey

    🌈你好呀!我是 是Yu欸 🌌 2024每日百字篆刻时光,感谢你的陪伴与支持 ~ 🚀 欢迎一起踏上探险之旅,挖掘无限可能,共同成长! 前些天发现了一个人工智能学习网站,内容深入浅出、易于理解。如果对人工智能感兴趣,不妨点击查看。 BinHui Tang a c, JunFeng Wang b, Zhongkun Yu

    2024年03月24日
    浏览(26)
  • 论文阅读综述:自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    题目 :Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自动驾驶感知的多模态传感器融合:综述 链接 :https://arxiv.org/abs/2202.02703 只翻译了个人认为比较重要的东西,有些官方话就省了。这篇文章通俗易懂,不过综述都是标记文献[xx]干了啥,其实咱也不知道他具体是咋

    2023年04月08日
    浏览(35)
  • 【论文阅读】Learing to summarize from human feedback

    更多关于大模型的文章可见:ShiyuNee/Awesome-Large-Language-Models: Papers about large language models (github.com) 该仓库持续更新 通过训练模型来向着人类偏好优化可以显著提高摘要质量。 High-level methodology 从一个在摘要数据集上使用SFT微调好的初始模型开始,然后经过以下三个步骤: 从已

    2024年02月09日
    浏览(23)
  • 论文阅读-BotPercent: Estimating Twitter Bot Populations from Groups to Crowds

    目录 摘要 引言 方法 数据集 BotPercent架构 实验结果 活跃用户中的Bot数量 Bot Population among Comment Sections  Bot Participation in Content Moderation Votes  Bot Population in Different Countries’ Politics 论文链接:https://arxiv.org/pdf/2302.00381.pdf         Twitter机器人检测在打击错误信息、识别恶意在

    2024年02月14日
    浏览(21)
  • [论文分享]TSPTM-survey:时间序列预训练模型研究综述

    目录 1 概要 1.1 贡献点 2 背景 2.1 时序挖掘(TSM)任务 2.2 时间序列的深度学习模型 2.3 预训练模型优势 3 TS-PTMS 概述 3.1 监督预训练 3.1.1 基于分类的预训练 3.1.1.1 通用编码器 3.1.1.2 对齐编码器 3.1.1.3 模型重编程 3.1.1.4 总结 3.1.2 基于预测的预训练 3.1.2.1 自回归 3.1.2.2 自适应编码器

    2024年02月11日
    浏览(26)
  • 3_流量预测综述阅读_Cellular traffic prediction with machine learning: A survey

    为了方便学习英语书写,总结的一些话用英语书写 摘要: review the relevant studies on cellular traffic prediction classify the prediction problems as the temporal(时间的)and spatiotemporal prediction problems 人工智能的预测模型分为:statistical, machine learning, deep learning 流量预测的challenge: complex inter

    2024年02月05日
    浏览(29)
  • 【时间序列综述】Transformer in Time Series:A Survey 论文笔记

    文章全名:Transformers in Time Series: A Survey 文章链接:[论文地址]([2202.07125v2] Transformers in Time Series: A Survey (arxiv.org)) 来源:IJCAI 2023 完成单位:阿里巴巴达摩院、上海交通大学 Transformer在自然语言处理和计算机视觉领域都取得了诸多成果,Transformer的捕获长距离依赖和交互的能力

    2024年04月26日
    浏览(32)
  • 【论文阅读笔记】Large Multimodal Agents: A Survey

    [写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬! 论文名称: Large Multimodal Agents: A Survey 论文链接: https://arxiv.org/pdf/2402.15116.pdf Large Multimodal Agents (LMAs) 大型多模态智能体 Motivation 大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LL

    2024年03月18日
    浏览(44)
  • [综述] Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era

    论文| 改文章是23年5月27日挂在arxiv上,本文重点关注4.1节Text Guided 3D Avatar Generation、4.4节Text Guided 3D Shape Transformation和第5章Discussion DreamAvatar DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models https://arxiv.org/abs/2304.00916生成姿态可控的高质量3D人体avatar,包含以下几

    2024年02月16日
    浏览(37)
  • [论文笔记]小目标识别文献综述Towards large-scale small object detection: Survey and Benchmarks

    2022_cite=12_Cheng——Towards large-scale small object detection: Survey and Benchmarks https://shaunyuan22.github.io/SODA/ 小目标检测= small object detection = SOD Datasets: SODA-D: OneDrvie; BaiduNetDisk SODA-A: OneDrvie; BaiduNetDisk Codes The official codes of our benchmark, which mainly includes data preparation and evaluation , are released belo

    2024年02月10日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包