用于图像恢复的图像层次结构的高效和显式建模
摘要
本文的目的是提出一种机制,在全局、区域和局部范围内高效、明确地对图像层次结构进行建模,以进行图像恢复。为实现这一目标,我们首先分析自然图像的两个重要属性,包括跨尺度相似性和各向异性图像特征。受此启发,我们提出了anchored stripe self-attention,它在self-attention的空间和时间复杂度与超出区域范围的建模能力之间取得了很好的平衡。然后,我们提出了一种名为GRL 的新网络架构,通过锚定条纹自注意力、窗口自注意力和通道注意力增强卷积显式地对全局、区域和局部范围内的图像层次结构进行建模。最后,将所提出的网络应用于 7 种图像恢复类型,涵盖真实和合成设置。所提出的方法为其中的几个设置了新的最先进的技术。代码位于 https://github.com/ofsoundof/GRL-Image-Restoration.git
图1。自然图像显示了全局、区域和局部范围内的特征层次。局部特征(边缘、颜色)和区域特征(粉色方块)可以通过细胞神经网络和窗口自我注意很好地建模。相比之下,很难有效且明确地对丰富的全局特征(青色矩形)进行建模。
1.介绍
图像恢复旨在从低质量图像中恢复高质量图像,这些图像是由图像退化过程(如模糊、子采样、噪声干扰和JPEG压缩)引起的。图像恢复是一个不适定逆问题,因为在图像退化过程中,有关图像的重要内容信息丢失。因此,为了恢复高质量的图像,应该充分利用退化图像中表现出的丰富信息。
自然图像包含全局、区域和局部范围的特征层次,深度神经网络可以使用这些特征进行图像恢复。首先,局部范围覆盖几个像素,典型特征是边缘和局部颜色。为了对这些局部特征进行建模,使用了具有小内核(例如3×3)的卷积神经网络。其次,区域范围由具有数十个像素的窗口表征。这一系列像素可以覆盖小物体和大物体的组件(图1中的粉红色方块)。由于范围更大,用大的核细胞神经网络明确地对区域特征(一致性、相似性)建模在参数和计算方面都是低效的。相反,具有窗口保持机制的transformers非常适合这项任务。第三,无论是局部还是区域,一些特征都具有全局跨度(图1中的青色矩形),包括但不限于对称性尝试、多尺度模式重复(图1a)、同尺度特征相似性(图1b)以及大型对象和内容的结构相似性和一致性(图1c)。要对这一范围的特征进行建模,需要对全局图像进行理解。
图2:所提出的GRL在各种图像恢复任务上实现了最先进的性能。第5节中提供的详细信息。
与局部和区域范围特征不同,对全局范围特征进行建模有两个主要挑战。首先,现有的基于卷积和窗口注意的图像恢复网络不能通过使用单个假定模块来明确地捕获长距离依赖关系。尽管在一些作品中使用了非本地操作,但它们要么在网络中很少使用,要么应用于小图像裁剪。因此,全局图像理解主要是通过重复计算模块进行特征的渐进传播。其次,当今图像分辨率的不断提高给长期依赖性建模带来了挑战。高图像分辨率导致与成对像素比较和相似性搜索相关的计算负担。
上述讨论引出了一系列重新搜索的问题:1)如何有效地对高维图像中的全局范围特征进行建模以进行图像恢复;2) 如何通过单个计算模块显式地对图像层次(局部、区域、全局)进行建模,以进行高维图像恢复;3) 以及这种联合建模如何为不同的图像恢复任务带来统一的性能改进。本文试图分别在第3节、第4节和第5节中回答这些问题。
首先,我们提出了锚定条纹自注意,用于区域范围之外的有效依赖性建模。提出的自关注是受自然图像的两个特性的启发,包括跨尺度相似性和各向异性图像特征。跨尺度相似性是指自然图像中的结构在不同尺度上被复制。受此启发,我们建议使用锚点作为中介来近似自我注意中查询和关键字之间的精确注意力映射。由于锚点将图像信息聚合到较低维的空间中,因此可以显著降低自我注意的空间和时间复杂性。此外,在观察各向异性图像特征的基础上,我们建议在垂直和水平条纹内进行编排的自注意。由于注意范围的各向异性收缩,进一步降低了复杂性。轴向条纹的组合也确保了图像内容的全局视图。当配备条纹移位操作时,四种条纹自注意模式(水平、垂直、水平移位、垂直移位)在计算复杂性和全局范围依赖性建模能力之间实现了良好的平衡。此外,从低秩和相似性传播的角度分析了所提出的锚定条纹自注意.
其次,提出了一种新的transformer网络,在单个计算模块中对全局、区域和局部范围依赖性进行精确建模。通过并行计算所提出的锚定条纹自注意、窗口自注意和通道注意增强卷积来实现图像的分层建模.
第三,将所提出的GRLtransformer应用于各种图像恢复任务。根据数据的可用性,这些任务可以分为三种设置,包括真实图像恢复、合成图像恢复和基于数据合成的真实图像恢复。总的来说,对所提出的网络进行了七项任务的探索,包括图像超分辨率、图像去噪、JPEG压缩伪影去除、去马赛克、真实图像超分辨率,单图像运动去模糊和去焦去模糊。如图2所示所提出的网络在所有研究的图像恢复任务上都显示出有希望的结果。
2.相关工作
局部范围建模的卷积。例如,基于学习的图像恢复的基本假设之一是,重复模式可能存在于相同或不同的图像中,并且它们携带的冗余信息可能有助于恢复局部补丁。因此,如果可以检测和建模重复模式,这将有所帮助。这种直觉与卷积井的计算过程相匹配,卷积井在图像上滑动内核,并检测类似于可学习内核的局部模式。通过堆叠多个卷积层,一个CNN的感受野逐渐扩大,并捕捉到丰富的图像特征。自从深度学习出现以来,已经为设计用于图像恢复的CNNs做出了巨大的努力
非局部和全局先验。除了局部特征外,对非局部和整体图像先验进行建模也很重要。非局部均值的早期工作为这种目的服务,它计算输出像素作为图像内所有像素的加权总和[4]。受此启发,最近的工作已经开发出来,利用非局部范围内的重复模式进行图像去噪[11]和超分辨率[24]。除了传统的方法外,非局部操作也被引入到深度神经网络中,用于视频分类[80]和图像SR.
除了非局部操作外,还开发了自我注意来对全局范围依赖性进行建模。受自然语言处理成功的启发,transformer已被应用于视觉感知任务和图像恢复任务,但是全局自注意力的计算复杂性随tokens数量呈二次方增长。因此,几项工作对全局自我关注效率的提高进行了研究。
区域自注意。在交流加速transformer的方法中,区域自注意似乎很有前途。这一想法是在第一次工作中提出的,并随着窗口偏移进行了改进。受转移窗口注意力用于视觉识别和感知的成功启发,该方法也用于图像恢复。尽管窗口注意机制表现良好,但在最近的工作中指出,更广泛的像素参与可以带来更好的图像恢复。因此,在本文中,我们试图提出一种方法,有效地将自我注意的建模能力提高到区域范围之外。
3.动机
3.1依赖建模的自我关注
自我注意善于明确地对长期依赖关系进行建模,它有助于信息在建模依赖关系中的传播。此操作允许将一个token与所有其他token进行比较。输出token根据相似性比较计算为所有token的加权和
其中
Q
=
W
Q
⋅
X
Q=W_{Q}·X
Q=WQ⋅X,
K
=
W
K
⋅
X
K=W_{K}·X
K=WK⋅X,
V
=
W
V
⋅
X
V=W_{V}·X
V=WV⋅X,
W
Q
W_Q
WQ,
W
K
W_K
WK,
W
V
∈
R
d
×
d
W_V∈R^{d×d}
WV∈Rd×d,以及
X
,
Y
∈
R
d
×
N
X,Y∈R^{d×N}
X,Y∈Rd×N。N和d分别记下token的数量和一个token的维数。此外,M表示注意力图,即M=Softmax(
Q
⋅
K
T
Q·K^T
Q⋅KT/√d)
自我注意的时间复杂度为O(
N
2
d
N^2d
N2d),空间复杂度由注意力映射M的项O(
N
2
N^2
N2)决定。自我注意的计算复杂性和记忆足迹随着tokens数量的增加呈二次增长。因此,对于标记的数量是特征图的两个维度的乘积的图像,自注意很容易成为计算瓶颈。为了克服这个问题,建议在一个窗口内应用自我注意。这样,显著减少了参与自我注意的标记数量,也减轻了计算负担。
窗口自关注的问题是,由于窗口大小较小(8×8),操作的建模能力仅限于区域范围。另一方面,最近的工作表明,即使窗口大小略有增加,也可以实现更好的图像恢复。因此,可以推测,区域范围以外的建模依赖性对于图像恢复仍然很重要.因此,如何去维持受控计算预算下的长程依赖性建模的能力还有待调查。
图3。跨尺度相似性。(c) 以及(d)展示出了所选择的像素和示例高分辨率图像之间的注意力映射。尽管(a)中的青色像素和(b)中的红色像素来自不同分辨率的图像,但它们相对于高分辨率图像的注意力图显示出非常相似的结构
3.2动机一:跨尺度相似性
注意力图M在自我注意力中发挥着重要作用,因为它捕捉图像中每个成对像素之间的相似性。因此,提高方程中自我注意的效率。(1)需要分析注意图的性质。我们的灵感来自图像的一个特性,即跨尺度相似性。也就是说,图像的线条和边缘等基本结构保留在具有不同比例因子的不同版本的图像中。在图3中,显示了图像中像素之间的注意力图。特别地,像素和整个图像之间的注意力图被可视化为灰度热图。因此,无论像素来自高分辨率图像还是缩小版本,像素和高分辨率图像之间的热图都显示了图像的基本结构。图3(c)和图3(d)中的热图非常相似。
锚定的自我注意。受图3所示的跨尺度相似性的启发,我们试图降低方程中全局自我注意的复杂性。公式(1)通过对不同分辨率的图像进行操作并操纵标记的数量,即O(
N
2
d
N^2d
N2d)中的
N
2
N^2
N2项。为了实现这一点,除了查询、键和值的三元组之外,我们引入了一个名为锚点的附加概念。锚集合是图像特征图中的信息的集合,并且具有较低的维度。与其直接在查询和关键字之间进行相似性比较,不如将查询作为相似性比较的中间。形式上,锚定的自我注意被提出如下方程
其中M远小于N,
A
∈
R
M
×
d
A∈R^{M×d}
A∈RM×d为锚,
M
e
∈
R
N
×
M
M_e∈R^{N×M}
Me∈RN×M,
M
d
M_d
Md∈
R
M
×
N
R^{M×N}
RM×N表示在查询锚点对和锚点密钥对间的注意力图,在本文消融研究的实施细节中,对衍生锚固件的手术选择进行了研究。
图4。自然图像中的图像特征是各向异性的。因此,并不总是需要在图像的所有部分使用均匀的全局范围注意力
由于锚的数量比其他tokens的数量小得多,因此得到的两个注意力图 M e , M d M_e,M_d Me,Md的大小比原始注意力图M在公式(1)的大小小得多。(1)。然后从右手计算方程(2)中的矩阵多重乘法。首先对锚点和关键点进行自我关注。注意力图 M d M_d Md将标记V提取为中间特征Z。然后在查询和锚点之间进行自我关注。第二注意力图 M e M_e Me扩展特征Z的大小并恢复V中的信息。锚定自我注意的计算复杂度降低到O(N M d)。并将空间复杂度降为O(N M)
3.3动机二:各向异性图像特征
图5。来自所提出的网络的不同层的(a)查询、(b)锚点和(c)密钥的可视化。(d) 显示了由公式(2)近似的注意力图,即 M e ⋅ M d M_e·M_d Me⋅Md。(e)显示了公式(1)中计算的精确注意力图M。
锚定的自我注意可以降低方程中自我注意的空间和时间复杂性。(1)通过去除二次项
N
2
N^2
N2,显著降低了自我注意的时间和空间复杂性。然而,对于图像恢复任务,剩余项是图像宽度和高度的乘积。因此,方程中固定的自我注意的复杂性。(2)由于大项N,仍然无法承受。因此,希望进一步降低锚定的自我注意的复杂性。
为了实现这一目标,我们求助于自然图像的另一个特征,即各向异性图像特征。如图4所示,自然图像特征,如图4(c)和(d)中的单个对象,图4(h)中的多尺度相似性,图4中的对称性。4(e)和(g)以各向异性的方式跨度。因此,整个图像上的各向同性全局范围注意力对于捕捉各向异性图像特征是多余的。作为回应,我们建议在图4所示的各向异性条纹内进行关注.
条纹注意机制所提出的条纹衰减机制由四种模式组成,包括水平条纹、垂直条纹、偏移水平条纹和偏移垂直条纹,水平和垂直条纹注意机制可以交替地用于transformer网络。通过这种方式,在保持全局范围建模能力和控制全局自我注意的计算复杂性之间进行权衡。因此,结合锚的概念,我们提出了锚条自注意。对于这种注意机制,在引入的锚的帮助下,在垂直和水平条纹内进行有效的自注意。
3.4讨论
所提出的锚定条纹自注意机制与其他两个概念密切相关,包括低秩和相似性传播。我们在这一小节中详细介绍了关系如下。
注意图的低秩。通过比较方程(1)和方程(2)中的自我注意机制,我们可以很容易地发现,原始的注意图M由小的注意图
M
d
,
M
e
M_d,M_e
Md,Me组成,其秩不大于M。这里的本质是在不首先计算原始保持图的情况下提供低秩近似。为了锚定的自我注意力的成功,重要的是要确保锚定作为中间,近似的注意力图与原始的注意力图相似。因此,图5中提供了额外的分析.
图6。拟议网络的体系结构。主要组件是(a)表示学习模块,它由几个阶段的转换器层组成。(b) transformer层配备了全局、区域和局部建模块。(c) 密集的条纹注意力是帮助网络超越区域范围参与的关键组成部分
首先,通过观察查询、锚点和键,我们可以得出结论,锚点的结构与查询和键非常相似。因此,锚点是查询和键中信息的一个很好的汇总。将自我关注与锚定相结合作为中介似乎是合理的。此外,近似注意力映射
M
e
⋅
M
d
M_e·M_d
Me⋅Md和精确注意力映射M也在图5中进行了比较。如图所示,近似注意力图将主要结构保持在精确注意力图中,这通过两个注意力图之间的大的Pearson相关系数(0.9505)来证实。所以,精心安排的自我关注的质量是有保证的.
度量和相似性传播。从另一个角度来看,在所提出的锚定自注意中,首先将查询和关键字与锚进行比较,然后计算查询关键字的相似性。因此,该推定过程需要将查询锚和密钥锚的相似性传播到查询密钥对。相似传播与度量空间中的三角形不等式有关.一个数学度量需要满足几个条件,包括本质三角形不等式.
其中d( , )定义了两个实体之间的度量。因此,q/k距离是由a/q距离和a/k距离之和的上界。这意味着,如果a和两个q和k相似(接近),那么q和k也应该相似(靠近)。然而,公式(1),(2)中的相似性度量由点积而不是tokens之间的距离来定义,这不满足三角不等式。因此,不能从理论上保证相似性的传播。为了研究相似性度量的影响,进行了消融研究,结果如第5节所示。将点积和距离作为相似性度量进行比较。结果表明,尽管点积不严格遵守三角不等式,但它仍然保证了更好的图像恢复结果。因此,我们可以根据经验得出结论,在当前环境下,点积足以进行相似性传播。
4建模图像层次结构
表1.单图像运动去模糊结果。前2名结果分别以红色和蓝色突出显示
表2.RealBlur[64]数据集上的单图像运动去模糊结果。网络在相同的数据集上进行训练和测试。Top-2结果分别用红色和蓝色突出显示。
在本节中,我们回答了引言中描述的第二个研究问题,即如何通过单个计算模块对图像层次结构进行明确建模。为此,我们提出了GRL网络架构,该架构包含全局范围、区域范围和局部范围的图像建模能力。
网络架构。所提出的网络的总体架构如图6所示。网络以退化的低质量图像作为输入,处理网络内部的图像,并输出恢复的高质量图像。详细地说,该网络包含三个部分。1) 特征提取层被实现为简单的卷积,并将输入图像转换为特征图。2) 表示学习组件丰富了在先前操作中提取的信息。变压器组由几个变压器层组成,并以一个卷积层结束。在整个表示学习模块中保持特征图的维度。跳过连接应用于变换器阶段和表示学习模块。3) 图像重建模块获取通过先前操作计算出的丰富特征,并估计恢复的图像
transformer层。transformer层如图所示。6b是在全局、地区和地方范围内提供分层赡养建模能力的关键组件。该层首先通过并行自注意模块和通道注意增强卷积来处理输入特征图。卷积分支用于覆盖输入特征图中的局部结构。另一方面,自注意模块包含Swin transformer V2[53]中提出的窗口注意和本文中提出的锚条注意。在两个注意力模块内的并行处理之后,特征图沿着通道维度被等分,并且再次沿着通道维度凹陷。windowattention提供了捕获区域范围依赖关系的机制。然后将卷积模块和注意力模块输出的特征图添加到输入的特征图中,由后续的MLP模块进行处理
锚定条纹自我关注所提出的锚定条纹注意力的操作根据等式进行。(2),如图6c所示。还显示了不同特征的尺寸。Q,K,V的三重态由平面线性投影导出。为了将信息汇总为锚点,锚点投影被实现为平均池化层,然后是线性投影。锚投影后,图像特征图的分辨率沿两个方向按s的因子缩小。如图6所示,两个注意力图Md和Me与原始注意力图M起到了相似的作用,但空间和时间复杂度较小.
5.实验结果
实验结果如本节所示。通过研究所提出的网络在不同图像恢复任务中的性能,回答了引言中提出的第三个研究问题。根据数据类型,所研究的任务被分为三种常用设置,包括1)真实图像恢复(单图像运动去模糊、散焦去模糊),2)基于合成数据的图像恢复(图像去噪、单图像SR、JPEG压缩伪影去除、去马赛克),以及3)基于数据合成的真实图像恢复。我们提供三种不同型号的网络,包括小型、小型和基础版本(GRL-T、GRL-S、GRL-B)。对于真实图像和合成图像恢复,Adam优化器和L1loss用于训练初始学习率为2×10−4的网络。补充材料中显示了有关训练数据集、训练协议和其他可视化结果的更多详细信息.
5.1图像去模糊
我们首先研究了所提出的网络在两个真实图像恢复任务上的性能,包括单图像运动去模糊和运动去模糊。
单图像运动去模糊。表1和表2分别显示了合成数据集(GoPro[58],HIDE[66])和实际数据集(RealBlur-R[64])上单图像运动去模糊环的实验结果。与之前最先进的Restormer[86]相比,所提出的GRL在GoPro数据集上实现了1.01 dB的显著PSNR改进。在HIDE数据集上,PSNR改善为0.43dB。请注意,改进是在较少的参数预算下实现的。如表4所示,GRL-B与Restormer相比节省了24%的参数。如表2所示,GRP-B在RealBlur-R数据集上设置了40.20 PSNR的新性能状态.
散焦去模糊。表3显示了使用单图像和双像素图像进行散焦去模糊的实验结果。我们的GRL在所有三种场景类型上都优于以前的方法。与组合场景中的Restormeron相比,我们的GRL在单像素和双像素散焦去模糊方面分别实现了0.20 dB和0.38 dB的优雅共振峰提升。与Uformer[84]和IFAN[45]相比,GRL在双像素设置下实现了1.39 dB和1.05dB的PSNR增益。
表3.散焦去模糊结果。S:单图像散焦去lurring。D:双像素散焦去Lurring
表4.彩色和灰度图像去噪结果。为了更好地进行比较,显示了模型复杂性和预测准确性。最好的两个结果分别用红色和蓝色突出显示。
5.2基于合成数据的图像恢复
研究合成数据的图像恢复对于揭示恢复方法的网络容量也很有价值。除了在真实数据上进行实验外,我们还研究了网络在合成数据上的性能。
图像去噪。首先,高斯图像去噪的实验结果如表4所示。为了在不同的模型之间进行公平的比较,表中显示了网络的复杂性和准确性。观察到了几个关键发现。I。小版本的GRL-T非常有效,将模型复杂性降低了两个数量级(仅为[6]的0.76%和DRUNet[90]的2.7%),同时又不牺牲网络精度。II。小版本GRL-S与以前最先进的SwinIR[49]和Restormer[86]相比具有竞争力。II。在Urban100上,基本版本在很大程度上优于Restormer(例如,对于彩色图像和噪声水平为50的0.44dB PSNR增益)。
图像SR。经典图像的实验结果如表5所示。对轻量级模型和精确SR模型进行了总结。从结果中可以得出类似的结论。I.在轻量级网络中,GRL-T的性能优于基于卷积和自注意的网络,包括DBPN[27]、SwinIR[49]和EDT[47]。与EDT相比,Urban100和Manga109数据集获得了显著的改进(×4SR为0.44 dB和0.22 dB)。II.GRL-B为精确图像SR设置了新的最先进技术。III.GRL-S在网络复杂性和SR图像质量之间实现了良好的平衡。JPEG压缩伪影去除。彩色和灰度图像的实验结果如表所示。6。研究了JPEG压缩的四个图像质量因子,范围从10到40。如表所示,所提出的GRL-S网络在不同的数据集和质量因素上都优于以前最先进的方法。值得注意的是,GRL-S的模型组合比FBCNN小得多.
正在卸载。图像去马赛克的结果如表8所示。所提出的方法显著优于先前的方法RNAN[96]和DRUNet[90]。
5.3基于数据合成的真实图像恢复
最后,我们还研究了网络工作在真实世界图像恢复中的性能。其目的是通过放大因子4对低质量图像进行超分辨率处理。由于该任务没有地面实况图像,因此图7中只给出了视觉比较。与其他方法相比,所提出的GRL能够去除低分辨率图像中的更多伪影
5.4消融研究
在本节中,列举了所提出方法的各种设计选择
表5.经典图像SR结果。总结了轻量级模型和精确模型的结果
表6.灰度图像JPEG压缩伪影去除结果。作为比较指标,FBCNN[32]GRL-S的参数计数分别为71.92M和3.12M
表7.表7.彩色图像JPEG压缩伪影去除结果
表8.图像去马赛克结果
图7。真实世界图像SR的视觉结果。
相似性比较方法的影响。如第3.4节所述,为了从理论上保证相似传播,应使用数学度量,而不是点积。为了研究两者之间的差异,对两种操作的成像对比进行了比较,结果如表9所示。如表所示,点积与度量相比非常有竞争力,并且在一些设置中优于距离度量。考虑到这一点,点积仍在其他实验中使用
锚投影的影响。锚投影操作有助于总结特征图中的信息。消融研究如表10所示。考虑到精度性能和参数budget,最终使用了Avgpool和线性投影。此外,在表11中还消除了窗口和条纹尺寸对图像SR的影响。增加窗口和锚点尺寸可能会显著提高Urban100和Manga109的性能.
6结论
表9。相似性比较手术的消融研究
表10。锚投影操作的消融研究。
表11。窗口和条纹尺寸的消融研究。
文章来源:https://www.toymoban.com/news/detail-737951.html
在本文中,我们提出了GRL,这是一种具有高效和明确的图像恢复分层建模能力的网络。该网络主要受两种图像财产的启发,包括跨尺度相似性和各向异性图像特征。在此基础上,我们提出了用于长期依赖建模的高效锚定条带自注意模块。然后提出了一种用于图像恢复的通用网络体系结构。该网络可以对全局、区域和局部范围内的图像层次进行建模。由于先进的计算机制,所提出的网络架构在各种图像恢复任务中实现了最先进的性能文章来源地址https://www.toymoban.com/news/detail-737951.html
到了这里,关于用于图像恢复的图像层次结构的高效和显式建模Efficient and Explicit Modelling of Image Hierarchies for Image Restoration的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!