Hyperspectral Image Super-Resolution Network Based on Cross-Scale Nonlocal Attention
(基于跨尺度非局部注意的高光谱图像超分辨率网络)
高光谱图像(HSI)超分辨率通常是指将低空间分辨率HSI(LRHSI)与高空间分辨率多光谱/全色图像(HRMPI)融合得到高空间分辨率HSI(HRHSI)。现有的融合方法没有充分考虑LRHSI和HRMPI之间巨大的光谱和空间分辨率差异。此外,大多数采用卷积神经网络(CNN)结构的基于深度学习(DL)的方法受到其局部特征学习的限制,并且难以利用图像特征的全局依赖性。为了充分适应LRHSI和HRMPI之间巨大的模态差异,释放局部特征学习的局限性,设计了基于交叉谱尺度和移位窗口的交叉空间尺度非局部注意网络(CSSNet),有效融合LRHSI和HRMPI。这两个网络可以显式地学习两个输入图像之间的光谱和空间相关性。然后利用这些相关性对HRHSI特征进行重构,使得到的HRHSI特征与输入图像的光谱和空间特征保持一致。最后,设计了一个“特征聚合模块”来聚合这两个网络的图像特征,并输出融合的HRHSI。在HM融合[与多光谱(MSI)融合]和HP融合(与全色(PAN)图像融合)任务上的广泛实验结果表明与其他融合方法相比,CSSNet是最先进(SOTA)性能。
INTRODUCTION
高光谱图像具有数百个波段,为不同的物质和目标提供了丰富的光谱信息。此外,这使得它在许多实际应用中得到了利用,例如分类,光谱分解和矿物开采。
然而,由于卫星成像传感器的限制,HSI的空间分辨率往往较低,导致细节信息的丢失,包括微小的空间纹理和细节。有效提高低空间分辨率HSI的空间分辨率(LRHSI)、多个恒生指数超分辨率本文提出了一种将LRHSI与高空间分辨率多光谱/全色图像进行融合的方法(HRMPI)来获得高空间分辨率的HSI 。
LRHSI和HRMPI之间的融合方法可以总结为两大类,包括基于变分优化(VO)模型的和基于深度学习(DL)的方法。对于第一类,他们通常将融合过程公式化为特定先验下的约束优化问题(例如,稀疏和低秩先验),并且可选地优化期望的变量直到收敛。该类中流行的方法包括耦合非负矩阵分解(CNMF),贝叶斯稀疏促进高斯先验(贝叶斯稀疏),HySure 和贝叶斯朴素高斯先验(贝叶斯朴素)。即使具有它们可以实现的令人满意的融合性能,这些方法中的大多数由于迭代参数优化过程而遭受高计算成本。最近,基于DL的融合方法由于其强大的特征学习能力而在图像SR和融合领域得到了爆炸性的发展。例如,Jiang 等人提出了一种基于生成对抗网络的边缘增强网络,用于强大的卫星图像SR。Xiao等人为视频SR任务设计了可变形卷积对齐模块、时间分组投影融合策略和时间注意力模块。实际上,许多融合方法使用卷积神经网络(CNN)对输入图像进行编码并在特征空间中融合它们。然后,它们通过解码操作输出融合的HRHSI,如图1的上部所示。Xiao等人设计了细节提取网络和空间光谱融合网络,以获得融合的HRHSI。Zheng等人的美国专利公布提出了一种边缘条件特征变换网络来融合LRHSI和HRMPI,该网络由特征提取、特征融合和最后的重建模块组成。
然而,这些融合方法大多是借用多光谱(MSI)图像泛锐化领域没有考虑LRHSI和HRMPI之间的大模态差异。例如,ZY-1 02 D卫星获得像素大小为30米的LRHSI和166个波段,大小为10米的MSI和8个波段,以及大小为2.5米的全色(PAN)图像。LRHSI和HRMPI之间极大的光谱和空间分辨率差异大大增加了融合问题的不适定性。一些研究集中在这种大的分辨率差异上。例如,Li等人设计了一个可解释的细节注入块,通过将数据分布调整为正确的“fish”分布来注入空间细节。然而,“fish”的分布可能不完全正确的不同的卫星图像,缺乏理论证明。因此,设计一种能够适应LRHSI和HRMPI之间巨大模态差异的HSI融合网络,有效缓解融合任务的不适定性是十分必要的。
此外,大多数融合网络是基于流行的CNN结构构建的。然而,其有限的局部特征学习能力阻碍了图像特征的长程相关性的探索和利用。最近,Transformer结构已经在计算机视觉领域中开发,例如SR。其主要思想是利用非局部自注意来增强图像特征。例如,Lu等人提出了一种用于单图像SR的SR Transformer,它由CNN主干和轻量级变换器网络组成。Yu等人设计了一种非局部注意力机制,使视频SR无需帧对齐和记忆增强注意力模块来记忆视频细节。Yi等人提出了一种渐进融合网络和一种改进的视频SR非局部操作。
在图像融合领域,也提出了几种基于非局部注意力的方法。例如,Bandara和Patel在Transformer中采用了多头注意力模块,以使用从HRMPI计算的注意力图来增强LRHSI特征。此外,这些方法需要在计算像素非局部注意力(相似性矩阵)之前匹配输入图像的特征大小。然而,该匹配操作(例如,双三次上采样方法)可能引入降低所得图像质量的额外噪声或误差。此外,它们的非局部注意力是在像素级上计算的,这可能会丢失图像的局部特征信息。
为了有效解决上述问题,我们做出了三个主要贡献。
首先,考虑到LRHSI和HRMPI之间的光谱分辨率的巨大差异,我们设计了一个跨光谱尺度的非局部注意(CSNA)模块。该模块首先计算低分辨率尺度上HSI和MPI之间的谱相关性。然后将该相关性映射到HRMPI特征以重建HRHSI特征。该模块能够充分捕捉到两幅输入图像在原始谱维上的谱相关性,提高重建HRHSI的谱保真度。
其次,为了适应LRHSI和HRMPI之间的空间分辨率差距,我们提出了一个基于移位窗口的跨空间尺度非局部注意(SW-CSNA)模块。该算法能够将从高层特征中提取的跨空间尺度的全局注意力映射到原始的LRHSI特征上,并重构出HRHSI特征。此外,为了提高编码的高层次特征的正确性,我们提出了一种快速的类内差异感知(ida)损失函数。这可以有利于所设计的编码块尽可能正确地提取输入图像的语义信息(高级特征)。
最后,我们测试了两种融合任务,包括LRHSI和HRMSI(HM融合)和LRHSI和PAN图像(HPfusion)之间的融合框架。仿真和真实的数据集上的实验结果都表明,我们的方法达到了国家的最新(SOTA)性能,证明了所提出的融合网络的优越性和鲁棒性。
RELATED WORK
Hyperspectral and MSI Image Fusion Methods
基于HSI和MSI之间融合的HSI SR方法主要包括基于VO和基于DL的方法。基于VO的方法通常将融合过程制定为优化问题,并施加手工先验来约束解决方案。例如,Akhtar 等人从LRHSI中提取谱基,并对空间分量施加稀疏性和非负性约束。Li等人将图像视为3-D张量,并结合稀疏正则化器以利用HRHSI中的高空间-光谱相关性。Yokoya等人提出了一种CNMF融合方法,其中LRHSI和HRMSI基于光谱线性混合模型交替分解为丰度和端元组分。为了保持空间和光谱平滑性,已经提出了一些基于张量分解的方法来解决融合问题。例如,Zhang等人设计了一个低秩Tucker分解模型,该模型结合了两个图来融合LRHSI和HRMSI。Kanatsoulis等人提出了一种耦合张量分解方法,该方法在真实和温和的条件下提高了SR图像的可识别性。
近年来,基于DL的HSI SR方法得到了爆炸性的发展。采用一些典型的网络结构来解决融合问题,例如Resnet ,Dense net和U-net 。例如,Han等人设计了一个多尺度融合网络,逐渐修改图像特征尺寸。Zhang等人结合残余信道注意力和密度网来学习空间-谱相关性,实现了很好的融合性能。考虑HRMSI和LRHSI的观测模型,Xie等人构造了一个可解释的图像融合网络,利用不同的网络层展开了所构造的迭代算法。此外,FusionNet被提出通过使用变分概率自动编码器来融合LRHSI和HRMSI的空间和光谱信息。
Hyperspectral and PAN Image Fusion Methods
由于HSI和PAN图像之间的融合问题的极端不适定性,传统的方法,包括组件替代(CS)和多分辨率分析(MRA)的泛锐化方法,很难达到很好的性能。此外,占主导地位的方法主要是基于VO和DL的,尤其是后者。
对于基于VO的融合方法,通常将融合过程表示为特定先验约束下的变量优化问题。例如,Yokoya等人将输入图像分解为谱基和谱系数,得到融合结果。Wei等人在贝叶斯估计框架内制定了融合问题,并引入了利用几何考虑的适当先验分布。Simões等人将HSI融合问题表示为包含两个二次数据拟合项和边缘保持正则化器的凸函数的最小化。尽管它们已经实现了令人满意的融合性能,但这些方法中的大多数遭受高计算成本。
基于DL的方法由于其强大的特征学习能力,近年来得到了爆炸性的发展。许多高光谱和PAN图像融合网络已经被设计并取得了很好的性能。例如,Zheng等人利用深度图像先验(DIP)对LRHSI进行上采样,并提出空间和光谱注意力网络将PAN细节注入LRHSI。然后,Bandara等人使用改进的DIP和残差结构来获得具有可学习的光谱响应函数(SRF)的重建的HRHSI。Qu等人设计了一个双分支细节提取网络,可以通过预训练模型锐化具有任何数量光谱带的LRHSI。然而,这些方法是基于有限的局部特征学习的CNN,并且缺乏探索图像特征的长程依赖性的能力。
最近,基于Transformer模块,Bandara和Patel提出了一种HyperTransformer融合网络,包括两个独立的特征提取器,一个多头注意力模块和一个频谱-空间特征融合模块,以重建HRHSI。然而,在这项研究中的非局部注意力是在像素级上计算的,可能会忽略图像特征的局部纹理和上下文信息。
Patch Recurrence Property and Nonlocal-Based Attention
图像块在同一图像的尺度内和跨尺度重复出现,这被称为块重复出现属性。这一特性已被广泛用于图像SR领域,以在不同分辨率的图像中使用相似的补丁来增强HR补丁。在开创性的研究中,Glasner等人集成了多图像SR和基于示例的SR的方法,以利用图像的多尺度内和跨图像的多尺度的重复补丁。此外,Freedman和Fattal 有效地从输入图像的局部区域提取了补丁,这可以降低计算复杂度。
这种尺度内和跨尺度的补丁递归特性表示图像补丁的长程依赖性,这类似于Transformer的非局部自我注意。此外,一些研究已经使用非局部注意模块来超分辨LR图像。例如,Liu等人提出了一种非局部递归网络,将非局部操作引入递归神经网络,用于用较少的参数进行图像恢复。Dai等人提出了一个通道注意模块来自适应地重新缩放通道特征和非局部增强残差组来捕获长距离空间信息。最近,Bandara和Patel提出了一种HyperTransformer融合网络,包括两个独立的特征提取器、多头注意力模块和频谱-空间特征融合模块来重建HRHSI。
METHODOLOGY
Overall Fusion Framework
所提出的融合框架在图1的底部示出。为了适应两幅输入图像之间较大的光谱和空间分辨率差异,我们设计了交叉光谱尺度和交叉空间尺度块,以充分学习输入图像在低维特征上的非局部光谱和空间关系。然后将这些关系映射到高维特征中,以重建HRHSI特征。然后,“特征聚合模块”随后整合来自这两个跨尺度块的HRHSI特征并输出融合的HRHSI。
与大多数从输入图像中提取潜在特征并将其融合的融合网络不同,我们明确地学习两个输入图像之间的光谱和空间相关性。然后利用这些相关性重构HRHSI,使得融合后的HRHSI保持了与输入图像的光谱和空间特征的一致性,提高了融合后HRHSI的光谱和空间保真度。
CSNA Block
实际上,在一些谱映射函数(从HSI到MPI)估计方法中,它们假设HSI和MPI在相同的空间分辨率下具有带向线性关系。此外,他们使用下采样图像来估计映射函数并将其应用于高分辨率尺度,从而实现了出色的性能。因此,LR尺度上的谱带相关性(HSI和MPI之间)与HR尺度上的谱带相关性大致相同
为了将从LR尺度到HR尺度的带宽全局相似性映射,我们设计了CSNA,如图2所示。在这个块中,我们首先通过单步长卷积将两个输入图像从H×W和h×w降采样到相同的大小→ h′ ×w′(我们将h′和w′分别设置为h/4和w/4)。这种下采样操作可以获得区分性特征,并降低后续相似度计算的复杂度。注意,我们通过该块保持原始谱带号,这可以极大地保留输入图像的谱自相关和互相关。
然后,我们计算了频带相似度矩阵
为了将LR尺度上计算的相似性矩阵映射到HR尺度上,我们在谱维中使用点积运算来获得重构的HRHSI特征。注意,我们首先通过卷积运算对齐HRMPI的特征空间以得到HRMPI。然后,对相似度矩阵和HRMPI特征进行点积运算
SW-CSNA Block
为了适应LRHSI和HRMPI之间的空间分辨率差距,并从局部和非局部特征学习中受益,我们提出了SW-CSNA,如图3所示。该模块将图像展开为块,并在块级上计算跨尺度非局部注意力,以增强所得到的图像特征。不幸的是,单个补丁裁剪模式可能无法准确地捕获补丁中的完整对象。例如,如图4所示。如果只采用图4(a)所示的一种patch裁剪模式,诸如房屋的对象可能被分成两个块并且丢失其语义信息。因此,为了充分适应具有不同尺寸和位置的物体,如图4所示和图3的顶部。设计了一种基于移位窗口的非局部注意块,采用了四种不同的patch裁剪模式。具体地,我们移位在每个注意块中的整个输入LRHSI在水平和垂直方向上具有不同的移位值。这可以在单个面片中容纳更多完整的对象。请注意,移位值小于展开面片大小,以尽可能多地捕获完整的对象。
在每个注意力块中,我们首先测量HRMPI和LRHSI的高级特征之间补丁的非局部相似性,如图3的中间所示。然后将该相似性映射到原始LRHSI特征以获得重建的HRHSI特征。注意,与逐像素相似性相比,逐块非局部相似性可以保留更多的局部纹理信息。此外,局部和非局部学习的结合是更有效的和高效的提高图像特征学习和融合性能。
实际上,相似性映射的假设是图像的高层特征之间的相似性与低层特征之间的相似性密切相关。通常,高层特征表示语义信息,低层特征表示浅层空间纹理和光谱特征。例如,在同一类别中的树(高级特征)总是具有几乎相同的空间和光谱特征(低级特征)。因此,空间方向的非局部相似性矩阵可以在高级和低级特征之间共享
因此,我们首先通过两个“高级特征编码块”来获得LRHSI和HRMPI的高级特征,如图3的左侧所示。“高级特征编码块”的详细网络结构在图5中示出。它由两个级联的卷积块组成,包含卷积层、批处理归一化和LeakyRELU函数。然后,使用五个“Resnet块”来提取图像的高级特征。预期级联网络层可以提取图像的深层语义信息,这已经在许多研究中得到验证。注意,由于每个跨空间尺度关注块的输入图像仅具有不同的移位值,因此这两个“编码块”在这些关注块中被共享。这种共享机制不仅稳定了参数优化过程,而且减少了模型参数。然后,为了计算相似性矩阵,将LRHSI的编码后的高层特征展开成块
为了高效地计算跨尺度分片非局部相似性,我们将来自(6)中的展开分片的卷积运算(充当卷积核)应用于HRMPI的高级特征
注意,该卷积运算的步幅被设置为补丁大小p。如图3所示,为了重建HRHSI,展开LRHSI(Hl)的低层特征
Feature Aggregation Module
在从具有不同移位值的每个跨空间尺度注意块获得重构的HRHSI特征后,我们将它们与跨光谱尺度块的HRHSI特征连接。如图1所示,特征聚合模块,包括具有核大小11和1的深度可分离卷积(DWconv),用于对图像特征进行积分并输出融合后的HRHSI。请注意,我们将来自上采样LRHSI的残差连接(通过双三次插值)添加到最终结果以加速融合网络的收敛。文章来源:https://www.toymoban.com/news/detail-694383.html
Loss Functions
所提出的网络使用L1距离函数训练
其中,H表示参考图像,并且H’是融合结果。该函数可以有效地减轻L2损失函数引起的模糊效应。此外,为了提高融合HRHSI与参考图像的结构相似性,我们添加了结构相似性(SSIM)损失函数,如下所示
此外,为了提高SW-CSNA中“高级特征编码块”提取的高级特征的正确性,我们提出了一个ida损失函数。
如图6,在提取高级特征之后,使用沿着谱维的argmax运算来提取粗略的语义类别信息,(我们在算法1中制定了其快速版本的伪代码,具有快速计算速度)。然后,我们计算在每个语义类别的原始输入图像的类内标准偏差(STD)。理论上,同一语义类中的低级图像特征将足够相似以导致小的类内特征差异。因此,期望该损失函数可以提高所提取的高级特征的正确性。
这个损失函数可以简单地表示为
注意,考虑到每个类的不平衡和计算效率,“窗口”的思想被用于计算类内STD,如在算法1中(“窗口”划分通过“整形”操作实现)。这意味着,在根据“index_map”对图像进行排序之后,我们将图像除以窗口大小,并计算每个窗口中的STD。请注意,此损失函数是在原始HRMPI和LRHSI图像上计算的。此外,考虑到输入图像大小和类别数量,MPI和HSI的窗口大小对于HM融合任务分别设置为16和9,对于HP融合任务分别设置为32和16。
因此,总体损失函数为文章来源地址https://www.toymoban.com/news/detail-694383.html
到了这里,关于【跨尺度非局部注意的高光谱图像超分】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!