【论文阅读】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

这篇具有很好参考价值的文章主要介绍了【论文阅读】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文链接:SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness | IEEE Journals & Magazine | IEEE Xplore
代码: GitHub - Linfeng-Tang/SuperFusion: This is official Pytorch implementation of "SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness"

SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

研究背景:

  1. 图像融合的重要性:由于摄影环境或硬件限制,单一类型设备通常无法全面描述整个成像场景,图像融合成为提高图像质量和全面性的重要技术。

  2. 红外和可见光图像融合:可见光相机捕捉物体表面反射光,具有丰富的纹理细节,但在复杂环境下无法有效捕捉重要目标;而红外传感器通过收集物体的热辐射信息生成高对比度图像,却通常无法表征纹理信息,两者互补的特性促使研究人员将其融合为一幅图像。

现有方法存在问题:

  1. 融合算法对源图像的未对准敏感:

    • 由于成像原理的差异,红外和可见光图像在实际中通常会出现不同程度的错位。一旦源图像出现偏移或变形,融合结果不可避免地会出现伪影。

    • 最新的UMF-CMGR尝试通过将可见光图像转换到红外域实现多模态图像配准,但其配准性能有限。

    • 为提高鲁棒性,提出了端点损失来约束估计的变形场,从而促进图像融合的注册结果。

    ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法  

  2. 现有的融合方法几乎没有考虑如何促进高级视觉任务:

    • 现有图像融合方法往往只关注融合图像的视觉质量,而忽视对高级视觉任务(如语义分割、物体检测)的支持。

    • 一些研究人员注意到了这个缺点并提出了切实可行的解决方案,例如SeAFusion和TarDAL,这些方法仅设计简单的损失函数指导融合网络训练,存在提升空间。

    • 为了克服先前方法的局限性,提出更复杂的语义约束,以在融合过程中尽可能保留语义信息,从而促进后续高级视觉任务的完成。

本文贡献:

  1. 统一模型

    • 将图像配准、图像融合和高级语义需求统一建模为一个框架。

    • 首次实现了一个充分考虑图像融合前提条件(即图像配准)和后续应用的实用图像融合方法。

  2. 对称双向图像配准模块

    • 设计了对称双向图像配准模块,有效地实现多模态图像对齐。

    • 对称性特性使我们的方法实现了图像融合和图像配准的互相促进。

  3. 语义约束和全局空间关注模块

    • 引入基于语义分割的语义约束,促使融合网络响应高级视觉任务的需求。

    • 在融合网络中嵌入全局空间注意力模块,实现自适应特征集成。

  4. 大量实验证明优越性

    • 在与最先进的方法相比的大量实验中,我们的方法显示出卓越性能。

    • 特别是我们的方法可以完成未对齐图像融合,同时促进高级视觉任务的性能提升。

相关工作:

A. 典型的红外和可见光图像融合

  1. AE基础图像融合方法

    • 利用编码器和解码器实现特征提取和图像重建。采用手工设计的融合策略来完成特征融合。

    • 包括了一些先进的方法,如“DenseFuse” 和引入嵌套连接和注意机制的进一步改进等。

  2. CNN基础图像融合方法

    • 利用卷积神经网络实现端到端的特征提取、融合和图像重建。

    • 包括了一些设计精良的学习范式或损失函数。

    • 一些方法采用了灵活的融合方法,通过动态搜索有效的结构来避免目标模糊和纹理细节丢失。

  3. 基于Transformer的图像融合方法

    • 使用Transformer模型来模拟长距离依赖关系,从而充分合并输入图像中的互补信息。

    • 大多数方法首先利用CNN提取浅层特征,然后使用Transformer挖掘全局交互作用以促进信息融合。

  4. 基于GAN的图像融合方法

    • 引入生成对抗机制来为融合网络施加更强的约束。

    • 后续工作设计了双鉴别器以保持模态平衡,以解决单个鉴别器存在的模态失衡问题。

B.面向实践的图像融合

  1. 跨模态感知风格转移模块

    • 将可见光图像转移到红外域,通过多级细化配准将红外图像对齐到伪红外图像。

    • 利用双通道交互融合模块完成互补信息整合。

    • UMF-CMGR方法可以减轻输入图像轻微变形的影响,但在源图像不对齐的情况下仍然存在合成结果的伪影问题。

  2. 语义驱动方法

    • 一些方法考虑高级视觉任务的需求,设计语义约束来引导融合网络注入更多语义信息。

    • 通过高级模型测量融合结果中的语义信息,并利用高级模型的损失通过梯度反向传播指导融合网络的训练。

    • 语义驱动方法可以提升融合结果在高级任务上的性能,但仍无法实现不对齐图像融合。

  3. 结合配准、融合和语义需求的统一框架

    • 本工作充分考虑图像融合的先决条件和应用需求,并将图像配准、图像融合和高级视觉任务的语义需求统一到一个框架中。

C.跨模态图像配准

  1. 传统方法

    • 传统方法通常基于事先假设的变换模型,如仿射变换和自由形变等,通过最小化相似性度量指标(如归一化相关系数和互信息)来获取模型参数。

    • 一些稀疏特征方法专注于提取感兴趣点并将局部信息编码为特征,显著提高了匹配的鲁棒性。

  2. 深度学习方法

    • 最近的一些深度学习方法引入神经网络来估计跨模态流,但这些无监督方法在处理不同模态间外观变化严重的问题上还存在挑战。

    • 有监督方法可以以端到端的方式处理问题。开发了神经网络的传统匹配方法,来解决跨模态图像配准中的问题。

    • 本文引入了有监督流和光度约束来进行鲁棒的配准训练,以解决噪声敏感和外观变化严重的问题。

D.RNN在计算机视觉中的应用

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

总体框架

图像融合是将可见光图像和红外图像的互补信息集成到一个融合图像中的任务。但由于相机的外参和内参参数不同,无法直接捕捉对齐的图像用于融合。此外,跨模态双目照片可能会出现摇晃、延迟和特殊噪音等问题,尤其是红外相机可能受到内部温度和外部热气流的严重干扰。因此,在真实世界的融合中需要考虑输入红外和可见光图像之间的错位。

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

图像配准:使用配准网络NR将可见光图像和移动的红外图像作为输入,得到配准后的红外图像。

首先通过新颖的密集匹配器(DM)来估计红外到可见光的变形场:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

然后使用重采样器(R)与估计的变形场对未对齐的红外图像进行重新采样,得到配准后的红外图像:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

图像融合:将配准后的红外图像和可见光图像送入融合网络NF,生成融合图像:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

设计全局空间注意力模块(GSAM)实现自适应特征融合,充分利用全局上下文特征并为特征赋予适当的融合权重。

融合结果进入分割网络NS,输出预测类别概率,实现语义信息测量:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

对称图像融合:通过两个对称融合图像消除模态差异,提供多模态图像配准的像素级监督。将红外图像和移动的可见光图像作为另一分支的输入,进行相同的配准和融合过程。融合结果再次进入分割网络进行语义测量:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

多模态融合:将彩色可见光图像转换为YCbCr空间,将Y通道和灰度红外图像输入到融合模型中,输出为融合图像的Y通道,再映射回RGB空间。

损失函数

SuperFusion 将图像配准、图像融合和语义要求整合到一个统一的框架中。为了更有效地实现每个组件,我们详细阐述了损失来指导相关网络的训练:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

1)图像配准的损失函数

光度误差和端点误差是变形场估计最常见的损失函数,两者都有益于性能。端点损失迫使估计器对光滑区域中的流进行回归,而光度损失提高了纹理区域中的定量和定性结果的准确性。在跨模态图像配准的情况下,总是存在严重的外观变化,需要流监督,例如可见图像中的散射光,红外图像中的照明人物等。然而,这些特别区域提供的区分信息会让流估计器混淆,并使损失变大,因此流估计器被强制关注这些区域并忽略纹理丰富的常见区域。因此,为了保持纹理区域的精确度,也有必要用光度约束监督流学习。

光度损失:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

端点损失:为构建端点损失,在必须反转φgt。然而,获取逆流需要复杂的重采样策略。此外,重采样策略无法处理所有情况,并根据奈奎斯特采样定理可能引入噪音。因此,我们认为,与其计算逆流的ground truth,密集匹配器应该能够估计双向流,如果输入特征适应模态,并迫使密集匹配器估算逆流φvi→ir’。然后端点损失可以在φvi→ir’和其ground truthφgt之间构建:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

对称损失:图像配准后,注册图像对Ireg ir和Ivi会被送入融合网络。然而,如果Ireg ir没有注册好,那么在Ireg ir和If之间构建的融合损失将很难优化,融合模块会更倾向于最小化Ivi和If之间的损失。因此,损失会收敛到一种难以预测的情况,互相促进的效果也无法实现。这就是我们提出对称架构的原因之一。

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

一致性约束损失:我们的对称分支输出两个融合结果I1 f,I2 f,如果配准完成良好,它们被认为是相同的。因此,我们开发了一致性约束损失以促进融合和配准。

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

总损失:综上所述,图像配准网络的最终目标函数是包括光度损失,端点损失和一致性约束损失的加权和:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

2)图像融合的损失函数

融合模型期望保留源图像的结构和丰富的纹理细节。因此,我们设计了SSIM损失LSSIM和纹理损失LText来引导融合网络NF达到上述目的。

SSIM损失

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

其中SSIM(·,·)表示结构相似度度量,可以从光线、对比度和结构三个角度度量图像失真。

纹理损失:图像的纹理细节可以通过其梯度来表征。因此,我们计算融合图像的梯度与源图像的最大梯度聚合之间的误差来构造纹理损失:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

强度损失:融合图像还期望融合源图像中的强度信息,特别是红外图像中的重要目标。因此,我们设计了强度最大化损失 LInt 来引导融合网络自适应地整合源图像的强度信息:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

总损失:用来指导融合模型训练的最终融合损失 LF 可以概括为上述三个子损失的加权和,其公式为:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

融合网络的损失函数中,Ivi和If分别特指可见光图像和融合图像的Y通道,Iir表示灰度红外图像。

3)语义感知损失函数:

我们引入了类似于SeAFusion的语义损失 [22],以促使融合网络充分考虑高级视觉任务的要求。然而,SeAFusion只使用最简单的交叉熵损失来建模语义要求,这可能忽略了类别不平衡问题。因此,我们引入了Lovasz-Softmax损失 [74],来计算预测结果与真实情况之间的误差。

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

网络架构

  1. Dense matcher的架构:

    ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法  

    Dense matcher包括金字塔特征提取器和迭代流估计器。

    首先,通过权重不共享网络提取全尺度模态自适应特征F0;

    然后,F0依次经过三个权重共享子模块进行下采样,提取不同尺度的特征;

    最后,特征传递到流估计器,通过计算局部相关性容积并估算残差变形来获得变形场。

    在第i个流估计器中:

    1. 首先用上次估算的变形场来映射源特征,并标记为 Zi ir′ 。

    2. 计算红外和可见光特征之间的局部相关性体积:

      ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法  

    3. 接下来,Corr 被reshape为类似特征的形状并与 Zi ir' 串联,通过卷积层估算残差变形,得到两通道的变形场:

      ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法  

    注意,金字塔特征提取器的前几层是权重不共享的,这样可以消除F0 中的模态差异。此外,通过改变流估计器层输入的顺序,可以轻松获得逆流估计。双向估计可以使 F0 不受模态特定信息的影响。

  2. 图像融合网络的架构:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法  

  • 首先部署连体特征提取模块分别从源图像中提取红外特征和可见特征:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

  • 红外和可见光特征级联,并通过全局空间注意力模块获得融合权重:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

GSAM采用四方向RNN来提取上下文特征,再与注意力权重相乘并级联;通过级联卷积层计算红外特征的融合权重,并将两种特征进行自适应融合。

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

  • 最后,将融合特征Ff输入图像重建模块MR以产生融合图像:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

实验结果

多模态图像配准结果:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

红外和可见光图像融合结果:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

语义分割结果:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法  

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

计算效率:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

消融实验:

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

ir融合 图像质量提升,图像融合,论文阅读,图像配准,计算机视觉,人工智能,论文阅读,图像处理,算法

总结

在本文中,提出了一个考虑图像配准、图像融合和高级视觉任务要求的多功能框架,称为 SuperFusion。它显着扩展了实际应用中图像融合的范围。 SuperFusion 由三个组件组成,包括图像配准、融合和语义分割网络。

首先,设计配准网络来估计双向变形场,以便可以更简单地使用光度损失和端点损失来提高精度。此外,还开发了一种对称联合配准和融合方案,以平衡输入模态的偏差,并进一步促进融合域中具有相似性约束的配准。

其次,采用全局空间注意力机制,强调源图像中的重要区域和目标,实现自适应特征集成,服务于前期配准和后续分割。

第三,设计了基于Lovasz-Softmax损失的语义约束,以促进融合网络产生更合理的结果,从而促进机器和人类的感知。

总之,Superfusion是第一个将图像配准、融合和语义分割集成到单一框架中,并实现图像融合和图像配准的相互促进。大量的实验证明该框架中的每个模块都实现了最先进的性能。文章来源地址https://www.toymoban.com/news/detail-841420.html

到了这里,关于【论文阅读】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包