【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer

这篇具有很好参考价值的文章主要介绍了【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文:https://ieeexplore.ieee.org/document/9812535
如有侵权请联系博主

介绍

关键词

  • Swin Transformer
  • 长期依赖性、全局信息
  • 跨域融合

简单介绍

2022年发表在 IEEE/CAA JOURNAL OF AUTOMA TICA SINICA的一篇文章,该篇论文的作者仍然是我们熟悉的FusionGAN的作者。

简单来说,该篇论文提出了一个基于CNN和Swin Transformer来提取包含局部信息和全局信息的特征并将这些特征进行域内和跨域融合的方法。

这里有几个关键词——局部/全局信息,域内和跨域,我们先来聊聊这几个关键词。
首先是局部信息,论文中使用cnn提取局部信息,之所以提取局部信息是因为CNN在进行卷积时只关注窗口内的信息,所以是局部信息
其次是全局信息,论文中使用Swin Transformer来提取全局信息,因为Swin Transformer可以提取长期依赖信息,所以每个特征中都包含全局的信息。
域内就是分别在红外图像特征和可视图像特征中进行Swin Transformer操作。
跨域就是使用红外图像特征K,V可视图像Q进行Swin Transformer操作,反之亦然,从而提取到受到可视特征影响的红外特征和收到红外特征影响的可视特征。

接下来我们就来仔细看看作者是怎么实现的。

网络架构

总体架构

【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer,图像融合,深度学习,图像处理,transformer,深度学习,人工智能
总体架构包含三个部分,分别是特征提取(CNN+Swin Transformer),特征融合(基于Swin Transformer的跨域融合和域内信息提取)和图像重建。

特征提取

【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer,图像融合,深度学习,图像处理,transformer,深度学习,人工智能

特征提取的网络部分如上图所示

shallow features Extraction包含两个卷积层,其内核大小为3 X 3,步长为1,该层用于提取浅层特征,并且将浅层特征的特征数据映射到高维特征,从而使得后期特征的融合和提取有更好的效果。

Deep Feature Extraction包含4个Swin Transformer层,在shallow features Extraction层的基础上,提取包含全局信息的特征。这里的架构其实很简单,较难的是理解Swin Transformer,详情可看【读论文】Swin Transformer。在看了源码之后,我发现作者好像并没有进行patch的划分,即patch_size大小为1,那swin transformer的早期准备工作就相对简单些。第一步就是将整个图像划分为多个window,这里的窗口大小设置为8 X 8,即每个window包含64个patch,而后在每个window中进行多头自注意力计算,之后在进行移动窗口,移动的距离为window_size的二分之一,而后继续上述操作,直到完成深层特征的提取。

特征融合

【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer,图像融合,深度学习,图像处理,transformer,深度学习,人工智能

特征融合包含两个块,两个块的结构是相同的,如上图。

每个块中包含两个swin transformer块,MCA和MSA只是名字不同,内部结构是完全相同的,只是MSA输入的KQV都是来自单个图像的特征,而MCA输入的KQV则是来自不同的图像的特征。例如KV来自红外图像的特征,而Q来自可视图像的特征,在经过一波多头注意力的计算之后,此时红外图像的特征信息就受到了可视图像特征信息的影响,从而可以认为两类特征信息发生了融合,这就是论文中的融合模块,也是我认为文章中最惊艳的一部分。

两个块依次进行来完成红外特征和可是特征的融合。

在这之后进入了卷积层,即在包含全局信息的特征中再一次提取局部信息。

图像重建

【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer,图像融合,深度学习,图像处理,transformer,深度学习,人工智能
最后一部分,图像重建有两个部分,基于swin transformer的重建模块和基于cnn的重建模块。论文中提到了一个 P Swin Transformer layers,我就浅显的认为这个P就是数量了,作者设置了4个Swin Transformer层来充分获取融合特征的中全局信息,最后设置了三个卷积层用作提取局部信息并且将图像降维到输入的维度,自此图像融合完成。

损失函数

结构损失函数
【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer,图像融合,深度学习,图像处理,transformer,深度学习,人工智能
纹理损失函数
【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer,图像融合,深度学习,图像处理,transformer,深度学习,人工智能
强度损失函数
【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer,图像融合,深度学习,图像处理,transformer,深度学习,人工智能
总体损失函数
【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer,图像融合,深度学习,图像处理,transformer,深度学习,人工智能
是我们熟悉的几类损失函数,这里就不过多赘述了。

总结

整篇文章读下来,说下我个人觉得很惊艳的点

  • 将swin transformer应用到图像融合领域
  • 跨域融合这里使用来自不同图像的kv和q进行多头注意力计算
  • 纹理损失和强度损失这里均采用最大值的方式,尽可能保留最明显的纹理细节和强度信息

当然,这篇文章不只介绍了红外图像融合,还有其他模态的图像融合,在这篇博客里就不过多解释了,大家有兴趣可以看下原文。

其他融合图像论文解读
==》读论文专栏,快来点我呀《==

【读论文】DIVFusion: Darkness-free infrared and visible image fusion

【读论文】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

【读论文】DDcGAN

【读论文】Self-supervised feature adaption for infrared and visible image fusion

【读论文】FusionGAN: A generative adversarial network for infrared and visible image fusion

【读论文】DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs

【读论文】DenseFuse: A Fusion Approach to Infrared and Visible Images

参考

[1] SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer文章来源地址https://www.toymoban.com/news/detail-564185.html

到了这里,关于【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors

    多模态长距离低分辨率传感器条件下的3D物体检测 慕尼黑工业大学计算机、信息与技术学院 - 信息学 随着自动驾驶车辆和智能交通系统的兴起,强大的3D物体检测变得至关重要。这些系统通常面临由于远距离和遮挡的物体,或低分辨率传感器导致的数据稀疏性的挑战,这可能

    2024年02月21日
    浏览(42)
  • Deep Frequency Filtering for Domain Generalization论文阅读笔记

    这是CVPR2023的一篇论文,讲的是在频域做domain generalization,找到频域中generalizable的分量enhance它,suppress那些影响generalization的分量 DG是一个研究模型泛化性的领域,尝试通过各自方法使得模型在未见过的测试集上有良好的泛化性。 intro部分指出,低频分量更好泛化,而高频分

    2024年02月07日
    浏览(39)
  • [论文解析] Diffusion Guided Domain Adaptation of Image Generators

    project link: https://styleganfusion.github.io/ In this paper, we show that the classifier-free guidance can be leveraged as a critic and enable generators to distill knowledge from large-scale text-to-image diffusion models. Generators can be efficiently shifted into new domains indicated by text prompts without access to groundtruth samples from target dom

    2024年02月16日
    浏览(40)
  • 论文笔记 - 对话系统中的 OOD (Out of Domain出域)问题

    徐阿衡 人工智能与机器学习工程师 最近看了下 2021年关于 OOD 的几篇 paper,记录一下~ 对话系统中的 domain 都是预先定义好 的,而在实际应用场景中,会有很多现有系统回答不了的问题( out of the design scope ),我们把系统 支持的意图称为  in-domain (IND) ,系统不支持的意图称

    2024年02月09日
    浏览(36)
  • 【论文笔记】A theory of learning from different domains

    防盗 https://www.cnblogs.com/setdong/p/17756127.html domain adaptation 领域理论方向的重要论文. 这篇笔记主要是推导文章中的定理, 还有分析定理的直观解释. 笔记中的章节号与论文中的保持一致. domain adaptation 的设定介绍: 有两个域, source domain 与 target domain. source domain: 一组从 source dist. 采

    2024年02月05日
    浏览(42)
  • Cross-modal Moment Localization in Videos论文笔记

    2018年 Cross-modal Moment Localization in Videos 一种称为“语言-时间注意力网络”的方法,该方法利用视频中的时间上下文信息学习单词的注意力。因此,我们的模型可以自动选择“听哪些单词”以定位所需的瞬间。 以一个具有代表性的查询来说:一个摩天轮首先进入视野。之前的模

    2024年02月09日
    浏览(46)
  • 论文阅读 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插帧的文章,q,kv,来自不同的图像 代码:【here】 传统的插帧方法多用光流,但是光流的局限性在于 第一:它中间会算至少两个 cost volumes,它是四维的,计算量非常大 第二:光流不太好处理遮挡(光流空洞)以及运动的边缘(光流不连续)

    2024年02月09日
    浏览(41)
  • progressive random convolutions for single domain generalization论文阅读过程

    采用的是吴恩达老师的论文阅读方法。 Multiple passes[多次通读] Read the title/abstract/figures Title Progressive 采用渐进的方式,逐步改进模型性能或逐步引入新的技术。渐进性通常表示逐步迭代和改进。 Progressively stack randconv block【重复迭代】--block(变形偏移+仿射变换)【保留语义并

    2024年02月04日
    浏览(51)
  • 论文阅读《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》

    论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Chang_Domain_Generalized_Stereo_Matching_via_Hierarchical_Visual_Transformation_CVPR_2023_paper.html    立体匹配模型是近年来的研究热点。但是,现有的方法过分依赖特定数据集上的简单特征,导致在新的数据集上泛化能力不强。现有的立体匹配

    2024年02月04日
    浏览(42)
  • 论文阅读:Rethinking Range View Representation for LiDAR Segmentation

    来源ICCV2023 LiDAR分割对于自动驾驶感知至关重要。最近的趋势有利于基于点或体素的方法,因为它们通常产生比传统的距离视图表示更好的性能。在这项工作中,我们揭示了建立强大的距离视图模型的几个关键因素。我们观察到, “多对一”的映射 , 语义不连贯性 , 形状变

    2024年02月02日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包