论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion

这篇具有很好参考价值的文章主要介绍了论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

@article{ma2019fusiongan,
title={FusionGAN: A generative adversarial network for infrared and visible image fusion},
author={Ma, Jiayi and Yu, Wei and Liang, Pengwei and Li, Chang and Jiang, Junjun},
journal={Information fusion},
volume={48},
pages={11–26},
year={2019},
publisher={Elsevier}
}

[论文下载地址]

📖论文解读

🔑关键词

Image fusion, infrared image, visible image, generative adversarial network, deep learning.
图像融合,红外图像,可见光图像,生成对抗网络,深度学习

💭核心思想

使用GAN实现红外与可见光图像融合(infrared and visible image fusion,VIF)。

具体来说,生成器的目标是产生具有较大红外强度和附加可见梯度的融合图像,判别器的目标是迫使融合图像拥有更多可见图像中的细节。通过这种方法,可以生成同时具有红外图像中显著目标和可见光图像纹理细节的融合图像。
此外,FusionGAN是一个端到端的模型,因此省略了手工设计活动水平测量和融合规则的步骤。
而且,FusionGAN可以融合不同分辨率的图像,如高分辨率的可见光图像和低分辨率的红外图像。

ps. 这是【第一篇】将GAN用于图像融合任务的论文

参考链接
[一文看懂「生成对抗网络 - GAN」基本原理+10种典型算法+13种应用]
[什么是图像融合?(一看就通,通俗易懂)]

🪢网络结构

作者提出的FusionGAN网络结构如下图所示。
论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python
作者将红外与可见光图像融合问题公式化为一个对抗问题。首先将红外图像 I r I_r Ir和可见光图像 I v I_v Iv在通道维度上拼接在一起,将拼接图像输入生成器 G θ G G_{\theta G} GθG,生成器 G θ G G_{\theta G} GθG的输出为融合图像 I f I_f If
因为此时还没有引入判别器 D θ D D_{\theta D} DθD,所以融合图像更倾向于保留红外图像 I r I_r Ir中热辐射信息以及可见光图像 I v I_v Iv的梯度信息。
然后,将融合图像 I f I_f If和可见光图像 I v I_v Iv输入到判别器 D θ D D_{\theta D} DθD中,使判别器学习区分融合图像和可见光图像。这个过程不断循环,融合图像 I f I_f If逐渐包含越来越多的可见光图像 I v I_v Iv中的细节信息。
训练过程如上图左所示,测试过程如上图右所示。

  • 训练过程
    在此过程中,一旦判别器 D θ D D_{\theta D} DθD无法有效区分生成器 G θ G G_{\theta G} GθG生成的融合图像 I f I_f If,此时就得到了期望的融合图像 I f I_f If
  • 测试过程
    在此过程中,只将红外图像 I r I_r Ir和可见光图像 I v I_v Iv输入到【训练好的】生成器 G θ G G_{\theta G} GθG中,得到的融合图像 I f I_f If就是最终的融合结果。

🪢生成器 G θ G G_{\theta G} GθG结构

论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python
因为下采样会导致信息的丢失,所以作者没有引入下采样层。

🪢判别器 D θ D D_{\theta D} DθD结构

论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python

📉损失函数

作者提出的损失函数主要由两部分组成:生成器 G θ G G_{\theta G} GθG的损失函数和判别器 D θ D D_{\theta D} DθD的损失函数。

📉生成器 G θ G G_{\theta G} GθG的损失函数 L G \mathcal L_G LG

论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python
L G \mathcal L_G LG代表损失值, V F u s i o n G A N ( G ) V_{FusionGAN}(G) VFusionGAN(G)代表生成器 G θ G G_{\theta G} GθG和判别器 G θ D G_{\theta D} GθD之间的对抗损失。如下式:
论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python
I f n I_f^n Ifn代表第n个融合图像,N代表融合图像总数。c是生成器希望判别器对【假数据】(即融合图像)的相信值。
第二项 L c o n t e n t \mathcal L_{content} Lcontent代表内容损失, λ \lambda λ用于平衡 V F u s i o n G A N ( G ) V_{FusionGAN}(G) VFusionGAN(G) L c o n t e n t \mathcal L_{content} Lcontent
因为红外图像热辐射信息由像素强度表征,红外图像纹理细节信息由梯度表征。作者希望融合图像 I f I_f If具有与红外图像 I r I_r Ir相同的强度以及与可见光图像 I v I_v Iv相同的梯度。所以内容损失 L c o n t e n t \mathcal L_{content} Lcontent定义为:
论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python
H和W为图像高和宽(像素), ∣ ∣ ⋅ ∣ ∣ f ||·||_f ∣∣f表示矩阵弗罗贝尼乌斯范数(matrix Frobenius norm),∇是梯度算子,ξ是一个用于权衡两项的正参数。
【用人话说,matrix Frobenius norm就是矩阵所有对应元素的平方和再开方,具体定义可以类比向量的L2范数】

参考资料
[弗罗贝尼乌斯范数(Frobenius norm)]
[Frobenius norm(Frobenius 范数)]

上式括号内第一项是为了使红外图像 I r I_r Ir中热辐射信息保留在融合图像 I f I_f If
上式括号内第二项是为了使可见光图像 I v I_v Iv中梯度信息保留在融合图像 I f I_f If

大家可能会有疑问,只使用生成器 G θ G G_{\theta G} GθG就可以得到融合图像 I f I_f If了,为什么还需要判别器 G θ D G_{\theta D} GθD呢?
作者给出的解释是,的确可以直接得到保留热辐射信息和梯度信息的融合图像,但是这并不够,因为可见光图像中的纹理细节不能完全被梯度表示(在后续实验中作者进行了验证)。

📉判别器 D θ D D_{\theta D} DθD的损失函数 L D \mathcal L_D LD

论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python
a和b分别代表融合图像 I f I_f If和红外图像 I r I_r Ir的标签, D θ D ( I v ) D_{\theta D}(I_v) DθD(Iv) D θ D ( I f ) D_{\theta D}(I_f) DθD(If)分别代表对可见光图像和融合图像的分类结果。
作者使用了最小二乘损失函数,服从皮尔逊 χ 2 χ^2 χ2散度最小化。这种方法可以让训练过程更稳定,同时使判别器 D θ D D_{\theta D} DθD收敛速度更快。

🔢数据集

  • 从TNO数据库中选取45对不同场景的红外-可见光图像对,步长为14切分为120*120像素的图像,共64381对图像。
  • 像素值归一化至[-1, 1]
  • 选取m对图像作为生成器 G θ G G_{\theta G} GθG训练数据,填充至132×132,作为生成器的输入,输出120×120的融合图像
  • 选取m对图像作为判别器 D θ D D_{\theta D} DθD的输入。融合图像标签a是0至0.3的随机数,可见光图像标签b是0.7至1.2的随机数,标签c也是0.7至1.2的随机数。(标签abc都不是特定的数字,即“软标签”)

图像融合数据集
[图像融合常用数据集整理]

🎢训练设置

论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python

🔬实验

📏评价指标

  • entropy (EN) 熵
  • standard deviation (SD)标准差
  • structural similarity index measure (SSIM)结构相似度度量
  • correlation coefficient (CC)相关系数
  • spatial frequency(SF)空间频率
  • visual information fidelity (VIF)视觉保真度

参考资料
[图像融合定量指标分析]

🥅Baseline

  • adaptive sparse representation (ASR)
  • curvelet transform (CVT)
  • dual-tree complex wavelet transform (DTCWT)
  • fourth order partial differential equation (FPDE)
  • guided filtering based fusion (GFF)
  • ratio of low-pass pyramid (LPP)
  • two-scale image fusion based on visual saliency(TSIFVS)
  • gradient transfer fusion (GTF)

参考资料
[图像融合论文baseline及其网络模型]

🔬实验结果

论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python
论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python
论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python

消融实验

下图证明了对抗训练的重要性,每列前两行分别为红外图像和可见光图像,第三行是部对抗训练,直接使用生成器产生的融合结果,第四行为加入对抗训练的融合结果。可以看出仅由梯度作为损失是不够的,可见光图像可以对融合结果的细节纹理产生有效约束。
论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python

多分辨率融合

实验设计:对红外图像进行下采样,作为低分辨率红外图像,可见光图像保持不变。因为分辨率已经不同,因此不能直接concat,所以将低分辨率红外图像插值,从而生成同样分辨率的红外图像,再按照之前操作即可。即,

  • 分辨率相同:同等分辨率->直接concat->输入生成器
  • 分辨率不同:先对低分辨率的红外图像插值,生成与可见光图像分辨率相同的新的插值的红外图像->后续操作一样

因为融合图像和原始红外图像的分辨率不一样,公式5损失函数重定义为:
论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python
φ是下采样操作,即将融合图像下采样至与低分辨率红外图像相同的分辨率。
为什么不对红外图像上采样呢?因为上采样不可避免的会引入噪声。
论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion,图像融合,论文阅读,图像处理,深度学习,人工智能,python

更多实验结果及分析

更多实验结果及分析可以查看原文:
[论文下载地址]

🚀传送门

📑图像融合相关论文阅读笔记

📑[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
📑[Visible and Infrared Image Fusion Using Deep Learning]
📑[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
📑[U2Fusion: A Unified Unsupervised Image Fusion Network]

📚图像融合论文baseline总结

📚[图像融合论文baseline及其网络模型]

📑其他论文

[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

🎈其他总结

🎈[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]

如有疑问可联系:420269520@qq.com;
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位同学早发paper,顺利毕业~文章来源地址https://www.toymoban.com/news/detail-814877.html

到了这里,关于论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读- 人工智能安全 TEXTBUGGER: Generating Adversarial Text Against Real-world Applications

     背景:  Deep Learning-based Text Understanding (DLTU)简介: 基于深度学习的文本理解(DLTU)广泛运用于问答、机器翻译和文本分类,情感分析(eg 电影评论分类)、有害内容检测(讽刺、讽刺、侮辱、骚扰和辱骂内容)等安全敏感应用中。 DLTU天生容易受到对抗性文本攻击,在对抗性

    2024年01月22日
    浏览(43)
  • 【论文笔记3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

    RFN-Nest:红外与可见光图像的端对端残差融合网络 宝子们,今天学习了RFN-Nest这篇文献,和上一篇的DenseFuse同一个作者。下面是我的学习记录,希望对各位宝子们有所帮助~ 设计可学习的融合策略是图像融合领域的一个极具挑战性的问题。前面我们学习的DenseNet就是手工融合策

    2024年03月27日
    浏览(50)
  • Generative Adversarial Network

    Goodfellow, 2014年 文献阅读笔记--GAN--Generative Adversarial NetworkGAN的原始论文-组会讲解_gan英文论文_Flying Warrior的博客-CSDN博客 启发:如何看两个数据是否来自同一个分布? 在统计中,two sample test。训练一个二分类的分类器,如果能分开这两个数据,说明来自不同的分布;反之来

    2024年02月16日
    浏览(59)
  • Generative Adversarial Network(生成对抗网络)

    目录 Generative Adversarial Network(生成对抗网络) Basic Idea of GAN GAN as structured learning Can Generator learn by itself Can Discriminator generate Theory behind GAN Conditional GAN Generation (生成器)  Generation是一个neural network,它的输入是一个vector,它的输出是一个更高维的vector,以图片生成为例,输

    2024年02月09日
    浏览(59)
  • 论文阅读 (88):Adversarial Examples for Semantic Segmentation and Object Detection

    题目 :用于语义分割和目标检测的对抗样本 核心点 :将对抗性样本的概念扩展到语义分割和对象检测,并提出 稠密对抗生成算法 (Dense adversary generation, DAG)。 引用 : 令 X mathbf{X} X 表示包含 N N N 个识别目标 T = { t 1 , t 2 , … , t N } mathcal{T}={t_1,t_2,dots,t_N} T = { t 1 ​ , t 2 ​

    2024年02月01日
    浏览(58)
  • 生成对抗网络 – Generative Adversarial Networks | GAN

    目录 生成对抗网络 GAN 的基本原理 非大白话版本 第一阶段:固定「判别器D」,训练「生成器G」

    2024年04月15日
    浏览(45)
  • 李宏毅 Generative Adversarial Network(GAN)生成对抗网络

    附课程提到的各式各样的GAN:https://github.com/hindupuravinash/the-gan-zoo 想要让机器做到的是生成东西。-训练出来一个generator。 假设要做图像生成,要做的是随便给一个输入(random sample一个vector,比如从gaussian distribution sample一个vector),generator产生一个image。丢不同的vector,就应

    2024年01月21日
    浏览(56)
  • VQGAN(Vector Quantized Generative Adversarial Network)模型简介

    论文:Taming Transformers for High-Resolution Image Synthesis VQGAN (Vector Quantized Generative Adversarial Network) 是一种基于 GAN 的生成模型,可以将图像或文本转换为高质量的图像。该模型是由 OpenAI 研究团队在 2021 年发布的。 VQGAN 模型使用了两个核心部分:Vector Quantization (VQ) 和 GAN。其中 VQ 是

    2024年02月08日
    浏览(44)
  • 深度学习7:生成对抗网络 – Generative Adversarial Networks | GAN

    生成对抗网络 – GAN 是最近2年很热门的一种无监督算法,他能生成出非常逼真的照片,图像甚至视频。我们手机里的照片处理软件中就会使用到它。 目录 生成对抗网络 GAN 的基本原理 大白话版本 非大白话版本 第一阶段:固定「判别器D」,训练「生成器G」 第二阶段:固定

    2024年02月11日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包