图像融合、Transformer、扩散模型

这篇具有很好参考价值的文章主要介绍了图像融合、Transformer、扩散模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        在这篇博客中,主要是收集到一些图像融合框架中引入Transformer结构的文章,提供给大家参考学习,目前图像融合领域引入Transformer结构的文章比较少(我所看到的比较少,也看可能我看的比较少?),主要作用就是把它作为一种提取特征的方式,或者说更倾向于long-range dependencies的建立。Transformer引入到图像融合领域的时间并不长,大部分文章都是2020-2022发出的,所有并没有统计发表年份。至于是具体是哪个会议或者期刊发表的并没有标注,有兴趣可以自己去查查。

       Transformer 主要是通过自注意力学习图像斑块之间的全局空间关系。 自注意力机制致力于建立long-range dependencies,从而在浅层和深层中更好地利用全局信息,所以 Transformer 的使用就是解决长序列问题的一个好方法。在 CV 领域中常用的就是 CNN,它可以提取本地的特征,因为每次卷积就是提取该卷积下的特征图,在局部信息的提取上有很大优势,但无法关注图像的长期依赖关系,阻碍了复杂场景融合的上下文信息提取。所以, Transformer 的引入主要解决这个问题。

        下面这个思维导图从单任务和多任务的角度进行设计的,简单看看吧!!!

图像融合、Transformer、扩散模型

 下面这个表格是论文的名称,以及在网络结构上进行了总结。

CNN+Transformer结构
文章 类型 代码
Image Fusion Transformer VIF 文中提供了代码链接
MFST: Multi-Modal Feature Self-Adaptive Transformer for Infrared and Visible Image Fusion VIF
DNDT: Infrared and Visible Image Fusion Via DenseNet and Dual-Transformer VIF
TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework using Self-Supervised Multi-Task Learning MEF

文中提供了代码链接

TransFuse: A Unified Transformer-based Image Fusion Framework using Self-supervised Learning

Unified Framework

文中提供了代码链接
TGFuse: An Infrared and Visible Image Fusion Approach Based on Transformer and Generative Adversarial Network VIF
SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer Unified Framework 文中提供了代码链接
CGTF: Convolution-Guided Transformer for Infrared and Visible Image Fusion VIF
Pure Transformer结构(这两篇都是预训练模型做的)
SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images VIF 文中提供了代码链接
PPT Fusion: Pyramid Patch Transformer for a Case Study in Image Fusion Unified Framework
新增
THFuse: An infrared and visible image fusion network using transformer and hybrid feature extractor VIF
IFormerFusion: Cross-Domain Frequency Information Learning for Infrared and Visible Image Fusion Based on the Inception Transformer VIF
Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and Visible Image Fusion VIF
扩散模型
Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models VIF,扩散彩色通道特征
2023.11.28新增顶会、顶刊
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion +Transformer CVPR23
MetaFusion: Infrared and Visible lmage Fusion via Meta-Feature Embedding
from Object Detection
+目标检测 CVPR23
Deep Convolutional Sparse Coding Networks for Interpretable Image Fusion Unified Framework CVPR
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation +语义分割 ICCV23
DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion +GAN+扩散模型 ICCV23
Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and Beyond +语义分割 IJCAI23
LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images VIF TPAMI23
CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion +耦合对比 IJCV23
An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection +显著性目标检测 InF23

       

        上述论文的实验部分都是比较的卷积方法或者传统方法,并没有比较到使用到Transforme的模型,所以他们之间的是啥情况,那就不清楚了,没刻意去比较过,有兴趣可以去比较比较。That thing is not sure!!!

        思考:怎么把Tranformer合理的引入到CNN结构中进行图像融合以及如何真正地将Transformer用到图像融合融合中(完全使用Transformer去构建图像融合模型) ??? 

        目前,只收集到这些文章。。如有错误,希望大家看到后及时在评论区留言!!!

2023.3.17新增、扩散模型!!!

2023/11/28   结合相关任务相关成主流了???

新增!!!顶会、顶刊相关论文!!!文章来源地址https://www.toymoban.com/news/detail-446297.html

到了这里,关于图像融合、Transformer、扩散模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI绘画能力的起源:通俗理解VAE、扩散模型DDPM、DETR、ViT/Swin transformer

    2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、Faster R-CNN 2016 YOLO、SSD 2017 Mask R-CNN、YOLOv2 2018 YOLOv3 随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End

    2024年02月06日
    浏览(34)
  • AI绘画能力的起源:从VAE、扩散模型DDPM、DETR到ViT/Swin transformer

    2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、Faster R-CNN 2016 YOLO、SSD 2017 Mask R-CNN、YOLOv2 2018 YOLOv3 随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End

    2024年02月04日
    浏览(34)
  • AI绘画能力的起源:从VAE、扩散模型DDPM、DETR到ViT/MAE/Swin transformer

    2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、Faster R-CNN 2016 YOLO、SSD 2017 Mask R-CNN、YOLOv2 2018 YOLOv3 随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End

    2024年02月08日
    浏览(33)
  • 基于FFT + CNN - Transformer 时域、频域特征融合的轴承故障识别模型

    目录 往期精彩内容: 前言 1 快速傅里叶变换FFT原理介绍 2 轴承故障数据的预处理 2.1 导入数据 2.2 制作数据集和对应标签 3 基于FFT+CNN-Transformer的轴承故障识别模型 3.1 网络定义模型 3.2 设置参数,训练模型 3.3 模型评估 Python-凯斯西储大学(CWRU)轴承数据解读与分类处理_cwr

    2024年02月03日
    浏览(45)
  • 扩散模型实战(十):Stable Diffusion文本条件生成图像大模型

     扩散模型实战(一):基本原理介绍 扩散模型实战(二):扩散模型的发展 扩散模型实战(三):扩散模型的应用 扩散模型实战(四):从零构建扩散模型 扩散模型实战(五):采样过程 扩散模型实战(六):Diffusers DDPM初探 扩散模型实战(七):Diffusers蝴蝶图像生成实

    2024年02月03日
    浏览(42)
  • AI绘画与CV多模态能力的起源:从VAE、扩散模型DDPM、DETR到ViT/MAE/Swin transformer

    2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、Faster R-CNN 2016 YOLO、SSD 2017 Mask R-CNN、YOLOv2 2018 YOLOv3 随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End

    2024年02月11日
    浏览(27)
  • 【AIGC】手把手使用扩散模型从文本生成图像

    在这篇文章中,我们将手把手展示如何使用Hugging Face的diffusers包通过文本生成图像。 DALLE2是收费的,用户只有一些免费的额度,如果免费额度使用完毕就需要付费了,所以必须寻找替代方案,并发现了Hugging Face,他们发布了一个扩散模型的包diffusers ,可以让我们直接使用。

    2024年02月09日
    浏览(43)
  • 人工智能的优势:使用 GPT 和扩散模型生成图像

    推荐:使用 NSDT场景编辑器快速搭建3D应用场景 世界被人工智能 (AI) 所吸引,尤其是自然语言处理 (NLP) 和生成 AI 的最新进展,这是有充分理由的。这些突破性技术有可能提高各种任务的日常生产力。例如,GitHub Copilot帮助开发人员快速编写整个算法,OtterPilot自动生成高

    2024年02月09日
    浏览(41)
  • 文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研

    基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。 文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据给定文本生成符合描述的真实图像,具有巨大的应用潜力,如 视觉推

    2023年04月08日
    浏览(31)
  • 图像融合论文阅读:SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images

    @article{wang2022swinfuse, title={SwinFuse: A residual swin transformer fusion network for infrared and visible images}, author={Wang, Zhishe and Chen, Yanlin and Shao, Wenyu and Li, Hui and Zhang, Lei}, journal={IEEE Transactions on Instrumentation and Measurement}, volume={71}, pages={1–12}, year={2022}, publisher={IEEE} } 论文级别:SCI A2/Q1 影响因

    2024年04月23日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包