DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

这篇具有很好参考价值的文章主要介绍了DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、主要贡献

•我们提出了DiffIR,一种强大、简单、高效的基于扩散模型的的图像修复方法。与图像生成不同的是,输入图像的大部分像素都是给定的。因此,我们利用DM强大的映射能力来估计一个紧凑的IPR(IR Prior Representation,图像修复的先验表示)来引导图像修复,从而提高DM在图像修复中的恢复效率和稳定性。

•我们建议为Dynamic IRformer提供DMTA(dynamic multi-head transposed attention,动态多头转置注意力机制)和DGFN(dynamic gated feed-forward network,动态门前馈网络),以充分利用IPR。与以往单独优化去噪网络的LDM不同,我们提出联合优化去噪网络和解码器(即DIRformer),进一步提高估计误差的鲁棒性。

•大量实验表明,与其他基于dm的方法相比,提出的DiffIR方法在实现图像修复任务SOTA性能的同时,消耗的计算资源少得多。

二、扩散模型

前向过程:

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

逆向过程:

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

目标函数:

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

三、方法

由于IR中的大部分像素和信息都是给定的,所以对整个图像或feature map进行dm不仅要花费大量的迭代和计算,而且容易产生更多的伪影。为了解决这一问题,我们提出了一种有效的图像重建算法,即DiffIR算法。该算法采用图像重建算法来估计一个紧凑的IPR,从而引导网络进行图像恢复。由于IPR非常小,DiffIR的模型大小和迭代可以大大减少,与传统的DM相比,产生更准确的估计。

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

注:(1)concat:连接两个数组

      (2)pixelunshuffle:一种下采样方法/pixelshuffle:一种上采样方法

      (3)GELU:激活函数

        (4) F、F_head:输入、输出的feature map

我们将DiffIR的训练分为两个阶段,分别是预训练DiffIR和训练扩散模型。

1.预训练DiffIR

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

CPEN(compact IR prior extraction network,紧凑图像修复先验提取网络):将GT与低质量图像拼接在一起,经下采样后送入CPEN提取出特征Z即IPR。

DIRformer(dynamic IR transformer,图像修复动态transformer):由DGFN与DMTA组成U-net结构,输入低质量图像,在z的指导下,输出重建的高质量图像。

DGFN(dynamic gated feed-forward network,动态门前馈网络):作用是聚合局部特征。采用1×1 Conv对不同通道的信息进行聚合,采用3 × 3深度Conv对空间相邻像素的信息进行聚合。结构如下:

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

DMTA(dynamic multi-head transposed attention,动态多头转置注意力机制):作用是聚合全局空间信息,计算attention map,结构如下图

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

联合训练CPEN和DIRformer,使DIRformer充分利用CPEN提取的图像修复表达IPR,损失函数为:

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

2.训练扩散模型

利用扩散模型来估计IPR

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

前向过程:固定CPEN的参数,提取图像修复先验表示Z,对其进行扩散,得到Zt

逆向过程:首先使用CPEN从LQ图像中得到条件向量D,指导去噪网络逐步去除Zt的噪声,经过T次迭代得到估计的Z。

由于IPR是紧凑的,DiffIR可以使用更少的迭代和更小的模型来获得比传统dm更好的估计。由于传统dm在迭代过程中具有巨大的计算成本,因此必须随机采样时间步长t∈[1,t],并仅在该时间步长对去噪网络进行优化。去噪网络与解码器(即DIRformer)缺乏联合训练,意味着去噪网络造成的较小误差,也可能使DIRformer无法发挥其潜力。而DiffIR从第t个时间步长开始,经过所有去噪迭代,得到Zˆ,发送给DIRformer进行联合优化。

损失函数:

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

四、实验及结论

  在inpainting、超分辨率、去运动模糊方面实现了SOTA性能。文章来源地址https://www.toymoban.com/news/detail-482720.html

到了这里,关于DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Generative Diffusion Prior for Unified Image Restoration and Enhancement 论文阅读笔记

    这是CVPR2023的一篇用diffusion先验做图像修复和图像增强的论文 之前有一篇工作做了diffusion先验(Bahjat Kawar, Michael Elad, Stefano Ermon, and Jiaming Song, “Denoising diffusion restoration models,” arXiv preprint arXiv:2201.11793, 2022. 2, 4, 6, 7),但这个模型只能做线性的退化,对于暗图增强这种非线性

    2024年02月15日
    浏览(39)
  • 【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    这篇文章提出了一个高效的用于文本到图像生成模型架构,整体思路比较直白,在不损失图像生成质量的情况下,相比于现有T2I模型(SD1.4,SD2.1等)大大节约了成本。附录部分给了一些有趣的东西,比如FID的鲁棒性 整篇文章还有点疑惑,比如阶段B的训练,使用的模型;节省

    2024年02月21日
    浏览(33)
  • DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior

    论文链接:https://arxiv.org/abs/2308.15070 项目链接:https://github.com/XPixelGroup/DiffBIR 我们提出了DiffBIR,它利用预训练的文本到图像扩散模型来解决盲图像恢复问题。我们的框架采用两阶段pipeline。在第一阶段,我们在多种退化中预训练恢复模块,以提高现实场景中的泛化能力。第二

    2024年02月09日
    浏览(27)
  • Learning Enriched Features for Fast Image Restoration and Enhancement 论文阅读笔记

    这是2022年TPAMI上发表的大名鼎鼎的MIRNetv2,是一个通用的图像修复和图像质量增强模型,核心是一个多尺度的网络 网络结构整体是残差的递归,不断把残差展开可以看到是一些残差块的堆叠。核心是多尺度的MRB。网络用的损失函数朴实无华: MRB的核心是RCB和SKFF两个模块,先

    2024年02月16日
    浏览(29)
  • 【论文阅读】Uformer:A General U-Shaped Transformer for Image Restoration

    🐳博客主页:😚睡晚不猿序程😚 ⌚首发时间:2023.6.8 ⏰最近更新时间:2023.6.8 🙆本文由 睡晚不猿序程 原创 🤡作者是蒻蒟本蒟,如果文章里有任何错误或者表述不清,请 tt 我,万分感谢!orz 目录 🚩前言 1. 内容简介 2. 论文浏览 3. 图片、表格浏览 4. 引言浏览 5. 方法 5.

    2024年02月08日
    浏览(37)
  • 【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【开源】 【核心思想】 本文的核心思想是提出了一种用于医学图像分割的参数高效的提示调整(Prompt Tuning)方法。这种方法基于预训练的神经网络,通过插入可学习的

    2024年01月17日
    浏览(44)
  • 论文阅读:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章内容阅读

    论文标题: TinySAM: 极致高效的分割一切模型 论文地址:https://arxiv.org/pdf/2312.13789.pdf 代码地址(pytorch):https://github.com/xinghaochen/TinySAM 详细论文解读:TinySAM:极致高效压缩,手机就能实时跑的分割一切模型 - 知乎 (zhihu.com)  目录 文章内容解析  概括 文章的观点 技术创新解

    2024年01月17日
    浏览(39)
  • 【深度学习】WaveMix: A Resource-efficient Neural Network for Image Analysis 论文

    论文:https://arxiv.org/abs/2205.14375 代码:https://github.com/pranavphoenix/WaveMix 我们提出了WaveMix——一种新颖的计算机视觉神经架构,既资源高效,又具有泛化性和可扩展性。WaveMix网络在多个任务上实现了与最先进的卷积神经网络、视觉Transformer和token mixer相当或更好的准确性,为C

    2024年02月15日
    浏览(37)
  • BSRN网络——《Blueprint Separable Residual Network for Efficient Image Super-Resolution》论文解读

    目录 摘要: 网络架构: 具体流程: BSConv: ESDB——Efficient Separable Distillation Block:  Blueprint Shallow Residual Block (BSRB): ESA和CCA:  实验: BSRN的实现细节: BSRN-S(比赛)的实现细节: 不同卷积分解的效果: ESA和CCA的有效性:  不同激活函数对比: BSRN的有效性:  和SOTA方法的

    2024年02月05日
    浏览(35)
  • 论文阅读:Diffusion Model-Based Image Editing: A Survey

    论文链接 GitHub仓库 这篇文章是一篇基于扩散模型(Diffusion Model)的图片编辑(image editing)方法综述。作者从多个方面对当前的方法进行分类和分析,包括学习策略、用户输入、和适用的任务等。为了进一步评估文本引导的图片编辑算法,作者提出了一个新的基准,EditEval,

    2024年04月10日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包