Multi Diffusion: Fusing Diffusion Paths for Controlled Image Generation——【论文笔记】

这篇具有很好参考价值的文章主要介绍了Multi Diffusion: Fusing Diffusion Paths for Controlled Image Generation——【论文笔记】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文发表于ICML 2023

论文官网:MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

multidiffusion: fusing diffusion paths for controlled image generation,论文笔记,论文阅读 

一、Intorduction

        文本到图像生成模型已经具有合成高质量和多样化图像的能力,但是由于难以为用户提供对生成内容的直观控制,因此将文本到图像模型部署到现实世界的应用程序仍然具有挑战性。目前实现对扩散模型实现可控的图像生成主要有两种方式:1.从头开始训练模型或针对手头的任务微调给定的扩散模型;2.重用预先训练好的模型,并添加一些控制生成功能。

        本文提出了一种新的方法:MultiDiffusion,这是一个新的统一框架,可以显着提高将预训练扩散模型适应受控图像生成的灵活性。MultiDiffusion背后的基本思想是定义一个新的生成过程,该过程由几个参考扩散生成过程组成,这些参考扩散生成过程通过一组共享参数或约束绑定在一起。更详细地,将参考扩散模型应用于所生成的图像中的不同区域,预测每个区域的去噪采样步骤。反过来,MultiDiffusion采用全局去噪采样步骤,通过最小二乘最优解协调所有这些不同的步骤。

通过MultiDiffusion,我们能够将参考预训练的文本到图像应用于不同的应用,包括以所需的分辨率或纵横比合成图像,或使用粗略的基于区域的文本提示合成图像等等,且有着很好的图像生成质量。

二、Related work

1.Diffusion Models

        这部分主要介绍了扩散模型的相关知识。扩散模型是一类生成概率模型,当前扩散模型已经成为最先进的生成模型,因为它在学习复杂分布和生成各种高质量样本方面有着很好的效果。

2.Controllable generation with diffusion models

        这部分主要介绍了在扩散模型上实现可控的图像生成,然后提了一下论文所提出的方法MultiDiffusion,这是一种更加通用的方法,能够以更有原则的方式统一不同的用户控制输入。

三、Methods

        这部分主要讲了方法的核心原理,里面具体的公式等在此就不细讲。

multidiffusion: fusing diffusion paths for controlled image generation,论文笔记,论文阅读

        论文提出的方法核心思想如上图,Multi Diffusion会将图像随机分成不同区域,然后分别使用预训练的扩散模型,然后会对所有区域生成的结果进行全局优化。在全局优化过程中,MultiDiffusion方法使用最小二乘法(最小二乘法(Least Squares Method)是一种常用的数学优化方法,用于寻找一组参数,使得给定的函数与观测数据之间的残差平方和最小化。在本文中,最小二乘法主要用于优化生成过程,以使生成的图像与给定的约束或目标尽可能接近。)来将不同区域的生成结果进行整合。具体而言,将每个区域的生成结果视为一个向量,并将这些向量组合成一个矩阵。然后,它通过最小化矩阵与预定义的目标矩阵之间的距离来确定最终的生成结果。

        当然,这些区域可以由用户提供的控制信号(如粗糙的区域掩模)或其他空间引导信号来定义。MultiDiffusion方法允许用户以多种方式提供控制信号,以指导图像生成过程。这种灵活的控制信号输入方式使得用户能够根据具体需求对图像生成过程进行精细调整,从而实现对生成图像的多样性和质量的要求。

四、Applications

        为了能够证明论文所提的方法性能的优越性,在论文中主要提及了两个应用场景:

        第一小节主要介绍了MultiDiffusion在全景图像生成中的应用,而第二小节则介绍了MultiDiffusion在受控的区域图像生成中的应用。

        而在第二小节中,作者介绍了如何使用MultiDiffusion方法生成具有特定区域约束的图像,同时论文中提到,在受控的区域图像生成过程中添加了一个引导阶段bootstrapping,bootstrapping方法通过引入时间依赖性(时间依赖性在这里可以理解为一种动态调整的机制,它允许生成的图像随着生成过程的进行而逐渐适应和调整,以更好地符合给定的蒙版。这种动态调整可以帮助生成的图像更好地填充蒙版区域,使得最终的生成结果更加符合预期。)来调整生成的图像,以确保生成的图像在给定的蒙版区域内保持高保真度。这种时间依赖性的引入使得生成的图像能够更好地适应给定的蒙版,并产生更高质量的结果。

五、Results

1.Panorama Generation

multidiffusion: fusing diffusion paths for controlled image generation,论文笔记,论文阅读

        为了表现Multi Diffusion的优越性,论文主要提及了两种应用场景,第一种就是全景图像512*4096的生成,相比于其他的方法,Multi Diffusion的性能是比较好的。

multidiffusion: fusing diffusion paths for controlled image generation,论文笔记,论文阅读

        这里所用的三个性能指标分别是:FID、CLIP-score、CLIP-aesthetic

        FID 是用于衡量生成图像与参考模型生成图像之间的差距的指标,FID值越低表示生成图像与真实图像的分布越接近。
        CLIP-score是使用CLIP模型计算的文本和图像之间的相似度得分,它衡量了生成图像与输入文本之间的语义一致性。
        CLIP-aesthetic是使用CLIP模型计算的生成图像的美学评分,它衡量了生成图像的质量和视觉吸引力。

2.Region-based Text-to-Image Generation

multidiffusion: fusing diffusion paths for controlled image generation,论文笔记,论文阅读

        第二个应用是区域控制图像生成,这里主要是与其他方法在COCO数据集上的效果进行了对比,所用的性能指标是IoU, 即交并比。IoU用来衡量这些候选区域与真实标签之间的重叠程度,从而判断特定的对象在图像生成的指定区域的准确性。

multidiffusion: fusing diffusion paths for controlled image generation,论文笔记,论文阅读 

       表中的w/o bootstrapping是指是否在Multi Diffusion实现的过程中添加时间依赖性用来引导图像生成过程。

        论文还展现了使用模糊区域控制来进行图像生成的效果:

multidiffusion: fusing diffusion paths for controlled image generation,论文笔记,论文阅读文章来源地址https://www.toymoban.com/news/detail-782353.html

到了这里,关于Multi Diffusion: Fusing Diffusion Paths for Controlled Image Generation——【论文笔记】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

    本文发表于CVPR 2023 论文地址:CVPR 2023 Open Access Repository (thecvf.com) Github官方代码地址: github.com 最近的文本到图像模型能够根据文本提示生成高质量的图像,可以覆盖广泛的物体、风格和场景。尽管这些模型具有多样的通用功能,但用户通常希望从他们自己的个人生活中综合

    2024年01月22日
    浏览(30)
  • 论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation

    HMER论文系列 1、论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2、论文阅读和分析:Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客 3、论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation_KPer_Yang的博

    2023年04月08日
    浏览(26)
  • HiFormer Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

    [WACV2023] HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation 摘要 由于卷积神经网络的卷积运算的特性,它们在建模长程相关性和空间相关性时受到限制。虽然Transformer最初是为了解决这个问题而开发的,但它们 无法捕获低级别的特征 。相比之下,

    2024年01月21日
    浏览(36)
  • RGB-T Salient Object Detection via Fusing Multi-Level CNN Features

    ADFC means ‘adjacent-depth feature combination’,MGF means ‘multi-branch group fusion’,JCSA means ‘joint channel-spatial attention’,JABMP means ‘joint attention guided bi-directional message passing’ 作者未提供代码

    2024年02月06日
    浏览(27)
  • RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 论文阅读

    写在前面   同样是一篇比较新的论文挂在 Arxiv 上面,拿来读一读。看标题应该是提出了新的 RIS 数据集与方法,用于遥感目标检测的。 论文地址:Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 代码地址:https://github.com/Lsan2401/RMSIN 预计提交于:CVPR 202

    2024年02月03日
    浏览(32)
  • 论文简读《3D Equivariant Diffusion For Target-Aware Molecule Generation and Affinity Prediction》

    Targetdiff ICLR 2023 *一个端到端的框架,用于在蛋白靶点条件下生成分子,该框架明确考虑了蛋白质和分子在三维空间中的物理相互作用。 *就我们所知,这是针对靶向药物设计的第一个概率扩散公式,其中训练和采样过程以非自回归和SE(3)-等变的方式对齐,这得益于移位中心操

    2024年04月28日
    浏览(22)
  • 解读谷歌视频生成模型代表作:Lumiere A Space-Time Diffusion Model for Video Generation

    Diffusion Models视频生成-博客汇总 前言 :前段时间谷歌发布了基于LLMs的视频生成模型VideoPoet,这种信仰Transformers的做法就很Google。大家都以为2024年视频生成会是LLMs和SD两条路线之争,但是谷歌很快就发布了基于SD的视频生成模型Lumiere,这波直接偷家了?这篇博客详细解读Lum

    2024年02月19日
    浏览(27)
  • DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

    •我们提出了DiffIR,一种强大、简单、高效的基于扩散模型的的图像修复方法。与图像生成不同的是,输入图像的大部分像素都是给定的。因此,我们利用DM强大的映射能力来估计一个紧凑的IPR(IR Prior Representation,图像修复的先验表示)来引导图像修复,从而提高DM在图像修

    2024年02月08日
    浏览(35)
  • A Unified Conditional Framework for Diffusion-based Image Restoration

    Yi Zhang, CUHK, CN, arXiv2023, Cited:0, Code, Paper 最近,扩散概率模型(Diffusion Probabilistic Models,DPMs)在图像生成任务中表现出了非凡的性能,能够生成高度逼真的图像。当将DPMs用于图像恢复任务时,关键的一点在于如何整合条件信息,以引导DPMs生成准确和自然的输出,这在现有的研

    2024年02月07日
    浏览(66)
  • Generative Diffusion Prior for Unified Image Restoration and Enhancement 论文阅读笔记

    这是CVPR2023的一篇用diffusion先验做图像修复和图像增强的论文 之前有一篇工作做了diffusion先验(Bahjat Kawar, Michael Elad, Stefano Ermon, and Jiaming Song, “Denoising diffusion restoration models,” arXiv preprint arXiv:2201.11793, 2022. 2, 4, 6, 7),但这个模型只能做线性的退化,对于暗图增强这种非线性

    2024年02月15日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包