Stable Diffusion背后原理(Latent Diffusion Models)

这篇具有很好参考价值的文章主要介绍了Stable Diffusion背后原理(Latent Diffusion Models)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

2023年第一篇博客,大家新年好呀~

这次来关注一下Stable Diffusion背后的原理,即 High-Resolution Image Synthesis with Latent Diffusion Models 这篇论文。
之前关注的那些工作只能工作到 256 × 256 256 \times 256 256×256 像素(resize成这个后才输入模型),甚至更低。
然而这篇 Latent Diffusion Models 可以到 512 × 512 512 \times 512 512×512 了,生成的质量也更好。

本文与之前的文章一样,会从论文和代码两个角度来分析. 本文会不断更新中…

DDPM原理与代码剖析
IDDPM原理和代码剖析
DDIM原理及代码(Denoising diffusion implicit models)
Classifier Guided Diffusion



理论

摘要

(1) 在摘要部分,作者就说啊,之前的diffusion模型,也可以实现SOTA,但需要耗费巨大算力。
“However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations.”

(2) 作者就想了个办法,这也是模型名字 latent 的由来,我们不要在原始像素上推导了,我们让扩散模型在 latent space(可以理解为一个feature map的空间中)进行学习。
“we apply them in the latent space of powerful pretrained autoencoders.”
具体的,可以是图片经过encoder(可以是CNN) 后,得到一个feature map, 然后在这个feature map上进行标准的扩散过程,最后来个decoder映射回图片像素空间。

(3) 优势很显然
Our latent diffusion models (LDMs) achieve new state-of-the-art scores for image inpainting and class-conditional image synthesis and highly competitive performance on various tasks, including text-to-image synthesis, unconditional image generation and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs.


Introduction

(1) 在introduction那里, 作者分析了一下 概率密度 相关模型可以分为两个阶段, 一个是 perceptual上的,就是图像纹理细节,另一个是语义上的,例如帅哥变成了美女。
As with any likelihood-based model, learning can be roughly divided into two stages: First is a perceptual compression stage which removes high-frequency details but still learns little semantic variation. In the second stage, the actual generative model learns the semantic and conceptual composition of the data (semantic compression).

latent diffusion models,# diffusion,stable diffusion,计算机视觉,深度学习,diffusion,ddpm

所以呢,作者想先找到perceptual上的点,牺牲一点纹理的精度,换取生成高清图像( 512 × 512 512\times 512 512×512)的能力。

“Compared to pixel-based diffusion approaches, we also significantly decrease inference costs.”



Method

(1) 图片经过一个编码器,得到特征 z z z, 即
z = E ( x ) z = E(x) z=E(x)

中途就是常规的DDPM,只是denoise的是 z, 而不是 x。

latent diffusion models,# diffusion,stable diffusion,计算机视觉,深度学习,diffusion,ddpm

最后通过decoder返回预测的 x ^ \hat{x} x^
x ^ = D ( z ^ ) \hat{x} = D(\hat{z}) x^=D(z^)

latent diffusion models,# diffusion,stable diffusion,计算机视觉,深度学习,diffusion,ddpm

(2) 若是需要条件 (Conditioning Mechanisms) 的话, 则可以输入相关条件的 feature
ϵ θ ( z t , t , y ) \epsilon_θ(zt, t, y) ϵθ(zt,t,y), 这里 y = E c ( x c ) y=E_c(x_c) y=Ec(xc)
例如,如果需要输入文本的话,先通过文本编码器,得到文本特征,再输入到Unet网络的condition embedding即可, 通过是和 step embedding相加或拼接等。这是一般的condition ddpm操作。

但是作者认为这样不好, “however, combining the generative power of DMs with other types of conditionings beyond class-labels [15] or blurred variants of the input image [72] is so far an under-explored area of research.”

本文引入了一种 cross-attention mechanism ,

latent diffusion models,# diffusion,stable diffusion,计算机视觉,深度学习,diffusion,ddpm

这里的 τ θ \tau_\theta τθ 就是处理prompt y y y 的编码器,例如文本 y y y 对应的 τ θ \tau_\theta τθ 就是文本编码器。最后 ϵ θ \epsilon_\theta ϵθ τ θ \tau_\theta τθ 靠下列式子更新:文章来源地址https://www.toymoban.com/news/detail-800868.html

latent diffusion models,# diffusion,stable diffusion,计算机视觉,深度学习,diffusion,ddpm

到了这里,关于Stable Diffusion背后原理(Latent Diffusion Models)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • diffusion model(五)stable diffusion底层原理(latent diffusion model, LDM)

    [论文地址] High-Resolution Image Synthesis with Latent Diffusion Models [github] https://github.com/compvis/latent-diffusion diffusion model(一)DDPM技术小结 (denoising diffusion probabilistic) diffusion model(二)—— DDIM技术小结 diffusion model(三)—— classifier guided diffusion model diffusion model(四)文生图diffusio

    2024年02月15日
    浏览(29)
  • AI绘画Stable Diffusion原理之Autoencoder-Latent

    传送门: stable diffusion:Git|论文 stable-diffusion-webui:Git Google Colab Notebook部署stable-diffusion-webui:Git kaggle Notebook部署stable-diffusion-webui:Git AI绘画,输入一段文本就能生成相关的图像,stable diffusion便是其中一个重要分支。自己对其中的原理比较感兴趣,因此开启这个系列的文章

    2024年02月15日
    浏览(26)
  • 由浅入深理解latent diffusion/stable diffusion(2):扩散生成模型的工作原理

    Diffusion Models专栏文章汇总:入门与实战 前言: 关于如何使用stable diffusion的文章已经够多了,但是由浅入深探索stable diffusion models背后原理,如何在自己的科研中运用stable diffusion预训练模型的博客少之又少。本系列计划写5篇文章,和读者一起遨游diffusion models的世界!本文主

    2024年02月08日
    浏览(37)
  • Latent Diffusion Models

    High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022) https://arxiv.org/abs/2112.10752 GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model 贡献 : 大大减少计算复杂度、提出了cross-attention的方法来实现

    2024年02月02日
    浏览(23)
  • Latent Diffusion(Stable Diffusion) 论文译文

    Latent Diffusion(Stable Diffusion) 论文译文: Latent Diffusion(Stable Diffusion) 论文译文 以下是 附录 的 H、其他定性结果: 最后,我们为我们的景观模型(图12、23、24和25)、我们的类条件ImageNet模型(图26-27)以及我们的CelebA-HQ、FFHQ和LSUN数据集的无条件模型(图28-31)提供了额外

    2024年02月15日
    浏览(26)
  • Stable diffusion相比于latent diffusion有哪些改进?

    Stable Diffusion是对Latent Diffusion模型的改进,主要在以下方面进行了优化: 稳定性:Stable Diffusion模型引入了稳定性措施,通过限制每一步噪声向量的大小来防止梯度爆炸或消失问题的出现。这一改进使得模型在训练过程中更加稳定和可靠。 训练速度:Stable Diffusion模型通过减少

    2024年02月16日
    浏览(24)
  • 大模型 Dalle2 学习三部曲(一)Latent Diffusion Models学习

    Diffusion model 大获成功,但是它的短板也很明显,需要大量的计算资源,并且推理速度比较慢。如何才能提升Diffusion model的计算效率。业界有各种各样的改进,无疑 Latent Diffusion Models(潜在扩散模型,LDMs) 是比较成功的一篇,那就来学习一下LDMS是怎么做的吧 1,与基于变换

    2024年01月18日
    浏览(26)
  • high-resolution image synthesis with latent diffusion models

    如何通俗理解扩散模型? - 知乎 泻药。实验室最近人人都在做扩散,从连续到离散,从CV到NLP,基本上都被diffusion洗了一遍。但是观察发现,里面的数学基础并不是模型应用的必须。其实大部分的研究者都不需要理解扩散模型的数学本质,更需要的是对… https://zhuanlan.zhihu.

    2023年04月19日
    浏览(30)
  • 4、High-Resolution Image Synthesis with Latent Diffusion Models

    github地址 diffusion model明显的缺点是耗费大量的时间、计算资源,为此,论文将其应用于强大的预训练自编码器的潜在空间 ,这是首次允许在复杂性降低和细节保存之间达到一个近乎最佳的点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意层,将扩散模型转化为

    2024年02月12日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包