扩散模型 - Stable Diffusion

这篇具有很好参考价值的文章主要介绍了扩散模型 - Stable Diffusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

4 Stable Diffusion

Stable Diffusion 是由 Stability AI 开发的开源扩散模型。Stable Diffusion 可以完成多模态任务,包括:文字生成图像(text2img)、图像生成图像(img2img)等。

4.1 Stable Diffusion 的组成部分

扩散模型 - Stable Diffusion

​ Stable Diffusion 由两部分组成

  • 文本编码器:提取文本 prompt 的信息

  • 图像生成器:根据文本 embedding 生成图像

    • 图像信息创建器:多步扩散过程。步长是其中一个超参数
    • 图像解码器:只在最后生成图像时运行一次
  • **文本编码器:**由一种特殊的 Transformer 编码器组成,例如:OpenAI 的 Clip。

  • 图像信息创建器:自编码器(通常是 U-Net)和噪音机制组成。

  • 图像解码器:由自编码器的解码器组成。

​ Stable Diffusion Pipeline

  • Clip:文本信息编码
    • 输入:文本
    • 输出:77 token 的 embedding 向量,每个包含 768 维
  • U-Net + Noise Scheduler:逐渐把信息扩散至潜空间中
    • 输入:文本 embedding 和由噪音组成的多维 tensor
    • 输出:处理后的 tensor
  • **自编码器的解码器:**使用扩散/处理后的信息生成图像
    • 输入:经过处理的 tensor(shape: (4, 64, 64))
    • 输出:生成图像(shape:(3, 512, 512))

4.2 扩散过程(图像信息创建器)

​ 扩散过程发生在图像信息创建器中。该过程**一步步(step by step)**进行。初始的输入为文本 embedding 和一个随机的图像信息数组(也称为潜变量 latents)。每一步扩散的输入是潜变量,输出是信息进一步丰富的潜变量。最终的输出是一张图像。如图:

扩散模型 - Stable Diffusion

4.2.1 扩散过程的工作原理

​ 扩散过程的原理其实是训练了一个基于 U-Net 和噪音等级机制(schedule)的噪音等级预测器。

扩散过程包含如下阶段:

  • 数据集准备阶段:生成训练数据
    • 输入:包含清晰图像的数据集、不同级别的噪音等级机制
    • 流程:从数据集中抽样得到清晰图像,从噪音等级机制中抽样得到某种级别的噪音样本,把该噪音和图像融合
    • 输出:带有某种等级的噪音图像
  • 训练阶段:训练噪音等级预测器
    • 输入:把上一阶段中的噪音图像清晰图像作为输入数据,对应的噪音样本作为标签。
    • 训练:采用 U-Net 作为神经网络,采用监督 loss 对输入进行学习
    • 输出:某种等级的噪音样本
  • 推断阶段:去噪并生成图像
    • 输入:训练完成的 U-Net、某个噪音图像
    • 推断:U-Net 输出该噪音图像的噪音等级(噪音样本)
    • 输出:把噪音图像减去噪音样本,得到去噪图像。不断重复该过程,最终得到类似清晰图像的图像(并不一定完全相同)

​ 生成图像的结果依赖于训练数据集。例如:Stable Diffusion 采用了带有艺术效果的 LAION Aesthetics 数据集,因此生成图像也具有艺术效果。

4.3 提速:在潜空间扩散

​ Stable Diffusion 的扩散过程是在潜空间中开展的,而不是整个图像像素,这样的压缩过程加速了图像生成的速度。

​ 该压缩过程通过**自编码器(autoencoder)**实现。自编码器的编码器把图像压缩至潜空间,并用解码器根据压缩信息重建图像。因此,在前向扩散过程中,等级噪音应用于潜变量,而不是图像像素。所以 U-Net(噪音预测器)预测的噪音也是以潜变量的形式表示的。

扩散模型 - Stable Diffusion

前向扩散过程就是给清晰图像不断添加噪音的过程,也是生成数据集训练噪音预测器的过程,当噪音预测器训练完毕后,就可以运行反向抽样过程来去噪并重建图像

​ 在 Stable Diffusion、LDM(潜变量扩散模型) 的论文中,该流程如下:

扩散模型 - Stable Diffusion

4.4 Transformer(文本编码器)

Transformer 模型根据文本输入生成 token embedding。

​ Stable Diffusion 的开源模型中使用的是 OpenAI 的 CLIP(基于 GPT),而其论文中使用的是 Google 的 BERT。两者都是 Transformer 的编码器(encoder)。

​ 有工作指出:文本编码器的选择对于扩散模型的表现比图像生成器的选择更重要。

4.4.1 CLIP 的训练过程

​ CLIP 的训练流程为:

  • 输入:训练数据为网页爬取的图像和其对应 HTML 标签属性 alt,也就是图像 + 注释(caption)
  • 训练:CLIP 分别使用图像编码器和文本编码器把两种输入数据转化为图像 embedding 和文本 embedding,使用余弦相似度作为 loss 和标签 embeddings 进行比较并更新参数
  • 输出:训练完毕的 CLIP 接收图像和文本描述并生成对应的 embeddings

扩散模型 - Stable Diffusion

4.5 加入文本数据

​ 有了文本编码器后就要给扩散模型加入文本数据。

​ 下面是有、无文本的扩散过程对比:

扩散模型 - Stable Diffusion

​ 加入文本数据后,噪音预测器(U-Net)也要发生相应变化,主要是在每个 ResNet 块后添加注意力运算:

扩散模型 - Stable Diffusion文章来源地址https://www.toymoban.com/news/detail-508406.html

参考

  • Ling Yang et al. “Diffusion Models: A Comprehensive Survey of Methods and Applications .” arXiv 2023.
  • Jonathan Ho et al. “Denoising Diffusion Probabilistic Models”. NeurIPS 2020.
  • Jiaming Song et al. “Denoising Diffusion Implicit Models”. ICLR 2021.
  • Alex Nichol et al. “Improved Denoising Diffusion Probabilistic Models”. ICML 2021.
  • Robin Rombach et al. “High-Resolution Image Synthesis with Latent Diffusion Models”. arXiv 2022.
  • Prafulla Dhariwal et al. Diffusion “Models Beat GANs on Image Synthesis”. NeurIPS 2021.
  • Jonathan Ho et al. “Classifier-Free Diffusion Guidance”. NeurIPS Workshop 2021.
  • Tim Salimans et al. “Progressive Distillation for Fast Sampling of Diffusion Models”. ICLR 2022.
  • Chenlin Meng et al. On Distillation of Guided Diffusion Models”. CVPR 2023.

到了这里,关于扩散模型 - Stable Diffusion的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Stable Diffusion生成式扩散模型代码实现原理

    Stable Diffusion可以使用PyTorch或TensorFlow等深度学习框架来实现。这些框架提供了一系列的工具和函数,使得开发者可以更方便地构建、训练和部署深度学习模型。因此可以使用PyTorch或TensorFlow来实现Stable Diffusion模型。 安装PyTorch:确保您已经安装了PyTorch,并具备基本的PyTorch使用

    2024年03月13日
    浏览(47)
  • 【扩散模型】12、Stable Diffusion | 使用 Diffusers 库来看看 Stable Diffusion 的结构

    参考:HuggingFace 参考:https://jalammar.github.io/illustrated-stable-diffusion/ Stable Diffusion 这个模型架构是由 Stability AI 公司推于2022年8月由 CompVis、Stability AI 和 LAION 的研究人员在 Latent Diffusion Model 的基础上创建并推出的。 其原型是(Latent Diffusion Model),一般的扩散模型都需要直接在像

    2024年01月18日
    浏览(61)
  • 【扩散模型】11、Stable Diffusion | 使用 Diffusers 库来看看 Stable Diffusion 的结构

    参考:HuggingFace 参考:https://jalammar.github.io/illustrated-stable-diffusion/ Stable Diffusion 这个模型架构是由 Stability AI 公司推于2022年8月由 CompVis、Stability AI 和 LAION 的研究人员在 Latent Diffusion Model 的基础上创建并推出的。 其原型是(Latent Diffusion Model),一般的扩散模型都需要直接在像

    2024年01月16日
    浏览(46)
  • 扩散模型实战(十):Stable Diffusion文本条件生成图像大模型

     扩散模型实战(一):基本原理介绍 扩散模型实战(二):扩散模型的发展 扩散模型实战(三):扩散模型的应用 扩散模型实战(四):从零构建扩散模型 扩散模型实战(五):采样过程 扩散模型实战(六):Diffusers DDPM初探 扩散模型实战(七):Diffusers蝴蝶图像生成实

    2024年02月03日
    浏览(62)
  • 文字转图片生成系统-Stable diffusion稳定扩散模型

    二话不说先上效果图:(附带代码和模型资源文件)  让它画一个超级汽车在海边。。  近期百度推出了文言一心, 一个能回答问题,能根据文字描述绘制图片的服务,前期可能不太完善出现了一些失误,不过这个idea还是相当不错的   这个东西挺好哈,作为文学创作,生成

    2024年02月09日
    浏览(55)
  • Stable Diffusion扩散模型推导公式的基础知识

    A 和 B 是两个独立事件: ⇒ Rightarrow ⇒ P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P ( A ∣ B ) = P ( A ) , P ( B ∣ A ) = P ( B ) P(B|A)=P(B) P ( B ∣ A ) = P ( B ) , ⇒ Rightarrow ⇒ P ( A , B ∣ C ) = P ( A ∣ C ) P ( B ∣ C ) P(A,B|C)=P(A|C)P(B|C) P ( A , B ∣ C ) = P ( A ∣ C ) P ( B ∣ C ) 贝叶斯公式: P ( A ∣ B ) = P ( B ∣

    2024年04月10日
    浏览(58)
  • AI绘画Stable Diffusion原理之扩散模型DDPM

    传送门: stable diffusion:Git|论文 stable-diffusion-webui:Git Google Colab Notebook部署stable-diffusion-webui:Git kaggle Notebook部署stable-diffusion-webui:Git AI绘画,输入一段文本就能生成相关的图像,stable diffusion便是其中一个重要分支。自己对其中的原理比较感兴趣,因此开启这个系列的文章

    2024年02月03日
    浏览(50)
  • 【扩散模型】万字长文全面理解与应用Stable Diffusion

    Stable Diffusion是一个强大的文本条件隐式扩散模型(text-conditioned latent diffusion model),它具有根据文字描述生成精美图片的能力。它不仅是一个完全开源的模型(代码,数据,模型全部开源),而且是它的参数量只有 1B 左右,大部分人可以在普通的显卡上进行推理甚至精调模

    2024年01月22日
    浏览(88)
  • Diffusion扩散模型学习4——Stable Diffusion原理解析-inpaint修复图片为例

    Inpaint是Stable Diffusion中的常用方法,一起简单学习一下。 https://github.com/bubbliiiing/stable-diffusion 喜欢的可以点个star噢。 txt2img的原理如博文 Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例 img2img的原理如博文 Diffusion扩散模型学习3——Sta

    2024年02月14日
    浏览(63)
  • Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像为例

    用了很久的Stable Diffusion,但从来没有好好解析过它内部的结构,写个博客记录一下,嘿嘿。 https://github.com/bubbliiiing/stable-diffusion 喜欢的可以点个star噢。 Stable Diffusion是比较新的一个扩散模型,翻译过来是稳定扩散,虽然名字叫稳定扩散,但实际上换个seed生成的结果就完全不

    2024年02月08日
    浏览(61)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包