Stable Diffusion 文生图技术原理

这篇具有很好参考价值的文章主要介绍了Stable Diffusion 文生图技术原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

图像生成模型简介

图片生成领域来说,有四大主流生成模型:生成对抗模型(GAN)、变分自动编码器(VAE)、流模型(Flow based Model)、扩散模型(Diffusion Model)。

从2022年开始,主要爆火的图片生成模型是Diffusion Model(扩散模型)为主。

Stable Diffusion 文生图技术原理,stable diffusion

Diffusion Model:扩散模型,当前DALL-E, Midjourney, Stable Diffusion图片生成的核心都是Diffusion Model,它就是通过不停去除噪音期望获得好结果的生成模型。

Stable Diffusion 文生图技术原理,stable diffusion

早期的扩散模型在AI绘画中效果不好,而且单张图生成需要10-15分钟,后来英国 Stability AI 公司对模型进行了改进并开源,把图片生成稳定性和质量都大幅提高,图片生成速度提高了100倍,意味着以前需要10-15分钟(600-900秒)现在只需要6-10秒就可以生成一张图。

在Stable Diffusion(稳定扩散模型)出现之前,是有一个稳定扩散模型(Latent Diffusion),是Latent Difusion论文中的text2image模型。

Latent Diffusion Model: 潜在扩散模型,是扩散模型的一种变体,最大的区别是,它把图片压缩,降维,压缩后的空间叫Latent Space(潜在空间或隐空间),这样可以大幅减少计算量,有了这个技术我们才可以在普通GPU上生成图片。另外,Diffusion model不仅可以生成图像,还可以生成音频、视频。

Stable Diffusion 文生图技术原理,stable diffusion

Stability Al改进了Latent diffusion,新模型叫做 Stable Diffusion。改进点包括:

(1) 训练数据:Latent diffusion是采用laion-400M数据训练的,而Stable diffusion是在laion-2B.en数据集上训练的,明显后者用了更多的训练数据,而且后者也采用了数据筛选来提升数据质量,比如去掉有水印的图像以及选择美学评分较高的图像

(2) text-encoder:Latent diffusion采用一个随机初始化的transformer来编码text,而Stable difusion采用一个预训练好的CLIP text encoder来编码text,预训练的text model往往要优于从零开始训练的模型

(3) 训练尺寸:Latent diffusion只是在256x256分辨率上训练,而Stable diffusion先在256x256分辨率上预训练,然后再在512x512分辨率上Finetune

总结:Stable diffusion使用了更好的text encoder在更大的数据集上训练,并且能生成更高分辨率图像,所以目前图片生成效果 Stable Diffusion更好。

Stable Diffusion推理过程

Stable Diffusion 文生图技术原理,stable diffusion

更细化的推理过程:

Stable Diffusion 文生图技术原理,stable diffusion

过程:prompt text(cat girl) -> CLIP -> text embedding -> diffusion(U-Net + Scheduler)-> VAE -> generate image

Stable Diffusion底层工作机制

Step 1. 输入提示词,解析提示词:文本图片编码器CLIP

Step 2. 基于提示词表征生成图像表征:基于U-Net的Diffusion过程(U-Net + Scheduler)

Step 3. 图片输入输出的处理转换:VAE(图像解码器负责latent space到pixel space的图像生成)

下面分别解析每一步骤的原理。

CLIP

CLIP(Contrastive Language-Image Pre-training): 图文对比学习的预训练模型

Stable Diffusion 文生图技术原理,stable diffusion

CLIP不是完全的理解语义,只是想个方法把文字和图像对应起来:

Stable Diffusion 文生图技术原理,stable diffusion

文本编码为text embedding只是CLIP的中间产物。

CLIP的训练集:

Stable Diffusion 文生图技术原理,stable diffusion

训练集:400 million image-text pairs(4亿)

训练过程

Stable Diffusion 文生图技术原理,stable diffusion

同一个batch里面对比学习,对角线为正样本,其他的均为负样本,CLIP的训练目标就是最大 N 个正样本的相似度,同时最小化 N^2 - N 个负样本的相似度。

这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系:同义的图文对得分高,不同的得分低。

简单说:就是把文字和图片放到一个矩阵空间里,用来解决文本到图片的映射和相似性交集,方便通过文本找到对应图像的分布。

trick:batch越大训练效果越好。

Stable Diffusion 文生图技术原理,stable diffusion

需要多大CLIP模型?

论文:《Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding》

paper:https://arxiv.org/abs/2205.11487

Stable Diffusion 文生图技术原理,stable diffusion

说明:FID↓ CLIP Score ↑

增加语言模型的encoder大小比增加图像扩散模型的大小更能提高图像-文本对齐。

FID(Fréchet Inception Distance)

paper:https://arxiv.org/abs/1706.08500

Stable Diffusion 文生图技术原理,stable diffusion

FID是度量真实图像和生成图像的特征分布(假设是高斯分布)的距离,要求需要很多特征分布(FID-10K是10K张图),FID得分越小越好,代表生成的图越像真图。

Diffusion Model

基于Diffusion Model的思路实现DDPM(Denoising Diffusion Probabilistic Models,去噪扩散概率模型)。

DDPM就是通过对数据不断加噪成为真实噪声,和从真实噪声不断去噪还原成原始数据的过程中,学习到去噪的过程,进而就能对真实噪声进行随机采样,还原(生成)成各式各样的数据了。

Stable Diffusion 文生图技术原理,stable diffusion

前向过程(forward process,也叫扩散过程diffusion process)是指的对数据逐渐增加高斯噪音直至数据变成随机噪音的过程。

反向过程(reverse process 逆向过程)是一个去噪的过程,如果我们知道反向过程的每一步的真实分布,那么从一个随机噪音开始,逐渐去噪就能生成一个真实的样本,所以反向过程也就是生成数据的过程。

为啥要加噪声,为啥一步一步加噪声?

1)直接移除像素会导致信息丧失,添加噪声可以让模型学习到图片特征;

2)随机噪声还可以增加模型生成时的多样性;

3)一步一步的来可以控制这一过程,同时提供了去噪过程中的稳定性

每一步要加多少噪声?

这个根据schedule来,一般先少后多比较好,图片特征损失的比较慢

Stable Diffusion 文生图技术原理,stable diffusion

去噪的过程,可以类比为雕刻,米开朗基罗说:塑像本来就在石头里,我只是把不需要的部分去掉。

如何训练?

直接把随机噪声分step的添加到图片,这个过程就叫diffusion process(也叫Forward process,扩散/加噪),每个step就有ground truth的图片,训练模型还原图片。

Stable Diffusion 文生图技术原理,stable diffusion

还原图片的过程:

Stable Diffusion 文生图技术原理,stable diffusion

1)输入原图(覆盖了step=50的noise)和step=50,用U-Net预测图片的noise,这里每个step都共用相同的U-Net

2)噪声很多时,U-Net无法预测精准的图片细节,只能预测很模型的图片大概轮廓

Stable Diffusion 文生图技术原理,stable diffusion

3)这样不断重复预测,直到得到原图

实际DDPM的加噪过程是不需要逐步处理,可以一次把指定step的高斯噪声加到位,然后逐步预测噪声。

论文:《Denoising Diffusion Probabilistic Models》

paper: https://arxiv.org/abs/2006.11239

Stable Diffusion 文生图技术原理,stable diffusion

论文:《Understanding Diffusion Models: A Unified Perspective》

paper:https://arxiv.org/abs/2208.11970

噪声采样方案

扩散模型很大的过程在于噪音的采样,模型采样需要从纯噪声图片出发,一步一步不断地去噪,最终得到清晰的图片。在这个过程中,模型必须串行地计算至少 50 到 100 步才可以获得较高质量的图片,这导致生成一张图片需要的时间是其它深度生成模型的 50 到 100 倍,极大地限制了模型的部署和落地。

这些采样过程,映射到Stable Diffusion里主要就是一个个 Scheduler,在 Stable Diffusion 中 Scheduler(调度)的主要作用是按照当前生成噪音是第几步(Step)然后输出生成图片噪声的系数,它简单计算公式是:( 图像噪声 = 随机生成噪声 * scheduler输出的系数 )。

在采样频次和速度的驱动要求下,扩散模型很重要的是加噪和去噪的采样方案,包括 DDPM、DDIM、PLMS 、DPM-Solver 等等。

DDPM(Denoising Diffusion Probabilistic Model)默认采用的是线性的加噪采样方案 (linear schedule)。

DDIM(Denoising Diffusion Implicit Models,去噪扩散隐式模型),DDIM和DDPM有相同的训练目标,但是它不再限制扩散过程必须是一个马尔卡夫链,这使得DDIM可以采用更小的采样步数来加速生成过程,DDIM的另外是一个特点是从一个随机噪音生成样本的过程是一个确定的过程。

DPM-Solver(Diffusion Process Model Solver,扩散处理模型求解器)是清华大学朱军教授带领的TSAIL团队所提出的,一种针对于扩散模型特殊设计的高效求解器:该算法无需任何额外训练,同时适用于离散时间与连续时间的扩散模型,可以在 20 到 25 步内收敛,并且只用 10 到 15 步也能获得非常高质量的采样。在 Stable Diffusion 上,采样速度翻倍。

图片生成过程加入Text embedding

Stable Diffusion 文生图技术原理,stable diffusion

1)U-Net为了融入文本特征,网络结构里面补充了attention机制(QKV)

Stable Diffusion 文生图技术原理,stable diffusion

2)为了强化文本引导作用,这里用到了classifier free guidance的方法,这里的7.5参数就是guidance scale

不同guidance scale的图片效果:

Stable Diffusion 文生图技术原理,stable diffusion

扩散模型的核心就在于训练噪音预测模型,由于噪音和原始数据是同维度的,所以我们可以选择采用AutoEncoder架构来作为噪音预测模型。DDPM所采用的模型是一个基于residual block和attention block的U-Net模型。

Unet是2015年《U-Net: Convolutional Networks for Biomedical Image Segmentation》提出的模型。

UNet就是一个语义分割模型,其执行过程:

首先利用卷积进行下采样,然后提取出一层又一层的特征,利用这一层又一层的特征,其再进行上采样,最后得出一个每个像素点对应其种类的图像。

U-Net网络结构:

Stable Diffusion 文生图技术原理,stable diffusion

Unet的优势:

1. 网络层越深得到的特征图,有着更大的视野域;

2. 浅层卷积关注纹理特征,深层网络关注本质特征,所以深层浅层特征都有意义;

3. 通过反卷积得到的更大的尺寸的特征图的边缘,是缺少信息的,毕竟每一次下采样提炼特征的同时,也必然会损失一些边缘特征,而失去的特征并不能从上采样中找回,因此通过特征拼接,来实现边缘特征找回;

4. Unet简单、高效、易懂、容易构建,可以从小数据集构建,在diffusion model中简单好用。

VAE

VAE的作用:性能友好,可以在潜在空间插值和操作,控制图像生成

Stable Diffusion 文生图技术原理,stable diffusion

这里的编码器encoder和解码器decoder不是把图像缩小、放大,而是把图像做了编码,举个例子,音乐编码为乐谱,再通过乐谱演奏出乐曲,这里可以类比把声音编码为乐谱了。

VAE的结构

Stable Diffusion 文生图技术原理,stable diffusion

在编码器的训练过程中,VAE通过最小化重构误差来学习如何将输入数据映射到潜在空间中的概率分布。

在解码器的训练过程中,VAE通过最小化KL散度来学习如何从潜在空间中的随机向量生成原始数据。

VAE vs Diffusion Model:

Stable Diffusion 文生图技术原理,stable diffusion

VAE 的encoder是学习一个概率分布,所以VAE也可以随机采样生成图片,但VAE图片还原效果很弱,生成的图像模糊,效果不如diffusion model

VAE的好处:减少训练和推理时间,降低GPU硬件要求

原图512x512x3->压缩到64x64x4,Stable Diffusion用的是KL-f8的VAE,下采样系数为8,缩小了48倍

Stable Diffusion 文生图技术原理,stable diffusion

VAE的坏处:是压缩后再还原,图片细节会损失掉

Stable Diffusion的结构

Stable Diffusion 文生图技术原理,stable diffusion

 Latent diffusion的论文:《High-Resolution Image Synthesis with Latent Diffusion Models》

paper:https://arxiv.org/abs/2112.10752

Stable Diffusion 文生图技术原理,stable diffusion

拆分解释:

Stable Diffusion 文生图技术原理,stable diffusion

 

Latent Diffusion Models整体框架如图,首先需要训练好一个自编码模型(AutoEncoder,包括一个编码器 E 和一个解码器 D )。这样一来,我们就可以利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,最后我们再用解码器恢复到原始像素空间即可,论文将这个方法称之为感知压缩(Perceptual Compression)。

Stable Diffusion的Control方法

Textual Inversion

Stable Diffusion 文生图技术原理,stable diffusion

调整CLIP让它输出符合新图片的文本特征,如双耳铃铛闹钟,迪迦奥特曼,只需要保存学习到的特征。

ControlNet

Stable Diffusion 文生图技术原理,stable diffusion

训练一个新的网络去调整U-Net的resnet block,这个新网络可以输入那些用来作为控制条件的图像,如canny线稿、骨骼图等。Stable Diffusion 文生图技术原理,stable diffusion

 

结论

Diffusion Model 与常规过去的GAN、VAE、Flow 等常见的生成模型的机制不同,它是采用从高斯噪音中逐步依照一定条件 “采样” 特殊的分布,随着“采样”轮次的增加最终得到生成图片。 换句话说,Diffusion Model 的合成过程是通过一次次迭代在噪声中提取出所需要的图像,随着迭代步数的增加,合成质量也在越来越好 。

这种机制的好处是显而易见的,合成质量和合成速度之间变得可控了。当时间宽裕时可以通过高轮次的迭代获得高质量的合成样本,同时较低轮次的快速合成也可以得到没有明显瑕疵的合成样本。而高低轮次迭代之间完全不需要重新训练模型,只用手动调整一些轮次相关的参数。

这听起来有点匪夷所思,但其背后有着极强的数学逻辑支撑。这些数学主要就是马尔科夫链和朗之万公式。

参考文献

英文

Latent Diffusion论文:https://arxiv.org/pdf/2112.10752.pdf

Diffusion Models详细公式:What are Diffusion Models? | Lil'Log

各种微调模型方法对比:https://www.youtube.com/watch?v=dVjMiJsuR5o

Scheduler对比图来自论文: https://arxiv.org/pdf/2102.09672.pdf

VAE结构图出处:https://towardsdatascience.com/vae-variational-autoencoders-how-to-employ-neural-networks-to-generate-new-images-bdeb216ed2c0

柯基图来自DALLE2论文:https://cdn.openai.com/papers/dall-e-2.pdf

CLIP模型的介绍:https://github.com/openai/CLIP

OpenCLIP:https://github.com/mlfoundations/open_clip

Textual Inversion: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

LoRA论文:https://arxiv.org/pdf/2106.09685.pdf

Dreambooth 论文:https://arxiv.org/pdf/2208.12242.pdf

ControlNet 论文:https://arxiv.org/pdf/2302.05543.pdf

简单易懂的 Diffusion Model 解释:https://www.youtube.com/watch?v=1CIpzeNxIhU

很棒的Stable Diffusion解释:The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

同样很棒的SD解释:https://medium.com/@steinsfu/stable-diffusion-clearly-explained-ed008044e07e

GLIDE论文:https://arxiv.org/abs/2112.10741

CLASSIFIER-FREE DIFFUSION GUIDANCE论文:https://arxiv.org/pdf/2207.12598.pdf

中文

Stable Diffusion UNET 结构:Stable Diffusion UNET 结构 - 知乎

LoRA应用心得:你真的会用LORA吗?超详细讲解LORA分层控制 - 知乎

很棒的Stable Diffusion解释:扩散模型[译]_于建民的博客-CSDN博客

Stable Diffusion非常详细的介绍:【原创】万字长文讲解Stable Diffusion的AI绘画基本技术原理 - 知乎

扩散模型相关的解释:https://www.youtube.com/watch?v=hO57mntSMl0文章来源地址https://www.toymoban.com/news/detail-678596.html

到了这里,关于Stable Diffusion 文生图技术原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Stable Diffusion教程(5) - 文生图教程

    配套视频教程: https://v.douyin.com/UyHNfYG/  文生图界面标注如下 提示词内输入的东西就是你想要画的东西,反向提示词内输入的就是你不想要画的东西 提示框内只能输入英文,所有符号都要使用英文半角,词语之间使用半角逗号隔开 1.1 一般原则 一般来说越靠前的词汇权重就

    2024年02月08日
    浏览(42)
  • Stable diffusion UI 介绍-文生图

    1.提示词: 你希望图中有什么东西 2.负面提示词:你不希望图中有什么东西 选用了什么模型 使用参数 1.采样器 sampling method 使用什么算法进行采样 2.采样迭代步数 sampling steps 生成图像迭代的步数,越多越好,但是生成速度越大越慢 3. 宽度和长度 生成图片的大小 按照模型的

    2024年02月22日
    浏览(49)
  • 【stable diffusion】保姆级入门课程01-Stable diffusion(SD)文生图究竟是怎么一回事

    目录 学前视频 0.本章素材 1.什么是文生图 2.界面介绍 2.1切换模型的地方 2.2切换VAE 2.3功能栏 2.4提示词 1.提示词的词性 2.提示词的语法 3.提示词的组成 4.提示词的权重调整 2.5参数调整栏 1.采样方法 2.采样迭代步数 3.面部修复 4.平铺图 5.高清修复 6.宽度和高度 7.生成批次和每批

    2024年02月14日
    浏览(39)
  • Stable Diffusion 系列教程 | 文生图 - 提示词

    目录 1.提示词 基本的规则 2.提示词分类 2.1内容性提示词 2.2 画风艺术派提示词 2.3 画幅视角 2.4画质提示词 3 反向提示词 3.1 内容性反向提示词 3.2 画质性反向提示词 4 实例分析 5 权重 5.1 方法一 5.2 方法二 6.参数 7. 学习and 技巧 7.1 辅助写提示词的网站 7.2 学习他人优秀作品 Pr

    2024年01月23日
    浏览(48)
  • 【文生图系列】 Stable Diffusion v2复现教程

    基础环境承接Stable Diffusion v1, 详情请见我的博文【文生图系列】 Stable Diffusion v1复现教程。然后更新pytorch和torchvision的版本,因为要使用GPU和xformers,需要下载gpu版本的pytorch。再下载open-clip-torch库文件,安装命令如下所示: conda install pytorch == 1.12.1 torchvision == 0.13.1 torchaudio 0

    2024年02月11日
    浏览(40)
  • 【文生图系列】 Stable Diffusion v1复现教程

    stable diffusion是一个潜在的文本到图像的扩散模型,能够在给定任何文本输入的情况下生成照片逼真的图像。 环境配置 https://github.com/CompVis/stable-diffusion.git ( Stable Diffusion v1) conda env create -f environment.yaml 使用conda创建一个名字为ldm的虚拟环境 conda activate ldm 权重下载 在README.md中

    2024年02月09日
    浏览(47)
  • 文生图——stable diffusion生成有趣的动漫图像

    Stable Diffusion是一个文本转图像的模型,由CompVis、Stability AI和LAION共同开发。它能够从一段简单的文本输入中快速生成相应的图像。此外,它还可以导入图像并配合文本对其进行处理。从技术角度来看,Stable Diffusion可以理解为从一张完全的高斯噪音图像开始,根据用户输入的

    2024年04月11日
    浏览(54)
  • AIGC文生图:使用ControlNet 控制 Stable Diffusion

    ControlNet是斯坦福大学研究人员开发的Stable Diffusion的扩展,使创作者能够轻松地控制AI图像和视频中的对象。它将根据边缘检测、草图处理或人体姿势等各种条件来控制图像生成。 论坛地址:Adding Conditional Control to Text-to-Image Diffusion Models ControlNet是一种通过添加额外条件来控制

    2024年02月16日
    浏览(50)
  • 【学习笔记】文生图模型——Stable diffusion3.0

    2.0原理才看到VAE,sd3.0就发布了,虽然还没看到源码和详解,但原来的那个小方向估计得弃。人已经麻了。 1.LDMs模型(stable diffusion≈LDMs+CLIP)   2.stable diffusion3.0模型架构图 3.主要改进地方 ①前向加噪过程:引入了新的噪声采样器用于改善Rectified Flow训练,该方法优化了噪声

    2024年04月11日
    浏览(42)
  • 最强文生图跨模态大模型:Stable Diffusion

    Stable diffusion是一种潜在的文本到图像的扩散模型。基于之前的大量工作(如DDPM、LDM的提出),并且在Stability AI的算力支持和LAION的海量数据支持下,Stable diffusion才得以成功。 Stable diffusion能够在来自 LAION- 5B 数据库子集的512x512图像上训练潜在扩散模型。与谷歌的Imagen类似,这

    2024年02月03日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包