Diffusion Model原理详解

这篇具有很好参考价值的文章主要介绍了Diffusion Model原理详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Diffusion Model(扩散模型 )对标的是生成对抗网络(GAN),只要GAN能干的事它基本都能干。之前用GAN网络来实现一些图片生成任务其实效果并不是很理想,而且往往训练很不稳定。但是换成Diffusion Model后生成的图片则非常逼真,也明显感觉到每一轮训练的结果相比之前都更加优异,也即训练更加稳定。

本文将用通俗的语言和公式为大家介绍Diffusion Model,并且结合公式为大家梳理Diffusion Model的代码,探究其是如何通过代码实现的。

整体思路

Diffusion Model的整体思路如下图所示:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

其主要分为正向过程和逆向过程,正向过程类似于编码,逆向过程类似于解码。

  • 正向过程
    首先,对于一张原始图片,我们给加一个高斯噪声,图片由变成。【注意:这里必须要加高斯噪声喔,因为高斯噪声服从高斯分布,后面的一些运算需要用到高斯分布的一些特性】」接着我们会在的基础上再添加高斯噪声得到。重复上述添加高斯噪声步骤,直到图片变成,由于添加了足够多的高斯噪声,现在的近似服从高斯分布(又称正态分布)。
    现在有一个问题需要大家思考一下,我们每一步添加高斯噪声的量一直是不变的吗? 滴,开始解答。答案是每步添加高斯噪声的量是变化的,且后一步比前一步添加的高斯噪声更多。我想这一点你通过上图也非常容易理解,一开始原图比较干净,我们添加少量高斯噪声就能对原图产生干扰;但越往后高斯噪声量越多,如果还添加一开始少量的高斯噪声,那么这时对上一步结果基本不会产生任何影响。【注:后文所述的每个时刻图像和这里的每一步图像都是一个意思,如时刻图像表示的就是这个图像】
  • 逆向过程
    首先,我们会随机生成一个服从高斯分布的噪声图片,然后一步一步的减少噪声直到生成预期图片。逆向过程大家先有这样的一个认识就好,具体细节稍后介绍。

实施细节

这一部分为大家介绍一下Diffusion Model正向过程和逆向过程的细节,主要通过推导一些公式来表示加噪前后图像间的关系。

正向过程

在整体思路部分我们已经知道了正向过程其实就是一个不断加噪的过程,于是我们考虑能不能用一些公式表示出加噪前后图像的关系呢。我想让大家先思考一下后一时刻的图像受哪些因素影响呢,更具体的说,比如由哪些量所决定呢?我想这个问题很简单,即是由和所加的噪声共同决定的,也就是说后一时刻的图像主要由两个量决定,其一是上一时刻图像,其二是所加噪声量。明白了这点,我们就可以用一个公式来表示时刻和时刻两个图像的关系,如下:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习 ——公式1

其中,表示时刻的图像,表示时刻图像,表示添加的高斯噪声,其服从N(0,1)分布。【注:N(0,1)表示标准高斯分布,其方差为1,均值为0】目前你可以看出和、都有关系,这和我们前文所述后一时刻的图像由前一时刻图像和噪声决定相符合。这个公式前面的和表示这两个量的权重大小,它们的平方和为1。

 我想你已经明白了公式1,但是你可能对和的理解还存在一些疑惑,如为什么要设置这样的权重?这个权重的设置是我们预先设定的吗? 其实,还和另外一个量有关,关系式如下:

​ ——公式2

其中,是预先给定的值,它是一个随时刻不断增大的值,论文中它的范围为[0.0001,0.02]。既然越来越大,则越来越小,越来越小,1−越来越大。现在我们在来考虑公式1,的权重 随着时刻增加越来越大,表明我们所加的高斯噪声越来越多,这和我们整体思路部分所述是一致的,即越往后所加的噪声越多。

现在,我们已经得到了时刻和时刻两个图像的关系,但是时刻的图像是未知的。【注:只有阶段图像是已知的,即原图】我们需要再由时刻推导出时刻图像,然后再由时刻推导出时刻图像,依此类推,直到由时刻推导出时刻图像即可。既然这样我们不妨先试试时刻图像和时刻图像的关系,如下:

 Diffusion Model原理详解,人工智能,计算机视觉,深度学习   ——公式3

这个公式就是公式1的一个类推公式,此时我们将公式3代入公式1中得:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习 ——公式4

这个公式4大家能理解吗? 我觉得大家应该对最后一个等式存在疑惑,也即Diffusion Model原理详解,人工智能,计算机视觉,深度学习怎么等于?其实这个用到了高斯分布的一些知识,这部分见附录部分。看了附录中高斯分布的相关性质,我想这里你应该能够理解了,我在帮大家整理一下,如下图所示:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

这下对于公式4的内容都明白了叭。注意这里的也是服从(0,1)高斯分布的,Diffusion Model原理详解,人工智能,计算机视觉,深度学习服从。我们来看看公式4得到了什么——其得到了时刻图像和时刻图像的关系。按照我们先前的理解,我们再列出时刻图像和时刻图像的关系,如下:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习 ——公式5

同理,我们将公式5代入到公式4中,得到时刻图像和时刻图像的关系,公式如下: 

Diffusion Model原理详解,人工智能,计算机视觉,深度学习——公式6

公式5我没有带大家一步步的计算了,只写出了最终结果,大家可以自己算一算,非常简单,也只用到了高斯分布的相关性质。注意上述的同样服从(0,1)的高斯分布。那么公式6就得到了时刻图像和时刻图像的关系,我们如果这么一直计算下去,就会得到  时刻图像和时刻图像的关系。但是这样的推导貌似很漫长,随着向后推导你会发现这种推导是有规律的。我们可以来比较一下公式4和公式6的结果,你会发现很明显的规律,这里我就根据这个规律直接写出 时刻图像和时刻图像的关系,公式如下:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习 ——公式7

其中表示累乘操作,即 ,样服从(0,1)的高斯分布。【这里\hat{Z}_t只是一个表示,只要服从标准高斯分布即可,用什么表示都行】这个公式7就是整个正向过程的核心公式,「其表示时刻的图像可以由时刻的图像和一个标准高斯噪声表示」,大家需要牢记这个公式,在后文以及代码中会用到。


逆向过程

逆向过程是将高斯噪声还原为预期图片的过程。先来看看我们已知条件有什么,其实就一个时刻的高斯噪声。我们希望将时刻的高斯噪声变成时刻的图像,是很难一步到位的,因此我们思考能不能和正向过程一样,先考虑时刻图像和时刻的关系,然后一步步向前推导得出结论呢。好的,思路有了,那就先来想想如何由已知的时刻图像得到时刻图像。

这里我们需要利用正向过程中的结论,我们在正向过程中可以由时刻图像得到 时刻图像,然后利用贝叶斯公式即可求解。贝叶斯公式的表达式如下:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

那么我们将利用贝叶斯公式来求时刻图像,公式如下:

——公式8

公式8中我们可以求得,就是刚刚正向过程求的嘛。 但和是未知的。又由公式7可知,可由得到每一时刻的图像,那当然可以得到和时刻的图像,故将公式8加一个作为已知条件,将公式8变成公式9,如下:

——公式9

现在可以发现公式9右边3项都是可以算的,我们列出它们的公式和对应的分布,如下图所示:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

知道了公式9等式右边3项服从的分布,我们就可以计算出等式左边的。这个计算很简单,没有什么技巧,就是纯算。在附录->高斯分布性质部分我们知道了高斯分布的表达式为:。那么我们只需要求出公式9等式右边3个高斯分布表达式,然后进行乘除运算即可求得。 

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

上图为等式右边三个高斯分布表达式,这个结果怎么得的大家应该都知道,就是把各自的均值和方差代入高斯分布表达式即可。现我们只需对上述三个式子进行对应乘除运算即可,如下图所示:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

好了,我们上图中得到了式子Diffusion Model原理详解,人工智能,计算机视觉,深度学习其实就是的表达式了。知道了这个表达式有什么用呢,主要是求出均值和方差。首先我们应该知道对高斯分布进行乘除运算的结果仍然是高斯分布,也就是说服从高斯分布,那么他的表达式就为 Diffusion Model原理详解,人工智能,计算机视觉,深度学习,我们对比两个表达式,就可以计算出和,如下图所示:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

现在我们有了均值和方差 就可以求出了,也就是求得了时刻的图像。推导到这里不知道大家听懂了多少呢?其实你动动小手来算一算你会发现它还是很简单的。但是不知道大家有没有发现一个问题,我们刚刚求得的最终结果和中含义一个,这个是什么啊,他是我们最后想要的结果,现在怎么当成已知量了呢?这一块确实有点奇怪,我们先来看看我们从哪里引入了。往上翻翻你会发现使用贝叶斯公式时我们利用了正向过程中推导的公式7来表示和,但是现在看来那个地方会引入一个新的未知量,该怎么办呢?这时我们考虑用公式7来反向估计,即反解公式7得出的表达式,如下: 

——公式10

得到的估计值,此时将公式10代入到上图的中,计算后得到最后估计的 ,表达式如下:

​ ——公式11

好了,现在在整理一下−1时刻图像的 均值和方差 ,如下图所示:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

有了公式12我们就可以估计出时刻的图像了,接着就可以一步步求出、、、的图像啦。


原理小结

这一小节原理详解部分就为大家介绍到这里了,大家听懂了多少呢。相信你阅读了此部分后,对Diffusion Model的原理其实已经有了哥大概的解了,但是肯定还有一些疑惑的地方,不用担心,代码部分会进一步帮助大家。

Diffusion Model源码解析

代码下载及使用

本次代码下载地址:Diffusion Model代码

先来说说代码的使用,代码包含两个项目,一个的ddpm.py,另一个是ddpm_condition.py。大家可以理解为ddpm.py是最简单的扩散模型,ddpm_condition.pyddpm.py的优化。本节会以ddpm.py为大家讲解。代码使用起来非常简单,首先在ddpm.py文件中指定数据集路径,即设置dataset_path的值,然后我们就可以运行代码了。需要注意的是,如果你使用的是CPU的话,那么你可能还需要修改一下代码中的device参数。


这里来简单说说ddpm的意思,英文全称为Denoising Diffusion Probabilistic Model,中文译为去噪扩散概率模型


代码流程图

这里我们直接来看论文中给的流程图好了,如下:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

这个图表示整个算法的流程分为了训练阶段(Training)和采样阶段(Sampling)。

  • Training
    众所周知,训练我们需要有真实值和预测值,那么对于本例的真实值和预测值是什么呢?真实值是我们输入的图片,预测值是我们输出的图片吗?其实不是,对于本例来说,真实值和预测值都是噪声,同样拿下图为大家做个示范。

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

我们在正向过程中加入的噪声其实都是已知的,是可以作为真实值的。而逆向过程相当于一个去噪过程,我们用一个模型来预测噪声,让正向过程每一步加入的噪声和逆向过程对应步骤预测的噪声尽可能一致,而逆向过程预测噪声的方式就是丢入模型训练,其实就是Training中的第五步。

  • Sampling
    知道了训练过程,采样过程就很简单了,其实采样过程就对应我们理论部分介绍的逆向过程,由一个高斯噪声一步步向前迭代,最终得到时刻图像。

代码解析

首先,按照我们理论部分应该有一个正向过程,其最重要的就是最后得出的公式7,如下:

Diffusion Model原理详解,人工智能,计算机视觉,深度学习

那么我们在代码中看一看是如何利用这个公式7的,代码如下:

def noise_images(self, x, t):
    sqrt_alpha_hat = torch.sqrt(self.alpha_hat[t])[:, None, None, None]
    sqrt_one_minus_alpha_hat = torch.sqrt(1 - self.alpha_hat[t])[:, None, None, None]
    Ɛ = torch.randn_like(x)
    return sqrt_alpha_hat * x + sqrt_one_minus_alpha_hat * Ɛ, Ɛ

Ɛ为随机的标准高斯分布,其实也就是真实值。大家可以看出,上式的返回值sqrt_alpha_hat * x + sqrt_one_minus_alpha_hat其实就表示公式7。【注:这个代码我省略了很多细节,我只把关键的代码展示给大家看,要想完全明白,还需要大家记住调试调试了】

接着我们就通过一个模型预测噪声,如下:

predicted_noise = model(x_t, t)

model的结构很简单,就是一个Unet结构,然后里面嵌套了几个Transformer机制,我就不带大家跳进去慢慢看了。现在有了预测值,也有了真实值Ɛ【返回后Ɛ用noise表示】,就可以计算他们的损失并不断迭代了。

loss = mse(noise, predicted_noise)
optimizer.zero_grad()
loss.backward()
optimizer.step()

上述其实就是训练过程的大体结构,我省略了很多,现在来看看采样过程的代码。

def sample(self, model, n):
    logging.info(f"Sampling {n} new images....")
    model.eval()
    with torch.no_grad():
        x = torch.randn((n, 3, self.img_size, self.img_size)).to(self.device)
# for i in tqdm(reversed(range(1, self.noise_steps)), position=0):
        for i in tqdm(reversed(range(1, 5)), position=0):
            t = (torch.ones(n) * i).long().to(self.device)
            predicted_noise = model(x, t)
            alpha = self.alpha[t][:, None, None, None]
            alpha_hat = self.alpha_hat[t][:, None, None, None]
            beta = self.beta[t][:, None, None, None]
            if i > 1:
                noise = torch.randn_like(x)
            else:
                noise = torch.zeros_like(x)
            x = 1 / torch.sqrt(alpha) * (x - ((1 - alpha) / (torch.sqrt(1 - alpha_hat))) * predicted_noise) + torch.sqrt(beta) * noise   
    model.train()
    x = (x.clamp(-1, 1) + 1) / 2
    x = (x * 255).type(torch.uint8)
    return x

上述代码关键的就是 x = 1 / torch.sqrt(alpha) * (x - ((1 - alpha) / (torch.sqrt(1 - alpha_hat))) * predicted_noise) + torch.sqrt(beta) * noise这个公式,其对应着代码流程图中Sampling阶段中的第4步。需要注意一下这里的跟方差这个公式给的是,但其实在我们理论计算时为,这里做了近似处理计算,即和都是非常小且近似0的数,故把当成1计算,这里注意一下就好。

代码小结

可以看出,这一部分所用的篇幅很少,只列出了关键的部分,很多细节需要大家自己感悟。比如代码中时刻T的用法,其实是较难理解的,代码中将其作为正余弦位置编码处理。如果你对位置编码不熟悉,可以看一下这篇文章,有详细的介绍位置编码。

附录

高斯分布性质

高斯分布又称正态分布,其表达式为:

其中为均值,为方差。若随机变量服从正态均值为,方差为的高斯分布,一般记为。此外,有一点大家需要知道,如果我们知道一个随机变量服从高斯分布,且知道他们的均值和方差,那么我们就能写出该随机变量的表达式。

高斯分布还有一些非常好的性质,现举一些例子帮助大家理解。

  • 若,则。
  • 若,则Diffusion Model原理详解,人工智能,计算机视觉,深度学习

 

参考内容:Diffusion Model原理详解及源码解析 - 知乎 (zhihu.com)文章来源地址https://www.toymoban.com/news/detail-595367.html

到了这里,关于Diffusion Model原理详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【人工智能课程】计算机科学博士作业三

    来源:李宏毅2022课程第10课的作业 图片攻击是指故意对数字图像进行修改,以使机器学习模型产生错误的输出或者产生预期之外的结果。这种攻击是通过将微小的、通常对人类难以察觉的扰动应用于输入图像来实现的。图片攻击是对深度学习系统中的鲁棒性和安全性的一种测

    2024年03月16日
    浏览(72)
  • 【人工智能课程】计算机科学博士作业一

    模型拟合:用深度神经网络拟合一个回归模型。从各种角度对其改进,评价指标为MSE。 掌握技巧: 熟悉并掌握深度学习模型训练的基本技巧。 提高PyTorch的使用熟练度。 掌握改进深度学习的方法。 数据集下载: Kaggle下载数据: https://www.kaggle.com/competitions/ml2022spring-hw1 百度云

    2024年01月23日
    浏览(58)
  • hnu计算机与人工智能概论5.6

    最近有点忙,好久没更新了,大家见谅!最后一关howell也做不出来  第1关:数据分析基础 1.将scores.xls文件读到名为df的dataframe中 2.添加平均分列:考勤、实验操作、实验报告的平均 3.输出前3行学生的平均分列表,控制小数点后两位 4.输出学生人数和班级数 5.分别输出实验报

    2024年02月04日
    浏览(52)
  • 人工智能与计算机辅助决策的技术融合

    人工智能(Artificial Intelligence, AI)和计算机辅助决策(Computer-Aided Decision, CAD)是两个不同的领域,但它们之间存在密切的联系和相互作用。人工智能主要关注于模拟和创造人类智能的机器,包括学习、理解自然语言、视觉识别、推理和决策等方面。而计算机辅助决策则关注于利用

    2024年02月22日
    浏览(58)
  • Stable Diffusion人工智能图像合成

    AI 图像生成大有来头。新发布的开源图像合成模型称为Stable Diffusion,它允许任何拥有 PC 和像样的 GPU 的人想象出他们能想象到的几乎任何视觉现实。它几乎可以模仿任何视觉风格,如果你给它输入一个描述性的短语,结果就会像魔术一样出现在你的屏幕上。 一些艺术家 对这

    2024年02月09日
    浏览(45)
  • hnu计算机与人工智能概论答案3.8

    连夜更新,求求关注!! 写在前面:这一课难度较低,报错时多看看冒号和缩进有无错误,祝大家做题顺利!!! 第1关:python分支入门基础 根据提示,在右侧编辑器补充代码,完成分支程序设计(用函数调用的方式来实现)。 第1题: 闰年的判断:判断某一年是否是闰年,

    2024年02月08日
    浏览(44)
  • Diffusion Model原理详解

    Diffusion Model(扩散模型 )对标的是生成对抗网络(GAN),只要GAN能干的事它基本都能干。之前用GAN网络来实现一些图片生成任务其实效果并不是很理想,而且往往训练很不稳定。但是换成Diffusion Model后生成的图片则非常逼真,也明显感觉到每一轮训练的结果相比之前都更加优

    2024年02月16日
    浏览(28)
  • 人工智能实战:Stable Diffusion技术分享

    背景 Stable Diffusion是计算机图形学和可视化领域中的一项重要技术。在这篇分 享中 ,我们将深入探讨稳定扩散的原理、关键要素和实施步骤 ,通过了解Stable Diffusion的流程化 ,我们可以提升自身的设计能力和创造力 ,为公司 和个人注入更多的价值和创意。 美术制定 美术风

    2024年01月19日
    浏览(47)
  • 人工智能在计算机视觉中的应用与挑战

    引言 计算机视觉是人工智能领域的一个重要分支,旨在让计算机能够像人一样理解和解释视觉信息,实现图像和视频的自动识别、理解和分析。计算机视觉技术已经在许多领域产生了深远的影响,如人脸识别、自动驾驶、医学影像分析等。本篇博客将深入探讨人工智能在计算

    2024年02月14日
    浏览(55)
  • hnu计算机与人工智能概论答案2.20

    补一下第一次作业 第1关:数据输入与输出 第一题 在屏幕上输出字符串:hi, \\\"how are you\\\" ,I\\\'m fine and you 第二题 从键盘输入两个整数,计算两个数相除的商与余数 假设输入12,5 输出为 2 2 第三题 在屏幕上 输入一个三位数输出该数的个位、十位和百位数字 假设输入125 输出为 5 2

    2024年02月08日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包