AIGC入门系列1:感性的认识扩散模型

这篇具有很好参考价值的文章主要介绍了AIGC入门系列1:感性的认识扩散模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、序言

大家好,欢迎来到AI手工星的频道,我是专注AI领域的手工星。AIGC已经成为AI又一个非常爆火的领域,并且与之前的AI模型不同,AIGC更适合普通人使用,我们不仅可以与chatgpt对话,也能通过绘画模型生成想要的图片。很多朋友都想去深入的了解和掌握AIGC的原理,但是AIGC需要一定的学习成本,其入门门槛较高。因此手工星制作了这一系列的入门教程,希望能够帮助到有需要的朋友。大家注意哦,由于AIGC的范围较广,而手工星的能力有限,因此这一系列的入门教程将限定在适用于图像、视频生成的扩散模型领域,手工星将围绕扩散模型的原理,环境搭建、使用、改进、数学推导等多个方面来帮助大家入门。注意到这里手工星将数学推导放在了最后,那是因为手工星觉得对于扩散模型一开始就讲解数学推导,会令很多朋友索然无味,早早放弃。我们先通过感性的方式认识扩散模型,使用扩散模型,了解了一些基本概念,有了一定的实践基础之后,再去推导数学公式就水到渠成了。总之,这个系列的规划大致就是这样子的,可能的文章顺序大概是这样的(不排除编写过程中做调整):

  • AIGC入门系列1:感性的认识扩散模型
  • AIGC入门系列2:如何控制扩散模型生成我们想要的内容
  • AIGC入门系列3:什么是潜在扩散模型
  • AIGC入门系列4:扩散模型的应用(文生图、图生图以及图像编辑)
  • AIGC入门系列5:扩散模型环境搭建(diffusers)
  • AIGC入门系列6:在diffusers上尝试文生图、图生图以及图像编辑
  • AIGC入门系列7:DreamBooth
  • AIGC入门系列8:ControlNet
  • AIGC入门系列9:扩散模型的数学原理
  • AIGC入门系列10:扩散模型的改进
  • AIGC入门系列11:扩散模型的展望

由于手工星工作比较忙,出教程的速度可能无法保证,还请大家多多见谅。如果你喜欢手工星的频道的话,记得点赞收藏哦。

2、什么是扩散模型?

2.1、污水的扩散

本期教程作为AIGC入门系列的第一篇,我们来聊聊什么是扩散模型。当然,我们限定在感性认知的前提下。首先想到扩散,我们很容易想到这是一个由小到大,或者由浅入深的过程。例如,工厂偷偷向湖泊里面排放污水,污水会逐渐扩散,最后将整个湖泊都污染了,使得我们原来干净透彻的湖水变得面目全非。

那么如果我们要治理污水,恢复湖泊本来的面目。我们可以怎么做呢?第一步,我们可以先用化学试剂与污染物起反应,消除掉一部分污染物,此时河面会稍微清澈一些。然后我们可以往河水里加入絮凝剂,又可以沉淀掉一些污染物,河水也更干净了一些。最后我们可以种植一些能够吸收污染物的绿色植物,将湖泊里的污染物彻底清理干净。自此,前面扩散的污染就被全部清理干净,湖泊恢复了本来的面貌。(注意哦,手工星完全不懂治污流程,上面的过程纯粹是瞎编的!)

通过上面的流程,我们其实就已经经历了扩散与逆扩散的过程。工厂偷偷排污,以致于污染了整个湖泊,这就是一个污染物扩散的过程;而治理污水就是一个逆扩散的过程,将扩散出来的污染物一点点的清除掉。有了这个感性的认识,我们再来看看AIGC当中大名鼎鼎的扩散模型。

2.2、扩散模型的概念

如果我们对一张干净的图片进行“排污",这里我们用高斯噪声作为污染物,所以"排污"就是对图片加噪的过程。那么随着持续的加噪,噪声扩散的强度越来越大,使得我们原来干净的图片变得逐渐模糊,以至于最后面目全非,完全分辨不出是一个骑行的小姐姐了,如下图所示。

AIGC入门系列1:感性的认识扩散模型,人工智能,AIGC,stable-diffusion,stable diffusion,DDPM,扩散模型

如果此时我们训练一个“治污模型”,它能够将图片恢复,就像上面的湖泊“治污”流程那样,一步一步的治理污染,去除噪声,慢慢的将面目全非的图片恢复到干净的原始图片,如下图所示。

AIGC入门系列1:感性的认识扩散模型,人工智能,AIGC,stable-diffusion,stable diffusion,DDPM,扩散模型

那么这个“治污模型”就是一个非常好用的生成模型了。为什么这么说呢?这个“治污模型”不只是把一张被污染的很严重的图片给恢复了而已吗?它并没有生成新的图片啊?这个思考非常棒,也很有代表性。那么既然它没法生成新的图片,为什么手工星称它已经是一个非常好用的生成模型呢?其实它确实具备了生成图片的能力。因为当你把一张图片持续加噪,得到一张面目全非的图片,那么这张面目全非的图片,实际上跟我们直接从高斯分布随机取一张噪声图,是等价的。也就是说,当有了一个“治污”模型之后,我们直接送给他一张随机生成的噪声图,它也能通过一步一步的去噪流程,生成一张符合我们审美的图片了。amazing!是不是很神奇,这样的话,我们是不是确实可以称它为“生成模型了”。

AIGC入门系列1:感性的认识扩散模型,人工智能,AIGC,stable-diffusion,stable diffusion,DDPM,扩散模型

2.3、时间步的概念(time-step)

前面的流程我们一直在强调一步一步的加噪或者一步一步的降噪。为什么没法一步到位,直接进行一步加噪和一步降噪呢?想象一下我们湖泊污染过程,污水是慢慢扩散到整个湖泊的,而不是瞬间就把整个湖泊给污染了。同样的,治污过程也不是一蹴而就的,没法直接快速的将所有污染治理干净,一般都是一步一步,一点一点的治理的。这在直觉上很好理解,一步一步的操作总要比一步到位简单很多,同样的在扩散模型中也是一步一步的降噪比一步到位的降噪更容易学习。因此也会有更好的效果。所以扩散模型中一般都有时间步的概念(time-step),就是事先定义好花多少步将一张图片完全加噪为面目全非的随机噪声,同样也对应着降噪过程花多少步慢慢的恢复到正常图片。当然,这里的时间步会存在一个矛盾,就像治理污水一样,步数太多,虽然每一步的效果比较容易保证,但是需要的步数太多,流程太慢。而步数如果定义的太少,那么虽然效率提升了,但是并不容易得到好的恢复效果。不过最后,手工星还是要友情提醒一下,这里是我们感性认识扩散模型的部分,实际上的加噪过程是可以通过数学公式简化,实现一步到位的。但是对于目前我们入门来说,可以暂时先不考虑优化。另外这个时间步通常是很大的,例如可以是1000步,所以当前阶段,大家只要要时间步的概念,并且知道它通常是比较大的就行了。

AIGC入门系列1:感性的认识扩散模型,人工智能,AIGC,stable-diffusion,stable diffusion,DDPM,扩散模型

3、扩散模型的训练

我们都知道,AI是基于学习的方法。AIGC也不例外,扩散模型也不例外。学习就意味着需要提供很多数据。那么我们需要如何准备数据才能训练出一个治污高手模型(去噪模型)呢?这里我们使用一个例子来说明。手工星非常喜欢宠物狗,手机壁纸都是狗子的图片,每次锁屏都想看到不一样的狗子,奈何手机里面狗子的图片不多。因此想用扩散模型方法训练一个去噪模型,这样就能生成无穷无尽的狗子图片。

首先是搜集狗子的图片,并且越多越好,于是手工星从网络上爬取了大量的狗子图片,做成了一个狗子数据集。

AIGC入门系列1:感性的认识扩散模型,人工智能,AIGC,stable-diffusion,stable diffusion,DDPM,扩散模型

然后我们开发一个“排污”程序(加噪程序),它的作用就是按照前面介绍的加噪方法,给正常图片一步一步的加入噪声,直到图片面目全非。然后从加噪过程随机选择一些“时间步-噪声-加噪后图片”组成的训练三元组。

AIGC入门系列1:感性的认识扩散模型,人工智能,AIGC,stable-diffusion,stable diffusion,DDPM,扩散模型

有了这些训练三元组,我们就可以很方便的训练去噪模型了。对于去噪模型来说,输入就是加噪后的图片以及时间步,输出就是去噪模型预测的噪声。我们训练的目的就是让去噪模型在每一个时间步预测的噪声和真实噪声尽量接近。当经过几万、几十万次的训练后,我们的去噪模型预测的噪声已经和真实噪声非常接近了。

AIGC入门系列1:感性的认识扩散模型,人工智能,AIGC,stable-diffusion,stable diffusion,DDPM,扩散模型

4、扩散模型的推理

有了上面训练出来的狗子去噪模型,下面就是激动人心的时刻了,我们可以使用去噪模型生成狗子图片了。首先我们从高斯分布中随机采集一张高斯噪声图片,然后送入到去噪模型当中,假设我们的时间步设置的是1000,那么就将高斯噪声图片经过去噪模型的1000次降噪,最后就会得到一个狗子图片了。而且这个狗子图片和我们训练数据中的狗子图片不一样,完全是去噪模型生成出来的,就像是我们的大脑脑补出来的图片一样。并且当我们采集的高斯噪声不同,生成出来的狗子图片也完全不同,此时我们就已经实现了一个能够生成无穷无尽狗子图片的“生成模型”了!

AIGC入门系列1:感性的认识扩散模型,人工智能,AIGC,stable-diffusion,stable diffusion,DDPM,扩散模型

5、总结

这一期的感性认识扩散模型到这里就结束了,是不是并没有想象相中的那么难!我们从湖泊的污染和治理说起,引申到图片的加噪与去噪。最后介绍了如何用去噪模型生成图片。下一期我们将介绍扩散模型中的文本控制。大家有没有发现我们现在的生成模型缺少控制能力。例如上面介绍的狗子去噪模型,它训练完之后确实能生成狗子的图片,但是假如我想生成一张黄皮肤、大眼睛的狗子图片,我们的狗子去噪模型就无能为力了。因为它生成的图片具有一定的随机性,虽然是一只狗子,但是狗子的属性我们完全无法控制。而在很多生成领域,我们其实是希望能够具体控制模型生成的效果的。因此下一期将介绍如何通过文本描述来控制模型生成一张符合我们要求的图片,喜欢的朋友可以收藏手工星的频道“AI手工星”,我们下期见吧。文章来源地址https://www.toymoban.com/news/detail-776617.html

到了这里,关于AIGC入门系列1:感性的认识扩散模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【AIGC】2、扩散模型 | 到底什么是扩散模型?

    参考论文:A Survey on Generative Diffusion Model github:https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model 1.1 现有生成模型简介 已经有大量的方法证明深度生成模型能够模拟人类的想象思维,生成人类难以分辨真伪的内容,主要方法如下: 1、GAN:用神经网络训练生成器和判别器 G

    2024年02月10日
    浏览(104)
  • AIGC原理:扩散模型diffusion综述一:面向视觉计算的扩散模型研究进展

    论文地址:State of the Art on Diffusion Models for Visual Computing 👉 贴一幅SGM(Score-based Generative Model)的原因是宋飏博士将他2019年提出的SMLD模型和2020年Jonathan Ho提出的DDPM采用SDE进行一统这两大极为相似的生成式模型。殊途同归,基于概率的扩散模型DDPM和基于分数的扩散模型SMLD都是

    2024年02月05日
    浏览(50)
  • 【扩散模型】【AIGC】DDPM Note

    Abstract 我们使用扩散概率模型给出了高质量的图像合成结果,扩散概率模型是一类受非平衡热力学启发的潜变量模型。我们的最佳结果是根据扩散概率模型和去噪分数匹配与朗之万动力学之间的新联系而设计的加权变分界上的训练,并且我们的模型自然地允许渐进有损解压缩

    2024年02月10日
    浏览(40)
  • 【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)

    人工智能是一个庞大的研究领域。虽然我们已经在人工智能的理论研究和算法开发方面取得了一定的进展,但是我们目前掌握的能力仍然非常有限。机器学习是人工智能的一个重要领域,它研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,并通过重新组织

    2024年02月13日
    浏览(71)
  • 人工智能的优势:使用 GPT 和扩散模型生成图像

    推荐:使用 NSDT场景编辑器快速搭建3D应用场景 世界被人工智能 (AI) 所吸引,尤其是自然语言处理 (NLP) 和生成 AI 的最新进展,这是有充分理由的。这些突破性技术有可能提高各种任务的日常生产力。例如,GitHub Copilot帮助开发人员快速编写整个算法,OtterPilot自动生成高

    2024年02月09日
    浏览(57)
  • 【AIGC】手把手使用扩散模型从文本生成图像

    在这篇文章中,我们将手把手展示如何使用Hugging Face的diffusers包通过文本生成图像。 DALLE2是收费的,用户只有一些免费的额度,如果免费额度使用完毕就需要付费了,所以必须寻找替代方案,并发现了Hugging Face,他们发布了一个扩散模型的包diffusers ,可以让我们直接使用。

    2024年02月09日
    浏览(56)
  • 【AIGC】DreamBooth:微调文本到图像扩散模型用于主题驱动的生成

    DreamBooth可以让我们使用一个很小的数据集微调文生图模型,然后基于文本提示词为我们训练的的主体替换不同的场景。  大型文本转图像模型在人工智能的发展中实现了显著的飞跃,能够从给定的文本提示中高质量和多样化地合成图像。然而,这些模型缺乏模仿给定参考集中

    2024年01月18日
    浏览(48)
  • 【AIGC】Controlnet:基于扩散模型的文生图的可控性

    controlnet可以让stable diffusion的生图变得可控。 文章连接:https://arxiv.org/pdf/2302.05543.pdf  冻结了stable  diffusion的预训练模型并重用它的预训练编码层 神经网络结构与零初始化卷积层连接,从零开始逐渐增加参数,并确保微调过程中不会有噪声影响 Controlnet在小数据集(小于5张万

    2024年01月21日
    浏览(47)
  • AIGC、ChatGPT、GPT系列?我的认识

    AIGC(AI generated content),新型内容生产方式。AIGC是利用人工智能技术来生成内容,也就是,它可以用输入数据生成相同或不同类型的内容,比如输入文字、生成文字,输入文字、生成图像等。 GPT-3是生成型的预训练变换模型,是一个自回归语言模型,神经网络包括1750亿个参

    2024年02月02日
    浏览(57)
  • 【CVPR 2023的AIGC应用汇总(4)】图像恢复,基于GAN生成对抗/diffusion扩散模型方法...

    【CVPR 2023的AIGC应用汇总(1)】图像转换/翻译,基于GAN生成对抗/diffusion扩散模型方法 【CVPR 2023的AIGC应用汇总(2)】可控文生图,基于diffusion扩散模型/GAN生成对抗方法 【CVPR 2023的AIGC应用汇总(3)】GAN改进/可控生成的方法10篇 本文研究JPEG图像恢复问题,即加密比特流中的比特错误。

    2024年02月06日
    浏览(72)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包