stable diffusion简介和原理

这篇具有很好参考价值的文章主要介绍了stable diffusion简介和原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Stable Diffusion中文的意思是稳定扩散,本质上是基于AI的图像扩散生成模型。
Stable Diffusion是一个引人注目的深度学习模型,它使用潜在扩散过程来生成图像,允许模型在生成图像时考虑到文本的描述。这个模型的出现引起了广泛的关注和讨论,不仅因为它在技术上的创新,还因为它在应用领域的广泛适用性。本文将详细介绍Stable Diffusion的背景、技术原理、应用场景以及其优缺点。

stable-diffusion

一、背景介绍

随着深度学习技术的不断发展,文本到图像生成已经成为了研究的热点领域。过去几年中,出现了许多文本到图像的生成模型,如GANs、VQ-VAE等。这些模型在生成图像时,通常需要使用大量的数据和计算资源,并且生成的图像质量也参差不齐。因此,开发一种更加稳定、高效且能够生成高质量图像的文本到图像生成模型成为了当务之急。

在这个背景下,Stable Diffusion应运而生。该模型由CompVis、Stability AI和LAION的研究人员和工程师共同开发,于2022年发布。与其他文本到图像生成模型相比,Stable Diffusion具有更高的稳定性和生成质量,同时使用了一种创新的潜在扩散过程来生成图像。

stable diffusion简介和原理,Stable diffusion基础入门,stable diffusion,人工智能,AI绘画

图1 stable diffusion绘画例子

二、技术原理

Stable Diffusion 技术,作为 Diffusion 改进版本,通过引入隐向量空间来解决 Diffusion 速度瓶颈,除了可专门用于文生图任务,还可以用于图生图、特定角色刻画,甚至是超分或者上色任务。作为一篇基础原理介绍,这里着重解析最常用的“文生图(text to image)”为主线,介绍 stable diffusion 计算思路以及分析各个重要的组成模块。

下图是一个基本的文生图流程,把中间的 Stable Diffusion 结构看成一个黑盒,那黑盒输入是一个文本串“paradise(天堂)、cosmic(广阔的)、beach(海滩)”,利用这项技术,输出了最右边符合输入要求的生成图片,图中产生了蓝天白云和一望无际的广阔海滩。

stable diffusion简介和原理,Stable diffusion基础入门,stable diffusion,人工智能,AI绘画

图2 Stable Diffusion组成

Stable Diffusion 的核心思想是,由于每张图片满足一定规律分布,利用文本中包含的这些分布信息作为指导,把一张纯噪声的图片逐步去噪,生成一张跟文本信息匹配的图片。它其实是一个比较组合的系统,里面包含了多个模型子模块,接下来把黑盒进行一步步拆解。stable diffusion 最直接的问题是,如何把人类输入的文字串转换成机器能理解的数字信息。这里就用到了文本编码器 text encoder(蓝色模块),可以把文字转换成计算机能理解的某种数学表示,它的输入是文字串,输出是一系列具有输入文字信息的语义向量。有了这个语义向量,就可以作为后续图片生成器 image generator(粉黄组合框)的一个控制输入,这也是 stable diffusion 技术的核心模块。图片生成器,可以分成两个子模块(粉色模块+黄色模块)来介绍。下面介绍下 stable diffusion 运行时用的主要模块:

(1) 文本编码器(蓝色模块),功能是把文字转换成计算机能理解的某种数学表示,在第三部分会介绍文本编码器是怎么训练和如何理解文字,暂时只需要了解文本编码器用的是 CLIP 模型,它的输入是文字串,输出是一系列包含文字信息的语义向量。

(2) 图片信息生成器(粉色模块),是 stable diffusion 和 diffusion 模型的区别所在,也是性能提升的关键,有两点区别:

② Diffusion 模型一般都是直接生成图片,不会有中间生成低维向量的过程,需要更大计算量,在计算速度和资源利用上都比不过 stable diffusion;

那低维空间向量是如何生成的?是在图片信息生成器里由一个 Unet 网络和一个采样器算法共同完成,在 Unet 网络中一步步执行生成过程,采样器算法控制图片生成速度,下面会在第三部分详细介绍这两个模块。Stable Diffusion 采样推理时,生成迭代大约要重复 30~50 次,低维空间变量在迭代过程中从纯噪声不断变成包含丰富语义信息的向量,图片信息生成器里的循环标志也代表着多次迭代过程。

(3) 图片解码器(黄色模块),输入为图片信息生成器的低维空间向量(粉色 4*4 方格),通过升维放大可得到一张完整图片。由于输入到图片信息生成器时做了降维,因此需要增加升维模块。这个模块只在最后阶段进行一次推理,也是获得一张生成图片的最终步骤。

那扩散过程发生了什么?

扩散过程发生在图片信息生成器中,把初始纯噪声隐变量输入到 Unet 网络后结合语义控制向量,重复 30~50 次来不断去除纯噪声隐变量中的噪声,并持续向隐向量中注入语义信息,就可以得到一个具有丰富语义信息的隐空间向量(右下图深粉方格)。采样器负责统筹整个去噪过程,按照设计模式在去噪不同阶段中动态调整 Unet 去噪强度。
更直观看一下,如图 3 所示,通过把初始纯噪声向量和最终去噪后的隐向量都输到后面的图片解码器,观察输出图片区别。从下图可以看出,纯噪声向量由于本身没有任何有效信息,解码出来的图片也是纯噪声;而迭代 50 次去噪后的隐向量已经耦合了语义信息,解码出来也是一张包含语义信息的有效图片。
stable diffusion简介和原理,Stable diffusion基础入门,stable diffusion,人工智能,AI绘画

图3 可视化输出图片变化

到这里,我们大致介绍了 Stable Diffusion 是什么以及各个模块思路,并且简单介绍了 stable diffusion 的扩散过程。第三部分我们继续分析各个重要组成模块的运行机制,更深入理解 Stable Diffusion 工作原理。

github开源地址

三、应用场景

Stable Diffusion具有广泛的应用场景。首先,它可以应用于文本生成图像领域。通过输入一段文字描述,Stable Diffusion可以生成一张符合描述的清晰图像。这种应用场景非常适合于创意设计、艺术创作等领域。例如,设计师可以通过文字描述来设计一张海报或者服装图案,然后使用Stable Diffusion来生成符合描述的图像。

其次,Stable Diffusion还可以应用于图像修复、超分辨率重建等领域。在这些领域中,Stable Diffusion可以通过对图像进行编码和解码来修复图像中的缺陷或者提高图像的分辨率。这种应用场景非常适合于数字图像处理、计算机视觉等领域。

此外,Stable Diffusion还可以应用于视频制作、游戏设计等领域。在这些领域中,可以使用Stable Diffusion来生成视频中的动态图像或者游戏中的场景和角色。这种应用场景非常适合于影视制作和游戏开发等领域。

github开源地址 https://github.com/CompVis/stable-diffusion

stable-diffusion-ui

由于Stable Diffusion只是针对开发者的程序,需要通过接口或者命令程序去使用生成图片,对普通人非常不友好,所有一款面向普通人UIweb应用出现了,它就是开源项目stable-diffusion-ui。
Stable Diffusion Web UI是一个基于Stable Diffusion模型的应用程序接口,它利用gradio模块搭建出交互程序,可以在低代码GUI中立即访问Stable Diffusion。Stable Diffusion是一个画像生成AI,能够模拟和重建几乎任何可以以视觉形式想象的概念,而无需文本提示输入之外的任何指导。

Stable Diffusion Web UI提供了多种功能,如txt2img、img2img、inpaint等,还包含了许多模型融合改进、图片质量修复等附加升级。用户可以通过调节不同参数生成不同效果,根据自己的需要和喜好进行创作。在界面Extras(更多)中,用户可以找到优化(清晰、扩展)图像的功能;在Settings中,用户可以修改默认参数。
stable diffusion简介和原理,Stable diffusion基础入门,stable diffusion,人工智能,AI绘画

Stable Diffusion web UI GitHub 地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui

Midjourney和Stable Diffusion

作为目前市场两个主流的AI绘画工具,简单介绍一下他们的共同点和不同点,还有各自的优缺点。

共同点和不同点

Midjourney和Stable Diffusion都是AI绘画工具,它们有一些共同点,但也有很多不同之处。

共同点

  • 都是基于AI技术的绘画工具。
  • 都可以通过输入文字或文本提示来生成图像。
  • 都可以用于创作各种类型的艺术作品,包括插画、漫画、摄影、设计等。

不同点

  • 生成图像的算法不同:Midjourney主要使用的是扩散模型(diffusion model),而Stable Diffusion则基于Latent Diffusion Model(LDM)。
  • 使用的技术栈不同:Midjourney使用了DALL·E模型,而Stable Diffusion则使用了CLIP ViT-L/14文本编码器。
  • 输出图像的质量不同:Midjourney的输出图像质量相对较高,而Stable Diffusion的输出图像质量相对较低。
  • 使用难度不同:Midjourney的使用难度相对较高,需要一定的学习和实践才能掌握,而Stable Diffusion则相对较容易上手。
  • 功能不同:Midjourney具有更多的功能和插件,可以用于创作各种类型的艺术作品,而Stable Diffusion则主要专注于图像生成。
  • 总的来说,Midjourney和Stable Diffusion都是非常优秀的AI绘画工具,它们各有所长,可以根据自己的需求选择合适的工具进行创作。

优缺点

Midjourney的优点

  • 输出图像质量高
  • 功能丰富:Midjourney具有较多的功能和插件,可以用于创作各种类型的艺术作品,例如插画、漫画、摄影、设计等。
  • 支持多种输入方式:Midjourney支持输入文字、图像、视频等多种形式的输入,方便用户进行创作。

Midjourney的缺点:

  • 使用难度较高
  • 需要科学上网
  • 需要付费

Stable Diffusion的优点:

  • 稳定性好
  • 细节表现好
  • 对硬件要求较低:Stable Diffusion对硬件的要求较低,可以在普通的PC上运行。
  • 免费本地使用

Stable Diffusion的缺点

  • 输出图像质量不稳定:Stable Diffusion的输出图像质量有时会不稳定,需要一定的实践和调整才能得到满意的图像。
  • 功能相对较少:Stable Diffusion的功能相对较少,主要专注于图像生成,不如Midjourney那样具有较多的功能和插件。

总的来说,Midjourney和Stable Diffusion都是非常优秀的AI绘画工具,它们各有所长,可以根据自己的需求选择合适的工具进行创作。
Midjourney具有较高的输出图像质量和丰富的功能,但使用难度较高且对硬件要求较高;而Stable Diffusion具有较好的稳定性和细节表现力,但对训练数据要求较高且功能相对较少。

总结

Stable Diffusion是一个引人注目的文本到图像生成模型,具有广泛的应用前景和潜在的发展空间。该模型使用潜在扩散过程来生成图像,具有很高的生成质量和稳定性。它可以应用于文本生成图像、图像修复、超分辨率重建等多个领域,并且具有开源的预训练模型方便用户使用。然而,由于潜在扩散过程的复杂性以及数据和计算资源的限制,Stable Diffusion仍然存在一些挑战和问题需要进一步研究和解决。

后续会讲解Stable Diffusion web UI的安装和使用,教你如何使用Stable Diffusion制作出,你想要它制作的图片!文章来源地址https://www.toymoban.com/news/detail-717605.html

到了这里,关于stable diffusion简介和原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法

    目录 学前视频 0.本章素材  1.图生图是什么 2.图生图能做什么 3.如何使用图生图 4.功能区域 4.1.提示词区域 4.2.图片提示词反推区域 1.CLIP反推 2.DeepBooru 反推 4.3.图片上传区域 4.4.结果图区域 4.5.缩放模式  4.6.重绘幅度 7.结语 8.课后训练   stable diffusion图生图教程 百度网盘 夸克

    2024年02月15日
    浏览(73)
  • Stable Diffusion WebUI 从零基础到入门

    本文主要介绍Stable Diffusion WebUI的实际操作方法,涵盖prompt推导、lora模型、vae模型和controlNet应用等内容,并给出了可操作的文生图、图生图实战示例。适合对Stable Diffusion感兴趣,但又对Stable Diffusion WebUI使用感到困惑的同学,希望通过本文能够降低大家对Stable Diffusion WebUI的学

    2024年02月12日
    浏览(35)
  • Stable Diffusion 关键词入门基础-最简单

    二次元绘图 在线体验地址:http://gpt.aizhiyun8.com/?code=RBdhptvxAP   Stable Diffusion绘画入门指令 AI绘画平台https://gpt.aizhiyun8.com/ 一:入门绘画风景类 中文指令:蓝天白云,高山流水,亭台楼阁,鸟语花香 翻译英文指令:Blue sky and white clouds, high mountains and flowing water, pav

    2024年02月09日
    浏览(66)
  • Stable Diffusion 关键词入门基础-人像动漫篇

    二次元绘图 在线体验地址:Chatgpt中文版-智云全球版-AI绘画-Stable Diffusion 简化版 中文:逼真,中国女孩,精致美丽的脸,黑色长发,全身居中,夏天低胸裙子,CG渲染,8K,城市广场, 英文: Realistic, Chinese girl, exquisite and beautiful face, long black hair, centered all over,

    2024年02月11日
    浏览(89)
  • 【论文简介】Stable Diffusion的基础论文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    稳定扩散生成模型(Stable Diffusion)是一种潜在的文本到图像扩散模型,能够在给定任何文本输入的情况下生成照片般逼真的图像 Stable Diffusion 是基于 latent-diffusion 并与 Stability AI and Runway合作实现的 paper: High-Resolution Image Synthesis with Latent Diffusion Models 本论文代码 :https://github.co

    2024年02月08日
    浏览(39)
  • 【人工智能·Stable-Diffusion】如何体验到 Stable-Diffusion

    带大家快速体验到AI图片生成 Stable-Diffusion,包含 win本地部署 参考和 云GPU服务器体验 。 Stable Diffusion 是一种通过文字描述创造出图像的 AI 模型. 它是一个开源软件, 使得新手可以在线尝试。 Stable Diffusion 的算法需要计算机有较强的算力,默认是需要配置有英伟达的独立显卡的

    2024年02月11日
    浏览(63)
  • 零基础入门AI绘画神器Stable Diffusion保姆级别教程!!小白必收藏!!!

    手把手教你入门绘图超强的AI绘画程序Stable Diffusion,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新Stable Diffusion保姆级教程资料包(文末可获取) 1. 前言 目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称

    2024年01月17日
    浏览(54)
  • 用通俗易懂的方式讲解:Stable Diffusion WebUI 从零基础到入门

    本文主要介绍 Stable Diffusion WebUI 的实际操作方法,涵盖prompt推导、lora模型、vae模型和controlNet应用等内容,并给出了可操作的文生图、图生图实战示例。适合对Stable Diffusion感兴趣,但又对Stable Diffusion WebUI使用感到困惑的同学。 前面分享了两篇文章:十分钟读懂 Stable Diffusio

    2024年01月17日
    浏览(50)
  • 零基础入门 Stable Diffusion - 无需显卡把 AI 绘画引擎搬进家用电脑

    我从小特别羡慕会画画的伙伴。他们能够将心中的想法画出来,而我最高水平的肖像画是丁老头。但在接触 Stable Diffusion 之后,我感觉自己脱胎换骨,给自己贴上了「会画画」的新标签。 丁老头进化旅程 Stable Diffusion 是一个「文本到图像」的人工智能模型,也是唯一一款开源

    2024年02月03日
    浏览(64)
  • Stable Diffusion现代人工智能艺术成功背后的物理学原理,破译用于文本到图像生成的著名 AI 模型与物理学中观察到的过程之间的联系

    毫不奇怪地否认本文的许多内容是使用人工智能生成的,当然包括描绘当今数字艺术最大趋势之一的图像。 虽然最近几天迅速传播并融入我们对话中的一些最新语言模型不一定适合图像生成,但本文旨在关注文本到图像 AI,特别是著名的系统“稳定扩散” ”。创意工具市场

    2024年02月11日
    浏览(67)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包