AI绘图之 stablediffusion 从零到商业实战超细教程（一）

这篇具有很好参考价值的文章主要介绍了AI绘图之 stablediffusion 从零到商业实战超细教程（一）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

序言

一、AI绘图的发展历史

二、stablediffusion与midjouney的区别

1. midjouney的特点：

2. stablediffusion的特点：

3.midjouney和stablediffusion的优劣

三、AI绘图对社会的影响

文章来源地址https://www.toymoban.com/news/detail-656338.html

序言

文中出现的专业名词您不用理会，更不用去深究它的含义，你只需要把它当作一个符号，而对于需要了解的名词，我会用较通俗的语言进行解释，以便零基础的同学理解。整个教程一共分三个部分进行细分讲解，包括stablediffusion的本地部署（经过实际尝试，选择了最适合大众的本地部署方法，没有选择一键安装和科学上网等方法，目的还是希望大家通过这个安装过程，对stablediffusion有更直观的理解）、stablediffusion模型和插件介绍、stablediffusion运用技巧和stablediffusion商业实战，希望你能在这个过程中取得实际收获。

在开始学习之前，我们应当简单了解一下AI绘图的发展历史及其对社会的影响，这是很有必要的，因为制定任何目标前，您一定先得明白目标的方向和意义，内容较长。

一、AI绘图的发展历史

AI绘图的出现时间可能比很多人想象的要早。计算机是上世纪60年代出现的，而就在70年代，一位艺术家，哈罗德·科恩Harold Cohen（画家，加利福尼亚大学圣地亚哥分校的教授) 就开始打造电脑程序“AARON”进行绘画创作。与当下 AI 绘画不同之处在于，ARRON 使用机械手臂在画布上进行绘画，而非数字绘图。

AI绘图之 stablediffusion 从零到商业实战超细教程（一）,stable diffsuion,人工智能,stable diffusion,python

AARON利用机械手臂绘图

2012年，Google两位大名鼎鼎的AI大神，Andrew Ng和Jef Dean进行了一场空前的试验。联手使用1.6万个CPU训练了一个当时世界上最大的深度学习网络。用来指导计算机画出猫脸图片。这是一次具有突破意义的尝试，正式开启了深度学习模型支持的AI绘画这个“全新”研究方向。

2015年 Google发布的一个图像工具深梦 (Deep Dream)。深梦发布了一系列画作，一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展。但如果较真一下，深梦与其说是AI绘画，更像是一个高级AI版滤镜。同样在2015年，加拿大蒙特利尔大学的Ian Goodfellow于2014年提出了生成对抗网络GAN的算法，这个算法一度成为了AI生成绘画的主流方向。GAN的原理是通过训练两个深度神经网络模型，一个生成器（Generator）和一个判别器（Discriminator），使得生成器可以生成与真实数据相似的新数据样本，并且判别器可以准确地区分生成器生成的假样本和真实数据。

2017年，Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型，号称创造性对抗网络CAN，在尝试输出一些像是艺术家作品的图画，它们是独一无二的，而不是现存艺术作品的仿品。

2021年初，OpenAI发布了广受关注的DALL-E系统，其AI绘画的水平也就一般，但到了这里，AI开始拥有了一个重要的能力，就是按照输入的提示进行创作。

2022年2月，在GAN技术路线上遇到瓶颈后，科学家想出了非常神奇的 Diffusion Model (扩散模型)(通俗一点的理解就是计算机先生成一幅由无数噪点-可以直接理解为点，然后再根据我们的要求去除不需要的点，最终形成一幅我们人类可以理解的图片，就好比用一层沙子铺在盘子里，然后扣掉部分沙子就能形成一幅画了) 的办法去训练模型：把原图用马尔科夫链将噪点不断地添加到其中，最终成为一个随机噪声图像，然后让训练神经网络把此过程逆转过来，从随机噪声图像逐渐还原成原图。基于扩散模型的AI绘图生成器——Disco diffusion开始爆红，它可以根据描述场景的关键词渲染出对应的图像。

至此，AI绘图翻开了新的篇章，开始往实际应用发展。

2022年3月，一款由Disco diffusion的核心开发参与建设的AI生成器Midjouney正式发布。Midjouney选择搭载在discord平台，借助discord聊天式的人机交互方式，不需要之前繁琐的操作，也没有Disco diffusion十分复杂的参数调节，你只需要向聊天窗口输入文字就可以生成图像。更关键的是，Midjouney生成的图片效果非常惊艳，普通人几乎已经很难分辨出它产生的作品，竟然是AI绘画生成的。

AI绘图之 stablediffusion 从零到商业实战超细教程（一）,stable diffsuion,人工智能,stable diffusion,python

midjouney操作界面

2022年8月，一幅使用AI绘画服务 MidJourney 生成的数字油画,，生成它的用户以这幅画《Theatre Dopera Spatial》参加美国科罗拉多州博览会的艺术比赛，夺得了第一名。这件事被曝光之后引发了网络上巨大的争论至今。

AI绘图之 stablediffusion 从零到商业实战超细教程（一）,stable diffsuion,人工智能,stable diffusion,python

Theatre Dopera Spatial

2022年8月22日stablediffusion首次发布，由Stability AI、CompVis和Runway合作开发，并得到EleutherAI和LAION的支持。

- stablediffusion的技术原理是基于latent diffusion model（LDM）的，LDM是一种在2015年推出的扩散模型的变体，其目的是消除对训练图像的连续应用高斯噪声，可以将其视为一系列去噪自编码器。stablediffusion由三个部分组成：变分自编码器（VAE）、U-Net和一个文本编码器。它使用CLIP text encoder提取的text embeddings（可以理解为文字）作为condition（条件），可以根据文本的描述产生详细图像，也可以应用于其他任务，如内补绘制、外补绘制，以及在提示词指导下产生图生图的翻译。

stablediffusion的特点是开源免费、可本地部署或云端使用、技术原理清晰、扩展应用多样、当代艺术理解好。

stablediffusion的发展历程如下：

- 2022年8月22日，stablediffusion 1.0版本发布，支持以512×512分辨率生成图像。

- 2022年9月15日，stablediffusion 1.1版本发布，修复了一些bug，并增加了对float16精度加载权重的支持。

- 2022年10月7日，stablediffusion 2.0版本发布，引入了以768×768分辨率生成图像的能力，并增加了无分类指导比例值（classifier-free guidance scale value）这一可配置选项。

- 2022年10月18日，Stability AI宣布获得了1.01亿美元超额融资，估值达10亿美元。

- 2022年12月7日，stablediffusion 2.1版本发布，优化了代码结构，并增加了对Dreamstudio云端服务的支持

二、stablediffusion与midjouney的区别

至此，我们可以看到stablediffusion和midjouney成为了AI绘图领域两股主流，代表AI绘图的最前沿发展方向，那么我们如何在两者之间选择呢？我们得看到它们的区别：

1. midjouney的特点：

midjouney是一个商业化产品，用户需要付费才能使用，而且只能通过其官方Discord上的Discord机器人使用。midjouney没有公布其技术细节，但是其生成的图像效果非常惊艳，普通人几乎已经很难分辨出它产生的作品，竟然是AI绘画生成的。 midjouney善于适应实际的艺术风格，创造出用户想要的任何效果组合的图像。它擅长环境效果，特别是幻想和科幻场景，看起来就像游戏的艺术效果。midjouney的提示词门槛低，不需要特别精细的描述也可以出不错的图像。但是缺点是画面不太受控，而且被BAN的敏感词非常多，像bare,nude（裸体）这类词就用不了。

2. stablediffusion的特点：

stablediffusion是一个开源的模型，任何人都可以免费使用（但是需要有GPU来跑），也可以部署到GoogleColab和Drive去薅Tesla T4。stablediffusion是基于latent diffusion model（LDM）的条件扩散模型，采用CLIP text encoder提取的text embeddings作为condition。stablediffusion对当代艺术图像有比较好的理解，可以产生充满细节的艺术作品。除了文生图功能外，还支持图生图、图像重绘、个性化模型训练、可控生成等多种扩展应用。stablediffusion比较适合生成复杂的、有创意的插图。但是缺点是提示词门槛高，手部问题，Lora的兼容性等等。