AI绘图之 stablediffusion 从零到商业实战 超细教程(一)
目录
序言
一、AI绘图的发展历史
二、stablediffusion与midjouney的区别
1. midjouney的特点:
2. stablediffusion的特点:
3.midjouney和stablediffusion的优劣
三、AI绘图对社会的影响
文章来源地址https://www.toymoban.com/news/detail-656338.html
序言
文中出现的专业名词您不用理会,更不用去深究它的含义,你只需要把它当作一个符号,而对于需要了解的名词,我会用较通俗的语言进行解释,以便零基础的同学理解。整个教程一共分三个部分进行细分讲解,包括stablediffusion的本地部署(经过实际尝试,选择了最适合大众的本地部署方法,没有选择一键安装和科学上网等方法,目的还是希望大家通过这个安装过程,对stablediffusion有更直观的理解)、stablediffusion模型和插件介绍、stablediffusion运用技巧和stablediffusion商业实战,希望你能在这个过程中取得实际收获。
在开始学习之前,我们应当简单了解一下AI绘图的发展历史及其对社会的影响,这是很有必要的,因为制定任何目标前,您一定先得明白目标的方向和意义,内容较长。
一、AI绘图的发展历史
AI绘图的出现时间可能比很多人想象的要早。计算机是上世纪60年代出现的,而就在70年代,一位艺术家,哈罗德·科恩Harold Cohen(画家,加利福尼亚大学圣地亚哥分校的教授) 就开始打造电脑程序“AARON”进行绘画创作。与当下 AI 绘画不同之处在于,ARRON 使用机械手臂在画布上进行绘画,而非数字绘图。
AARON利用机械手臂绘图
2012年,Google两位大名鼎鼎的AI大神,Andrew Ng和Jef Dean进行了一场空前的试验。联手使用1.6万个CPU训练了一个当时世界上最大的深度学习网络。用来指导计算机画出猫脸图片。这是一次具有突破意义的尝试,正式开启了深度学习模型支持的AI绘画这个“全新”研究方向。
2015年 Google发布的一个图像工具深梦 (Deep Dream)。深梦发布了一系列画作,一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展。但如果较真一下,深梦与其说是AI绘画,更像是一个高级AI版滤镜。同样在2015年,加拿大蒙特利尔大学的Ian Goodfellow于2014年提出了生成对抗网络GAN的算法,这个算法一度成为了AI生成绘画的主流方向。GAN的原理是通过训练两个深度神经网络模型,一个生成器(Generator)和一个判别器(Discriminator),使得生成器可以生成与真实数据相似的新数据样本,并且判别器可以准确地区分生成器生成的假样本和真实数据。
2017年,Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型,号称创造性对抗网络CAN,在尝试输出一些像是艺术家作品的图画,它们是独一无二的,而不是现存艺术作品的仿品。
2021年初,OpenAI发布了广受关注的DALL-E系统,其AI绘画的水平也就一般,但到了这里,AI开始拥有了一个重要的能力,就是按照输入的提示进行创作。
2022年2月,在GAN技术路线上遇到瓶颈后,科学家想出了非常神奇的 Diffusion Model (扩散模型)(通俗一点的理解就是计算机先生成一幅由无数噪点-可以直接理解为点,然后再根据我们的要求去除不需要的点,最终形成一幅我们人类可以理解的图片,就好比用一层沙子铺在盘子里,然后扣掉部分沙子就能形成一幅画了) 的办法去训练模型:把原图用马尔科夫链将噪点不断地添加到其中,最终成为一个随机噪声图像,然后让训练神经网络把此过程逆转过来,从随机噪声图像逐渐还原成原图。基于扩散模型的AI绘图生成器——Disco diffusion开始爆红,它可以根据描述场景的关键词渲染出对应的图像。
至此,AI绘图翻开了新的篇章,开始往实际应用发展。
2022年3月,一款由Disco diffusion的核心开发参与建设的AI生成器Midjouney正式发布。Midjouney选择搭载在discord平台,借助discord聊天式的人机交互方式,不需要之前繁琐的操作,也没有Disco diffusion十分复杂的参数调节,你只需要向聊天窗口输入文字就可以生成图像。更关键的是,Midjouney生成的图片效果非常惊艳,普通人几乎已经很难分辨出它产生的作品,竟然是AI绘画生成的。
midjouney操作界面
2022年8月,一幅使用AI绘画服务 MidJourney 生成的数字油画,,生成它的用户以这幅画《Theatre Dopera Spatial》参加美国科罗拉多州博览会的艺术比赛,夺得了第一名。这件事被曝光之后引发了网络上巨大的争论至今。
Theatre Dopera Spatial
2022年8月22日stablediffusion首次发布,由Stability AI、CompVis和Runway合作开发,并得到EleutherAI和LAION的支持。
- stablediffusion的技术原理是基于latent diffusion model(LDM)的,LDM是一种在2015年推出的扩散模型的变体,其目的是消除对训练图像的连续应用高斯噪声,可以将其视为一系列去噪自编码器。stablediffusion由三个部分组成:变分自编码器(VAE)、U-Net和一个文本编码器。它使用CLIP text encoder提取的text embeddings(可以理解为文字)作为condition(条件),可以根据文本的描述产生详细图像,也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产生图生图的翻译。
stablediffusion的特点是开源免费、可本地部署或云端使用、技术原理清晰、扩展应用多样、当代艺术理解好。
stablediffusion的发展历程如下:
- 2022年8月22日,stablediffusion 1.0版本发布,支持以512×512分辨率生成图像。
- 2022年9月15日,stablediffusion 1.1版本发布,修复了一些bug,并增加了对float16精度加载权重的支持。
- 2022年10月7日,stablediffusion 2.0版本发布,引入了以768×768分辨率生成图像的能力,并增加了无分类指导比例值(classifier-free guidance scale value)这一可配置选项。
- 2022年10月18日,Stability AI宣布获得了1.01亿美元超额融资,估值达10亿美元。
- 2022年12月7日,stablediffusion 2.1版本发布,优化了代码结构,并增加了对Dreamstudio云端服务的支持
二、stablediffusion与midjouney的区别
至此,我们可以看到stablediffusion和midjouney成为了AI绘图领域两股主流,代表AI绘图的最前沿发展方向,那么我们如何在两者之间选择呢?我们得看到它们的区别:
1. midjouney的特点:
midjouney是一个商业化产品,用户需要付费才能使用,而且只能通过其官方Discord上的Discord机器人使用。midjouney没有公布其技术细节,但是其生成的图像效果非常惊艳,普通人几乎已经很难分辨出它产生的作品,竟然是AI绘画生成的。 midjouney善于适应实际的艺术风格,创造出用户想要的任何效果组合的图像。它擅长环境效果,特别是幻想和科幻场景,看起来就像游戏的艺术效果。midjouney的提示词门槛低,不需要特别精细的描述也可以出不错的图像。但是缺点是画面不太受控,而且被BAN的敏感词非常多,像bare,nude(裸体)这类词就用不了。
2. stablediffusion的特点:
stablediffusion是一个开源的模型,任何人都可以免费使用(但是需要有GPU来跑),也可以部署到GoogleColab和Drive去薅Tesla T4。stablediffusion是基于latent diffusion model(LDM)的条件扩散模型,采用CLIP text encoder提取的text embeddings作为condition。stablediffusion对当代艺术图像有比较好的理解,可以产生充满细节的艺术作品。除了文生图功能外,还支持图生图、图像重绘、个性化模型训练、可控生成等多种扩展应用。stablediffusion比较适合生成复杂的、有创意的插图。但是缺点是提示词门槛高,手部问题,Lora的兼容性等等。
3.midjouney和stablediffusion的优劣
midjouney和stablediffusion各有优劣之处,具体如下:
① midjouney的优点是:出图质量高、出图稳定、提示词简单、艺术风格丰富、环境效果出色。
②midjouney的缺点是:收费昂贵、只能通过Discord使用、技术细节不透明、画面不太受控、敏感词过多。
③stablediffusion的优点是:开源免费、可本地部署或云端使用、技术原理清晰、扩展应用多样、当代艺术理解好。
④stablediffusion的缺点是:需要GPU资源、提示词门槛高、手部问题突出、Lora兼容性差。
那么对于普通人来说,选择stablediffusion可能比选择midjouney更合适,原因如下:
①stablediffusion是免费的,而midjouney是收费的,对于预算有限的普通人来说,stablediffusion更划算。
②stablediffusion是开源的,而midjouney是闭源的,对于想要了解AI绘图技术原理和细节的普通人来说,stablediffusion更透明。
③stablediffusion是灵活的,而midjouney是固定的,对于想要尝试不同功能和插件的普通人来说,stablediffusion更多样。
④stablediffusion是创新的,而midjouney是成熟的,对于想要挑战自己和发挥想象力的普通人来说,stablediffusion更有趣。
总的来说,如果您会使用midjouney,就相当于您学会了买车票搭车去某个地方,你只能选择路线,而您会使用stablediffusion,就相当于您自己买了一辆车,考了一个驾照,想去哪里就去哪里,想怎么开车就怎么开车(划重点)。
三、AI绘图对社会的影响
AI绘图技术的出现对市场和行业都带来了很大的变化和影响,但是并不一定会导致大批人失业。AI绘图可以成为设计师、插画师、美术工作者等创意人士的辅助工具,提高他们的创作效率和质量,拓展他们的创作空间和想象力。
AI绘图也可以为普通人提供一个新的娱乐方式和表达方式,让他们能够通过文字描述来创造出自己想要的图像,享受到创作带来的快乐和成就感。AI绘图还可以用于教育、娱乐、社交、商业等多个领域,为人们提供更多样化和个性化的服务和体验。
AI绘图也可能带来一些负面影响和挑战,比如对于版权、伦理、审美等方面的问题。AI绘图可能会侵犯原创作者的版权,或者被用于制造虚假或有害的信息。AI绘图也可能会影响人们对于艺术和美学的认识和评价,或者导致人们对于真实和虚拟之间的界限模糊。
AI绘图技术是当今社会的一个重要趋势和发展方向,不学习AI绘图可能会导致一些不利的后果,比如:
落后于时代的步伐,失去与AI绘图相关的机会和竞争力,无法适应和应对AI绘图带来的变化和挑战。
缺乏创新和创造力,无法充分发挥自己的潜能和价值,无法享受AI绘图带来的乐趣和成就感。
限制了自己的视野和思维,无法理解和欣赏AI绘图的艺术和美学,无法与AI绘图的创作者和用户进行有效的沟通和交流。
而学习AI绘图可以带来一些有利的结果,比如:
跟上时代的潮流,抓住与AI绘图相关的机会和竞争力,能够适应和应对AI绘图带来的变化和挑战。
增强创新和创造力,能够充分发挥自己的潜能和价值,能够享受AI绘图带来的乐趣和成就感。
扩展了自己的视野和思维,能够理解和欣赏AI绘图的艺术和美学,能够与AI绘图的创作者和用户进行有效的沟通和交流。
总的来说,AI绘图是一种利用人工智能技术生成图像的方法,它有着悠久而又充满变革的发展历史,它对社会产生了深远而又复杂的影响,它有着广阔而又充满挑战的前景,它在很多商业领域得到了应用和利用,它需要我们去学习和掌握。
本教程立足实用性,将从stablediffusion的本地部署、功能介绍、模块介绍、插件介绍、商业实战等角度带领大家由浅入深的学习stablediffusion,最终达到学以致用,让大家在新兴领域分得自己的一杯羹。文章来源:https://www.toymoban.com/news/detail-656338.html
到了这里,关于AI绘图之 stablediffusion 从零到商业实战 超细教程(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!