【AI绘画发展史】AI绘画从历史到技术突破，何以突飞猛进？-Toy模板网

这篇具有很好参考价值的文章主要介绍了【AI绘画发展史】AI绘画从历史到技术突破，何以突飞猛进？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

AI绘画的进展

感到吃惊是完全正常的, 因为从去年到今年, AI绘画的技术确实出现了连续的突破性的进展, 从CLIP模型基于无需标注的海量互联网图片训练大成, 到CLIP开源引发的AI绘画模型嫁接热潮, 然后找到了Diffusion扩散化模型作为更好的图像生成模块, 最后使用潜空间降维的改进方法解决了Diffusion模型时间和内存资源消耗巨大的问题

开源贡献

一、CLIP+VQGAN

计算机数据科学家 Katherine Crowson
利用CLIP计算出文字和图像特征值相匹配, 把这个匹配验证过程链接到负责生成图像的AI模型 (比如VQ-GAN) , 负责生成图像的模型反过来推导一个产生合适图像特征值, 能通过匹配验证的图像, 就得到一幅符合文字描述的作品了
CLIP+VQGAN 引领了全新一代 AI图像生成技术的风潮，现在所有的开源 TTI(Text to Image, 文本文本生成图像)模型的简介里都会对 Katherine Crowson 致谢，她是当之无愧的全新一代AI绘画模型的奠基者。
没火起来的原因：GAN类模型的生成结果始终不尽如人意，由Disco Diffusion这个线上服务所引爆
另外一种图像生成方式：Diffusion扩散模型，基本原理其实就是"去噪点"。就是我们熟悉的手机拍照（特别是夜景拍照）的自动降噪功能。如果把这个去噪点的计算过程反复进行，在极端的情况下，可能把一个完全是噪声的图片还原为一个清晰的图片

二、CLIP

2021年初，OpenAI团队开源发布CLIP
图像生成引擎DALL-E。DALL-E内部用了CLIP，但DALL-E并不开源

三、LAION-5B和LAION-Aesthetics

LAION 是一个跨全球的非营利机器学习研究机构。
2022年3月开放了当前最大规模的开源[跨模态数据库]LAION-5B，包含接近60亿(5.85 Billion)个图片-文本对。
提供的海量训练素材库，可以被用来训练所有从文字到图像的的生成模型，也可以用于训练 CLIP这种用于给文本和图像的匹配程度打分的模型，而这两者都是现在 AI 图像生成模型的核心。
LAION 还训练 AI 根据艺术感和视觉美感，给LAION-5B 里图片打分，高分的图片形成LAION-Aesthetics 数据集。
最新的AI绘画模型都是利用LAION-Aesthetics这个高质量数据集训练出来的。

AI绘画模型/产品

一、Disco Diffusion

第一个基于CLIP + Diffusion 模型的实用化AI绘画产品。
缺点：并没有取代人工创作的能力的核心原因：无法刻画具体细节、渲染时间特别长

二、MidJourney

在线AI作画神器优点：零门槛的交互和非常好的输出结果
利用基于Discord的MidJourney bot进行对话式绘画创作
付费服务，迭代更新快

三、Stable Diffusion

开源研发团队 EleutherAI 作为技术核心团队支持了Stability.AI，推出了AI绘画模型 Stable Diffusion，并承诺完全开源。
Stable Diffusion和之前的Diffusion扩散化模型相比，把模型的计算空间，从像素空间经过数学变换，在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间里，然后再进行繁重的模型训练和图像生成计算。