什么是图像生成
运用人工智能技术,将指定的数据进行单模态或跨模态生成图像的过程.由于目标和输入模态的不同,图像生成分为3种,分别是image composition(图像合成),image-to-image(给定的图片生产新图片),text-to-image(文本生成图像).
应用领域
在平面设计,游戏制作,动画等领域都有广泛的应用,而且在医学影像合成与分析,化合物合成和药物发现等方面,图像生成将具有很大的潜力.
关键的技术阶段
图像生成的技术发展阶段大致经历了以下几个阶段:
第一个阶段:GAN生成阶段
生成对抗网络(GAN)是上一代主流图像生成模型,GAN通过生成器和判别器进行博弈训练来不断提升生成能力和鉴别能力,使生成式网络的数据愈发趋近真实数据,从而达到生成逼真图像的目的。但在发展过程中,GAN也存在稳定性较差、生成图像缺乏多样性、模式崩溃等问题。
第二个阶段:自回归生成阶段
自回归模型进行图像生成的灵感得益于NLP预训练方式的成功经验,利用Transformer结构中的自注意力机制能够优化GAN的训练方式,提高了模型的稳定性和生成图像的合理性,但基于自回归模型的图像生成在推理速度和训练成本方面的问题,使其实际应用受限。
第三个阶段:扩散模型生成阶段
对于前代模型在性能方面的局限性,扩散模型(Diffusion Model)已经使这些问题得到解决,其在训练稳定性和结果准确性的效果提升明显,因此迅速取代了GAN的应用。而对于产业应用中的大量跨模态图像生成需求,则需要结合CLIP进行,CLIP基于文本-图像对的训练方式能够建立跨模态的连接,显著提升生成图像的速度和质量,目前基于扩散模型和CLIP生成的图像效果很优秀。
模型的实现原理
扩散模型(Diffusion Model)
1、实现原理:扩散模型是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像。扩散模型通过系统地扰动数据中的分布,再恢复数据分布,使整个过程呈现一种逐步优化的性质,确保了模型的稳定性和可控度。
2、模型优缺点:扩散模型的优点在于其基于马尔可夫链的正向及反向扩散过程能够更加准确地还原真实数据,对图像细节的保持能力更强,因此生成图像的写实性更好。特别是在图像补全修复、分子图生成等应用上扩散模型都能取得很好的效果。但由于计算步骤的繁杂,相应地,扩散模型也存在采样速度较慢的问题,以及对数据类型的泛化能力较弱。
CLIP(Contrastive Language-image Pre-training)
1、原理:CLIP是基于对比学习的文本-图像跨模态预训练模型,其训练原理是通过编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和差异度计算来训练模型,从而能够根据给定的文本生成符合描述的图像。
2、模型优缺点:CLIP模型的优点在于其基于多模态的对比学习和预训练的过程,能够将文本特征和图像特征进行对齐,因此无需事先标注数据,使其在零样本图像文本分类任务中表现出色;同时对文本描述和图像风格的把握更加准确,并能够在不改变准确性的同时对图像的非必要细节进行变化,因此在生成图像的多样性方面表现更佳。文章来源:https://www.toymoban.com/news/detail-549090.html
由于CLIP本质上属于一种图像分类模型,因此对于复杂和抽象场景的表现存在局限性,例如可能在包含时间序列数据和需要推理计算的任务中生成图像的效果不佳。另外,CLIP的训练效果依赖大规模的文本-图像对数据集,对训练资源的消耗比较大。文章来源地址https://www.toymoban.com/news/detail-549090.html
主要的模型代表
模型 | 简介 |
---|---|
Stable Diffusion | 基于潜在扩散模型框架,能够降低算力要求和部署门槛,专门用于文生图任务,目前已成为多数图像生成模型的基础框架–Github开源 |
Midjourney V5 | 基于扩散模型精调后的图像生成模型,部署在discord,擅长艺术风格的图像表达–未开源 |
文心ERNIE-VILG2.0 | 基于扩散模型框架的多模态生成模型,提出混合专家模型,自动选择最优生成网络–未开源 |
太乙 Taiyi | 首个开源的中文stable diffusion模型,基于0.2亿个筛选过的中文图文对训练,擅长中文描述的图像生成–HuggingFace开源 |
Imagen | google基于扩散模型和超分辨率模型搭建,生成图像的真实感较强 |
CogView2 | 基于Transformer的文生图模型,能够以高并行度进行采样,提升了图像生成速度 |
影响模型应用能力的关键要素
-
图像质量
画质,细节,真实程度 -
图像多样性
细节表现力和风格表达,多张或不同风格图像的语义一致性 -
图像稳定性
对扭曲、失真、异常描述数据的抗干扰的能力 -
图像可控性
图像细节控制,后续调整
到了这里,关于AIGC产业中的图片生成的技术发展及原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!