参考文章地址
Stable Diffusion
解决问题:
利用文本生成图片,进一步衍生到inpainting功能
解决思路:
autoencoder
CLIP text encoder
tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征
问题:当输出超长prompt会分段处理?每段的权重如何处理?
UNet
text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。
SD图生图
SD Inpainting
第一种形式:
第二种形式:
SD loss函数
原文地址
SDXL
论文解析地址
原论文地址
解决问题:
改进文生图效果
解决思路:
整体改进
PS:模型将更多的参数放在低维度的UNet中,以减少运算量
增加坐标尺寸输入信息
增加坐标尺寸作为输入,充分利用低分辨率数据的同时,避免低分辨率图片带来的模型,且可减少局部图生成的问题,训练时采用不同分辨率混合训练
文章来源:https://www.toymoban.com/news/detail-674543.html
增加refiner model
文章来源地址https://www.toymoban.com/news/detail-674543.html
到了这里,关于文生图模型之Stable Diffusion的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!