文生图模型之Stable Diffusion

9月前作者：Kuekua-seu 分类：Toy博客阅读(45) 违法举报

这篇具有很好参考价值的文章主要介绍了文生图模型之Stable Diffusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

参考文章地址

Stable Diffusion

解决问题：

利用文本生成图片，进一步衍生到inpainting功能

解决思路：

autoencoder

CLIP text encoder

tokenizer最大长度为77（CLIP训练时所采用的设置），当输入text的tokens数量超过77后，将进行截断，如果不足则进行paddings，这样将保证无论输入任何长度的文本（甚至是空文本）都得到77x768大小的特征

问题：当输出超长prompt会分段处理？每段的权重如何处理？

UNet

text condition将通过CrossAttention模块嵌入进来，此时Attention的query是UNet的中间特征，而key和value则是text embeddings。
文生图模型之Stable Diffusion,AIGC,stable diffusion

文生图模型之Stable Diffusion,AIGC,stable diffusion

SD图生图

文生图模型之Stable Diffusion,AIGC,stable diffusion

SD Inpainting

第一种形式：
文生图模型之Stable Diffusion,AIGC,stable diffusion
第二种形式：

SD loss函数

原文地址
文生图模型之Stable Diffusion,AIGC,stable diffusion

SDXL

论文解析地址
原论文地址

解决问题：

改进文生图效果

解决思路：

整体改进

PS：模型将更多的参数放在低维度的UNet中，以减少运算量

增加坐标尺寸输入信息

增加坐标尺寸作为输入，充分利用低分辨率数据的同时，避免低分辨率图片带来的模型，且可减少局部图生成的问题，训练时采用不同分辨率混合训练
文生图模型之Stable Diffusion,AIGC,stable diffusion

增加refiner model

文生图模型之Stable Diffusion,AIGC,stable diffusion 文章来源地址https://www.toymoban.com/news/detail-674543.html

到了这里，关于文生图模型之Stable Diffusion的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

文生图模型之Stable Diffusion

参考文章地址利用文本生成图片，进一步衍生到inpainting功能 autoencoder CLIP text encoder tokenizer最大长度为77（CLIP训练时所采用的设置），当输入text的tokens数量超过77后，将进行截断，如果不足则进行paddings，这样将保证无论输入任何长度的文本（甚至是空文本）都得到77x768大小

2024年02月11日
浏览(45)
本地开启stable diffusion web-ui体验AIGC文生图，图生图

目录准备工作主机电脑配置检查安装以下软件 Python Git 下载stable-diffusion-webui仓库根据显卡属性安装CUDA 2.下载stable diffusion的训练模型启动问题处理模型加载问题这是启动后界面以下是运行时的系统状态截图需要16G内存，8G显存（网上说是6G就够，不过跑出来图片像素会

2024年02月14日
浏览(55)
【学习笔记】文生图模型——Stable diffusion3.0

2.0原理才看到VAE，sd3.0就发布了，虽然还没看到源码和详解，但原来的那个小方向估计得弃。人已经麻了。 1.LDMs模型（stable diffusion≈LDMs+CLIP） 2.stable diffusion3.0模型架构图 3.主要改进地方 ①前向加噪过程：引入了新的噪声采样器用于改善Rectified Flow训练，该方法优化了噪声

2024年04月11日
浏览(42)
最强文生图跨模态大模型：Stable Diffusion

Stable diffusion是一种潜在的文本到图像的扩散模型。基于之前的大量工作（如DDPM、LDM的提出），并且在Stability AI的算力支持和LAION的海量数据支持下，Stable diffusion才得以成功。 Stable diffusion能够在来自 LAION- 5B 数据库子集的512x512图像上训练潜在扩散模型。与谷歌的Imagen类似，这

2024年02月03日
浏览(46)
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画

论文：《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》 github: https://github.com/guoyww/animatediff/ 随着文生图模型Stable Diffusion及个性化finetune方法：DreamBooth、LoRA发展，人们可以用较低成本生成自己所需的高质量图像，这导致对于图像动画的需求越来越多

2024年02月14日
浏览(38)
diffusers加速文生图速度；stable-diffusion、PixArt-α模型

参考： https://pytorch.org/blog/accelerating-generative-ai-3/ https://colab.research.google.com/drive/1jZ5UZXk7tcpTfVwnX33dDuefNMcnW9ME?usp=sharing#scrollTo=jueYhY5YMe22 大概GPU资源8G-16G；另外模型资源下载慢可以在国内镜像：https://aifasthub.com/ 1、加速代码能加速到2秒左右

2024年04月23日
浏览(73)
AIGC专栏2——Stable Diffusion结构解析-以文本生成图像（文生图，txt2img）为例

用了很久的Stable Diffusion，但从来没有好好解析过它内部的结构，写个博客记录一下，嘿嘿。 https://github.com/bubbliiiing/stable-diffusion 喜欢的可以点个star噢。 Stable Diffusion是比较新的一个扩散模型，翻译过来是稳定扩散，虽然名字叫稳定扩散，但实际上换个seed生成的结果就完全不

2024年02月10日
浏览(53)
【AIGC】Stable Diffusion的模型微调

为什么要做模型微调模型微调可以在现有模型的基础上，让AI懂得如何更精确生成/生成特定的风格、概念、角色、姿势、对象。Stable Diffusion 模型的微调方法通常依赖于您要微调的具体任务和数据。下面是一个通用的微调过程的概述：准备数据集：准备用于微调的数据集。

2024年02月19日
浏览(48)
【AIGC】Stable Diffusion的模型入门

下载好相关模型文件后，直接放入Stable Diffusion相关目录即可使用，Stable Diffusion 模型就是我们日常所说的大模型，下载后放入**webuimodelsStable-diffusion**目录，界面上就会展示相应的模型选项，如下图所示。作者用夸克网盘分享了「大模型」链接：https://pan.quark.cn/s/bd3491e5199

2024年02月20日
浏览(44)
Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像（文生图，txt2img）为例

用了很久的Stable Diffusion，但从来没有好好解析过它内部的结构，写个博客记录一下，嘿嘿。 https://github.com/bubbliiiing/stable-diffusion 喜欢的可以点个star噢。 Stable Diffusion是比较新的一个扩散模型，翻译过来是稳定扩散，虽然名字叫稳定扩散，但实际上换个seed生成的结果就完全不

2024年02月15日
浏览(67)