解析不同种类的StableDiffusion模型Models，再也不用担心该用什么了

这篇具有很好参考价值的文章主要介绍了解析不同种类的StableDiffusion模型Models，再也不用担心该用什么了。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Stable Diffusion是一个基于Latent Diffusion Models（潜在扩散模型，LDMs）的文图生成（text-to-image）模型。具体来说，Stable Diffusion在 LAION-5B 的一个子集上训练了一个Latent Diffusion Models，该模型专门用于文图生成。Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像，让文图生成能够在消费级GPU上，在10秒级别时间生成图片，大大降低了落地门槛，也带来了文图生成领域的大火。
本文主要是解析不同种类的模型，其它内容学习请点击：

安装及其问题解决参考：《Windows安装Stable Diffusion WebUI及问题解决记录》；

运行使用时问题《Windows使用Stable Diffusion时遇到的各种问题整理》；

模型运用及参数《Stable Diffusion 个人推荐的各种模型及设置参数、扩展应用等合集》；

提示词生图咒语《AI绘图提示词/咒语/词缀/关键词使用指南（Stable Diffusion Prompt 设计师操作手册）》；

不同类的模型Models说明《解析不同种类的StableDiffusion模型Models》；

绘制人物动作及手脚细节《Stable Diffusion 准确绘制人物动作及手脚细节（需ControlNet扩展）》；

各种风格对比及实际运用《AI绘图风格对照表/画风样稿详细研究记录及经验总结》；

一、 checkpoint（主模型）

Checkpoint这个词在不同的领域有不同的含义。在深度学习中，Checkpoint是用于描述在每次训练后保存模型参数（权重）的惯例或术语。这就像在游戏中保存关卡时你可以随时通过加载保存文件回复游戏。你可以加载保存的模型权重重新开启训练甚至可以之后进行一个推理。

主模型形象一些理解的话就是画师本身，而本文中的其它模型都是调整和优化主模型的工具。

训练流程：

大意就是：

样本图片A出一张n级噪声图B和n-1噪声图C，
文本标识和噪声图B结合生成图D，
将C图与D图进行比较，
- 如果成功就将n级噪声降一级重复上面的步骤，直到最后一级噪声图。
- 如果失败就返回第二步重新生成图D。

是不是和我们人类的学习过程一样？词与图像之间的关系从懵懂模糊到清晰明确。

二、 Embeding（文本转换）

Embedding是指将自然语言文本（如句子或段落）转换为计算机可以理解的数值向量表示形式的过程。这种向量表示法通常称为嵌入（embedding），可以在许多自然语言处理（NLP）任务中使用，例如语言模型、情感分析、问答系统等。在Stable Diffusion中，您可以使用内置的嵌入模型或创建自定义的嵌入模型来生成嵌入。

一文读懂Embedding的概念，以及它和深度学习的关系

训练流程：

与checkpoint不同的就是失败之后去修正文本标识，通过不断训练文本标识的理解来最终达到正确出图的目的。
依赖主模型，所以如果主模型与embeding不搭，那么效果将不尽如人意，就如同你让油画家来画水墨画，虽然他画画功底很好，但不会水墨画，自然也难以达到预期效果。