Stable Diffusion XL网络结构-超详细

1年前作者：wu_jiacheng分类：Toy博客阅读(13)违法举报

这篇具有很好参考价值的文章主要介绍了Stable Diffusion XL网络结构-超详细。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

强烈推荐先看本人的这篇

Stable Diffusion1.5网络结构-超详细原创-CSDN博客

1 Unet

1.1 详细整体结构

sd1.5 unet,stable diffusion

1.2 缩小版整体结构

以生成图像1024x1024为例，与SD1.5的3个CrossAttnDownBlock2D和CrossAttnUpBlock2D相比，SDXL只有2个，但SDXL的CrossAttnDownBlock2D模块有了更多的Transformer模块，且只进行了两次下采样，具体的往下看

sd1.5 unet,stable diffusion

1.2.1 DownBlock2D

1.2.1.1 ResBolck2D

和SD1.5不一样的是，多了time_id这个输入，表示origin_size, target_size,以及裁剪坐标，比如图中的time_id＝[[1024, 1024, 0, 0, 1024, 1024],[1024, 1024, 0, 0, 1024, 1024]]

有一半是负向提示词，以[1024, 1024, 0, 0, 1024, 1024],为例，两个[1024, 1024]表示origin_size, target_size，[0, 0]是裁剪坐标，这是SDXL在训练的时候用了一些trick,把原始输入图像和目标图像的大小，以及裁剪坐标也作为条件参与训练

sd1.5 unet,stable diffusion

Downsample2D通过步长为2的卷积进行下采样

sd1.5 unet,stable diffusion

1.2.2 CrossAttnDownBlock2D

CrossAttnDownBlock2D_1

CrossAttnDownBlock2D_1表示第一个CrossAttnDownBlock2D，它的Transformer2DModel有两个BasicTransformerBlock，而SD1.5的Transformer2DModel只有一个BasicTransformerBlock

sd1.5 unet,stable diffusion

CrossAttnDownBlock2D_2

CrossAttnDownBlock2D_2表示第2个CrossAttnDownBlock2D，它的Transformer2DModel有10个BasicTransformerBlock

sd1.5 unet,stable diffusion

1.2.3 UnetMidBlock2DCrossAttn

其中的Transformer2DModel有10个BasicTransformerBlock

sd1.5 unet,stable diffusion

1.2.4 CrossAttnUpBlock2D

CrossAttnUpBlock2D_2

CrossAttnUpBlock2D_2表示第2个CrossAttnUpBlock2D，它的Transformer2DModel有10个BasicTransformerBlock，UpSample2D和SD1.5结构一致

sd1.5 unet,stable diffusion

CrossAttnUpBlock2D_1

CrossAttnUpBlock2D_1表示第21个CrossAttnUpBlock2D，它的Transformer2DModel有2个BasicTransformerBlock

sd1.5 unet,stable diffusion

未完待续文章来源地址https://www.toymoban.com/news/detail-857750.html

2 CLIP

到了这里，关于Stable Diffusion XL网络结构-超详细的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Mask RCNN网络结构以及整体流程的详细解读
Mask RCNN是在Faster RCNN的基础上增加了mask head用于实例分割的模型。总体来说，Mask RCNN网络结构可以分为： BackBone(ResNet+FPN) — RPN网络(Region Proposal Network) — ROI Head(ROIAlign + cls head + bbox head + mask head) 整体网络结构如下（来自原论文https://arxiv.org/pdf/1703.06870.pdf）： Backbone主要由R
2024年02月13日
浏览(6)
Stable Diffusion-XL
开源、免费的Stable Diffusion就能达到Midjourney水平！自从Midjourney发布v5之后，在生成图像的人物真实程度、手指细节等方面都有了显著改善，并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。相比之下，Stable Diffusion虽然免费、开源，但每次都要写一大长
2024年02月15日
浏览(7)
Stable Diffusion XL 0.9
虽然此前CEO曾陷入种种争议，但依然不影响Stability AI登上时代杂志。近日，该公司又发布了Stable Diffusion 的XL 0.9版本，35亿+66亿双模型，搭载最大OpenCLIP，让AI生图质量又有了新的飞跃。 Stable Diffusion又双叒升级了！最近，Stability AI发布了最新版的Stable Diffusion XL 0.9（SDXL 0.9）。
2024年02月12日
浏览(10)
Stable Diffusion 模型分享：DreamShaper XL（梦想塑造者 XL）
本文收录于《AI绘画从入门到精通》专栏，专栏总目录：点这里。
2024年03月24日
浏览(15)
Stable Diffusion XL训练LoRA
主要包括SDXL模型结构，从0到1训练SDXL以及LoRA教程，从0到1搭建SDXL推理流程。【一】SDXL训练初识 Stable Diffusion系列模型的训练主要分成一下几个步骤，Stable Diffusion XL也不例外：训练集制作：数据质量评估，标签梳理，数据清洗，数据标注，标签清洗，数据增强等。训练文
2024年02月07日
浏览(13)
Stable Diffusion XL优化终极指南
如何在自己的显卡上获得SDXL的最佳质量和性能，以及如何选择适当的优化方法和工具，这一让GenAI用户倍感困惑的问题，业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。在本文中，Félix介绍了相关SDXL优化的方法论、基础优化、Pipeline优化以
2024年04月26日
浏览(9)
Stable Diffusion XL 带来哪些新东西？
前几天写了一篇小短文《 Stable Diffusion 即将发布全新版本》，很快，Stability AI 的创始人兼首席执行官 Emad Mostaque 在一条推文中宣布，Stable Diffusion XL 测试现已可用于公开测试。那么这样一个全新版本会带来哪些新东西，让我们眼见为实吧。不过在开始之前，简单说明一下：
2024年02月09日
浏览(9)
Stable Diffusion XL on diffusers
翻译自：https://huggingface.co/docs/diffusers/using-diffusers/sdxl v0.24.0 非逐字翻译 Stable Diffusion XL (SDXL) 是一个强大的图像生成模型，其在上一代 Stable Diffusion 的基础上主要做了如下优化：参数量增加：SDXL 中 Unet 的参数量比前一代大了 3 倍，并且 SDXL 还引入了第二个 text-encoder（OpenCL
2024年03月14日
浏览(10)
Stable Diffusion XL(SDXL)原理详解
😘关注公众号 funNLPer 畅读全文😘 技术报告：SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis 官方代码：Stability-AI-generative-models 模型权重：HuggingFace-Stability AI 非官方代码：Linaqruf/kohya-trainer diffuser库：diffusers/pipelines/stable_diffusion_xl
2024年02月10日
浏览(15)
一文详细理解计算机网络体系结构（考试和面试必备）
1.1 计算机网络的概念最简洁的定义 color{#0000FF}{最简洁的定义} 最简洁的定义：计算机网络就是一些互连的，自治的计算机系统的集合。广义观点的定义 color{#0000FF}{广义观点的定义} 广义观点的定义：计算机网络是能实现远程信息处理的系统或能进一步
2023年04月08日
浏览(10)