【学习笔记】文生图模型——Stable diffusion3.0

这篇具有很好参考价值的文章主要介绍了【学习笔记】文生图模型——Stable diffusion3.0。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2.0原理才看到VAE,sd3.0就发布了,虽然还没看到源码和详解,但原来的那个小方向估计得弃。人已经麻了。


1.LDMs模型(stable diffusion≈LDMs+CLIP)

stable diffusion3.0,学习,笔记,stable diffusion

 文章来源地址https://www.toymoban.com/news/detail-847880.html

2.stable diffusion3.0模型架构图

3.主要改进地方

①前向加噪过程:引入了新的噪声采样器用于改善Rectified Flow训练,该方法优化了噪声的分布和添加方式。

②采样过程:基于Transformer的MM-DiT新架构,取代了原模型中的U-Net预测噪声,与Sora同源。该架构考虑了文本到图像任务的多模态特性。

 

3.1 Rectified Flow

Rectified Flow作为前向路径的一个特别选择,它通过直线连接数据和噪声,简化了数据和噪声之间的转换。

Rectified Flow模型通过构建两个分布之间的常微分方程(ODE)的传输映射来处理生成建模。

先前版本里,Stable Diffusion生成模型训练时使用的是LDM-Linear,通过线性变换来模拟扩散过程中的数据转为噪声的随机分布,需要为每个时间步长求解ODE。每一步都需要计算添加噪声后图像的分布。

stable diffusion3.0,学习,笔记,stable diffusion

stable diffusion3.0,学习,笔记,stable diffusion

*速度v由神经网络的权重Θ参数化。

而本文使用了替代方法:直接回归一个向量场,该向量场生成和 之间的概率路径。

stable diffusion3.0,学习,笔记,stable diffusion

向量场用于定义数据点在各个时间步长上如何变化以逐渐接近噪声分布,每个时间点t都指示了数据点在特定时间步长上应该移动的方向和距离。

Rectified Flow使用向量场描述数据如何转化为噪声,损失函数为:

stable diffusion3.0,学习,笔记,stable diffusion

重参数化后写作:

stable diffusion3.0,学习,笔记,stable diffusion

 

Rectified Flow原理基于一个简单的常微分方程(ODE),通过构造一个“尽量走直线”的连续运动系统来产生想要的数据分布。

stable diffusion3.0,学习,笔记,stable diffusion

*上图解释:Reflow将ODE的轨迹进一步变直。

stable diffusion3.0,学习,笔记,stable diffusion

*上图解释:举个实例,Rectified Flow可以将DDPM中模型预测的方差与真实方差之间的损失项化简一步到位。

 

文中引用之前的工作将前向过程的目标函数统一写作:

stable diffusion3.0,学习,笔记,stable diffusion

注:t是按照某个区间上的均匀分布抽取的,ξ是一个服从均值为0、协方差矩阵为I(单位矩阵)的多元正态分布的随机向量。

作者对不同的公式和损失权重进行比较,由此提出了一个新的时间步策略,将时间上的分布从常用的均匀分布改变为具有密度的分布,等价于使用加权损失,其权重为:

stable diffusion3.0,学习,笔记,stable diffusion

作者希望通过更频繁地采样中间时间步长来给予它们更大的权重,因此讨论了用于加权中间时间步的采样策略。

 

3.2 MM-DiT

Multimodal Diffusion Backbone是一种架构,它基于DiT(Peebles & Xie, 2023)架构。作者使用这个架构取代了U-net模型,用于输出噪声预测和对角协方差预测。

 

3.2.1 DiT

DiT只考虑了基于类别条件的图像生成,并使用调制机制依赖于扩散过程的时间步和类别标签来调节神经网络。将随机生成的噪声图像的隐向量“补丁化”(Patchify),输入到DiT Block里,时序t和文本作为条件嵌入来回归出每层的参数,使得网络能够在必要时对输入进行更复杂的变换,而在其他时候则保持输入不变。这个思想与残差连接相关。

注:残差连接是一种常用的技术,它允许网络学习到恒等映射,即在某些情况下,输入可以直接通过神经层而不被改变。输出协方差预测的目的是为了捕捉和建模输入数据的不确定性和相关性。

stable diffusion3.0,学习,笔记,stable diffusion

 

3.2.2 MM-DiT

类似地,作者将时间步t和cvec的联合嵌入向量输入到调制机制中。然而,由于池化的文本向量仅保留了关于文本输入的粗粒度信息,神经网络还需要来自序列表示的信息。

1.用三个文本编码器训练模型的文本向量。将CLIP-G/14和CLIP-L/14池化输出连接起来形成pooled(2048维)向量,与经过正弦编码后的时间步连接作为MM-DiT的条件输入。另外把倒数第二层输出的tokens排列成4096*154矩阵,经过线性层变换之后作为MM-DiT的文本输入。

2.将随机生成的噪声图像的隐向量“补丁化”(2*2)平铺之后添加位置编码,生成作为MM-DiT的图像输入。

3.由于文本和图像嵌入在概念上有很大的不同,作者为两种模态使用两组独立的权重,这相当于为每种模态设置两个独立的transformer,但是在注意力机制中将两种模态的序列结合起来,这样两种表示可以在它们自己的空间中工作,同时考虑到另一个模态。

4..y作为条件输入回归出缩放、移位、维度缩放的参数,使在块内的任何残差连接之前立即应用某些参数或者操作。

5.最后输出噪声预测。

 

根据模型的深度d(即注意力块的数量)来参数化模型的大小,d=38时参数达到80亿,之前的模型参数仅8亿。


写完的时候发现不仅主创跑了,CEO也卸任了,希望还能开源吧。

 

到了这里,关于【学习笔记】文生图模型——Stable diffusion3.0的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 最强文生图跨模态大模型:Stable Diffusion

    Stable diffusion是一种潜在的文本到图像的扩散模型。基于之前的大量工作(如DDPM、LDM的提出),并且在Stability AI的算力支持和LAION的海量数据支持下,Stable diffusion才得以成功。 Stable diffusion能够在来自 LAION- 5B 数据库子集的512x512图像上训练潜在扩散模型。与谷歌的Imagen类似,这

    2024年02月03日
    浏览(37)
  • diffusers加速文生图速度;stable-diffusion、PixArt-α模型

    参考: https://pytorch.org/blog/accelerating-generative-ai-3/ https://colab.research.google.com/drive/1jZ5UZXk7tcpTfVwnX33dDuefNMcnW9ME?usp=sharing#scrollTo=jueYhY5YMe22 大概GPU资源8G-16G;另外模型资源下载慢可以在国内镜像:https://aifasthub.com/ 1、加速代码 能加速到2秒左右

    2024年04月23日
    浏览(60)
  • AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画

    论文: 《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》 github: https://github.com/guoyww/animatediff/ 随着文生图模型Stable Diffusion及个性化finetune方法:DreamBooth、LoRA发展,人们可以用较低成本生成自己所需的高质量图像,这导致对于图像动画的需求越来越多

    2024年02月14日
    浏览(27)
  • AIGC 文生图及 stable diffusion webui 练习笔记

    文生图, 图生图 等 AIGC 创作大火, 也来体验一把~ 本文记录了环境搭建过程与使用心得. 如果动手能力弱或只想省心, 有现成的整合包, 见参考[1] 列出来我的环境吧: CPU, AMD Ryzen 7 5800X 8-Core Processor RAM, 32G GPU, NVIDIA GeForce RTX 2070 SUPER (8G) OS, Windows 11 专业版 开发环境, python 3.10 与 gi

    2024年02月09日
    浏览(34)
  • 大模型学习笔记(一):部署ChatGLM模型以及stable-diffusion模型

    平台注册链接: https://growthdata.virtaicloud.com/t/SA 注册完成后,点击右上角: 费用中心 ,可查看领取的算力。 https://platform.virtaicloud.com/ ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。 推理速度比上一代提高了很多,虽然本教程有两种启动方式,但教

    2024年03月19日
    浏览(47)
  • AIGC与AidLux互联应用——AidLux端AIGC测评(二)PC端&云端Stable Diffusion模型推理应用(文生图,图生图)

    整体运行架构 Stable Diffusion模型搭建首先下载diffusers,然后安装,命令如下: git clone https://github.com/huggingface/diffusers.git pip install diffusers cd diffusers pip install . ubuntu和win系统下都可以 文生图,图生图代码和训练好的模型见百度网盘(训练好的模型很大,十几个g) 修改txt2jpg_in

    2024年02月09日
    浏览(44)
  • 【文生图】Stable Diffusion XL 1.0模型Full Fine-tuning指南(U-Net全参微调)

    Stable Diffusion是计算机视觉领域的一个生成式大模型,能够进行文生图(txt2img)和图生图(img2img)等图像生成任务。Stable Diffusion的开源公布,以及随之而来的一系列借助Stable Diffusion为基础的工作使得人工智能绘画领域呈现出前所未有的高品质创作与创意。 今年7月Stability A

    2024年02月03日
    浏览(37)
  • stable diffusion实践操作-文生图

    本文专门开一节写 文生图 相关的内容,在看之前,可以同步关注: stable diffusion实践操作 详细信息: 底模:SD 1.5 Lora:baihuaniang_1.0 正向提示词: 反向提示词: CLP终止层数:2 迭代步数:25 采样模式(Sampler):DPM++ 2M Karras 提示词引导数(CFG Scales):11 随机数种子(seed):2514

    2024年02月10日
    浏览(38)
  • Stable Diffusion 文生图技术原理

    图片生成领域来说,有四大主流生成模型:生成对抗模型(GAN)、变分自动编码器(VAE)、流模型(Flow based Model)、扩散模型(Diffusion Model)。 从2022年开始,主要爆火的图片生成模型是Diffusion Model(扩散模型)为主。 Diffusion Model:扩散模型,当前DALL-E, Midjourney, Stable Diffu

    2024年02月11日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包