文生图模型之Stable Diffusion

这篇具有很好参考价值的文章主要介绍了文生图模型之Stable Diffusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

参考文章地址

Stable Diffusion

解决问题:

利用文本生成图片,进一步衍生到inpainting功能

解决思路:

autoencoder文生图模型之Stable Diffusion,AIGC,stable diffusion

CLIP text encoder

tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征

问题:当输出超长prompt会分段处理?每段的权重如何处理?

UNet

text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。
文生图模型之Stable Diffusion,AIGC,stable diffusion

文生图模型之Stable Diffusion,AIGC,stable diffusion
文生图模型之Stable Diffusion,AIGC,stable diffusion

SD图生图

文生图模型之Stable Diffusion,AIGC,stable diffusion

SD Inpainting

第一种形式:
文生图模型之Stable Diffusion,AIGC,stable diffusion
第二种形式:
文生图模型之Stable Diffusion,AIGC,stable diffusion

SD loss函数

原文地址
文生图模型之Stable Diffusion,AIGC,stable diffusion
文生图模型之Stable Diffusion,AIGC,stable diffusion

SDXL

论文解析地址
原论文地址

解决问题:

改进文生图效果

解决思路:

整体改进文生图模型之Stable Diffusion,AIGC,stable diffusion

PS:模型将更多的参数放在低维度的UNet中,以减少运算量

增加坐标尺寸输入信息

增加坐标尺寸作为输入,充分利用低分辨率数据的同时,避免低分辨率图片带来的模型,且可减少局部图生成的问题,训练时采用不同分辨率混合训练
文生图模型之Stable Diffusion,AIGC,stable diffusion

增加refiner model

文生图模型之Stable Diffusion,AIGC,stable diffusion文章来源地址https://www.toymoban.com/news/detail-674543.html

到了这里,关于文生图模型之Stable Diffusion的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 文生图模型之Stable Diffusion

    参考文章地址 利用文本生成图片,进一步衍生到inpainting功能 autoencoder CLIP text encoder tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小

    2024年02月11日
    浏览(30)
  • 本地开启stable diffusion web-ui体验AIGC文生图,图生图

    目录 准备工作 主机电脑配置检查 安装以下软件 Python Git 下载stable-diffusion-webui仓库 根据显卡属性安装CUDA 2.下载stable diffusion的训练模型 启动 问题处理 模型加载问题 这是启动后界面 以下是运行时的系统状态截图 需要16G内存,8G显存(网上说是6G就够,不过跑出来图片像素会

    2024年02月14日
    浏览(44)
  • 【学习笔记】文生图模型——Stable diffusion3.0

    2.0原理才看到VAE,sd3.0就发布了,虽然还没看到源码和详解,但原来的那个小方向估计得弃。人已经麻了。 1.LDMs模型(stable diffusion≈LDMs+CLIP)   2.stable diffusion3.0模型架构图 3.主要改进地方 ①前向加噪过程:引入了新的噪声采样器用于改善Rectified Flow训练,该方法优化了噪声

    2024年04月11日
    浏览(29)
  • 最强文生图跨模态大模型:Stable Diffusion

    Stable diffusion是一种潜在的文本到图像的扩散模型。基于之前的大量工作(如DDPM、LDM的提出),并且在Stability AI的算力支持和LAION的海量数据支持下,Stable diffusion才得以成功。 Stable diffusion能够在来自 LAION- 5B 数据库子集的512x512图像上训练潜在扩散模型。与谷歌的Imagen类似,这

    2024年02月03日
    浏览(37)
  • AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画

    论文: 《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》 github: https://github.com/guoyww/animatediff/ 随着文生图模型Stable Diffusion及个性化finetune方法:DreamBooth、LoRA发展,人们可以用较低成本生成自己所需的高质量图像,这导致对于图像动画的需求越来越多

    2024年02月14日
    浏览(27)
  • diffusers加速文生图速度;stable-diffusion、PixArt-α模型

    参考: https://pytorch.org/blog/accelerating-generative-ai-3/ https://colab.research.google.com/drive/1jZ5UZXk7tcpTfVwnX33dDuefNMcnW9ME?usp=sharing#scrollTo=jueYhY5YMe22 大概GPU资源8G-16G;另外模型资源下载慢可以在国内镜像:https://aifasthub.com/ 1、加速代码 能加速到2秒左右

    2024年04月23日
    浏览(60)
  • AIGC专栏2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例

    用了很久的Stable Diffusion,但从来没有好好解析过它内部的结构,写个博客记录一下,嘿嘿。 https://github.com/bubbliiiing/stable-diffusion 喜欢的可以点个star噢。 Stable Diffusion是比较新的一个扩散模型,翻译过来是稳定扩散,虽然名字叫稳定扩散,但实际上换个seed生成的结果就完全不

    2024年02月10日
    浏览(37)
  • 【AIGC】Stable Diffusion的模型入门

    下载好相关模型文件后,直接放入Stable Diffusion相关目录即可使用,Stable Diffusion 模型就是我们日常所说的大模型,下载后放入**webuimodelsStable-diffusion**目录,界面上就会展示相应的模型选项,如下图所示。作者用夸克网盘分享了「大模型」 链接:https://pan.quark.cn/s/bd3491e5199

    2024年02月20日
    浏览(31)
  • 【AIGC】Stable Diffusion的模型微调

    为什么要做模型微调 模型微调可以在现有模型的基础上,让AI懂得如何更精确生成/生成特定的风格、概念、角色、姿势、对象。Stable Diffusion 模型的微调方法通常依赖于您要微调的具体任务和数据。 下面是一个通用的微调过程的概述 : 准备数据集 :准备用于微调的数据集。

    2024年02月19日
    浏览(32)
  • Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例

    用了很久的Stable Diffusion,但从来没有好好解析过它内部的结构,写个博客记录一下,嘿嘿。 https://github.com/bubbliiiing/stable-diffusion 喜欢的可以点个star噢。 Stable Diffusion是比较新的一个扩散模型,翻译过来是稳定扩散,虽然名字叫稳定扩散,但实际上换个seed生成的结果就完全不

    2024年02月15日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包