论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

这篇具有很好参考价值的文章主要介绍了论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

论文链接
代码链接

介绍

  • 背景:Stable Diffusion在合成高分辨率图片方面表现出色,但是仍然需要提高
  • 本文提出了SD XL,使用了更大的UNet网络,以及增加了一个Refinement Model,以进一步提高图片质量。

提高SD的措施

  • 用户偏好调查比较
    论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,论文阅读,stable diffusion
    可以看到,在不增加Refiner模型的情况下,SD XL的效果已经比SD 1.5和2.1好很多了。
  • SD XL的模型结构
    论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,论文阅读,stable diffusion
    可以看到,SD XL由一个SD base模型和一个Refiner模型组成,二者共用一个提示词输入,前者的输出同时也是后者的输入。Refiner模型其实是一个图片编辑模型。
  1. Architecture & Scale

    论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,论文阅读,stable diffusion

    • transformer block方面,忽略高层级的块,而使用低层级的2和10特征块(不懂)
    • 使用两个Text Encoder并将它们的输出特征拼接到一起
    • 额外使用了Pooled text emb作为条件输入(不懂)
  2. Micro-Conditioning

    • Conditioning the Model on Image Size:过去的方法要么选择忽略小于特定尺寸的图片,要么选择放缩图片,前者忽略了大量的图片,后者可能造成图片模糊。SD XL中,将图片尺寸也当做条件输入,这样在推理阶段,用户就可以指定生成图片的尺寸,如图5所示。
      论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,论文阅读,stable diffusion

    • Conditioning the Model on Cropping Parameters

      由于SD 1和2系列使用了图片裁剪的方式进行数据增强,导致了生成的图片中有些物体只展现了一部分,如图4所示。SD XL通过将左上方 的裁剪坐标当做条件输入,让模型学到了裁剪坐标的信息。在推理的过程中,将裁剪坐标条件输入设置为(0,0)即可输出物体在图片中间的图片。
      论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,论文阅读,stable diffusion
      论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,论文阅读,stable diffusion

  3. Multi-Aspect Training
    常见情况下SD模型的输出是一个方形的图片,但是在实际应用中,图片的尺寸比例会有不同的要求。为了适应这一需求,SD XL将训练图片按照长宽比划分为不同的数据桶。在训练过程中,每个batch中的图片都来自同一个桶,每个训练步数中的数据在不同桶中之间交替选择。此外,桶的中数据的尺寸也被作为条件输入。

  4. Improved Autoencoder
    SD XL重新训练了一个更大的autoencoder,可以提高生成图片的局部高频细节。从表3中可以看到,使用提升后的autoencoder后,SD XL的重构性能在多个方面都比SD 1和2有所提高。
    论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,论文阅读,stable diffusion

  5. Putting Everything Together
    最终的SD XL是使用前面的所有策略共同训练得到的。
    Refinement Stage:使用上述方法训练的模型有些时候仍然会生成低质量的图片,因此为了提高生成高分辨率的图片的能力,SD XL使用图片编辑技术,添加了一个Refiner模型,这个模型是可选的。

未来的工作

作者认为未来还值得研究方向如下:文章来源地址https://www.toymoban.com/news/detail-838653.html

  • 单阶段:SD XL是一个两阶段的模型,时间和空间开销更大。研究一个同样效果或更好效果的单阶段模型很有必要。
  • 文本合成:SD XL中采用了更多和更大的text encoder,也取得了更好的效果。使用byte-level tokenizers [52, 27]或者只是使用更大规模的文本编码器是提高SD XL文本处理能力的可能途径。
  • 结构:作者们尝试过一些Transformer-based的模型,比如UViT [16] and DiT [33],但是没有发现好的效果。然而,作者们仍然认为,Transformer为主的模型是一个方向。(新的Stable Diffusion 3正是采用了DiT [33]的技术,说明作者们坚持的优化方向是正确的)
  • 蒸馏:使用模型蒸馏技术,减小模型的体积,减少空间和时间开销。事实上,SD系列一直有蒸馏版本的模型,比如SD XL Turbo。
  • SD XL是在离散时间模式下训练的,需要偏移噪声预测以生成美观的图片。EDM-framework是一个很有潜力的工作,其支持连续时间,可以提高采样灵活性而不需要噪音校对。(不是很懂)

其它

  • 重要的相关工作
    • 图片编辑模型:SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

到了这里,关于论文阅读:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • high-resolution image synthesis with latent diffusion models

    如何通俗理解扩散模型? - 知乎 泻药。实验室最近人人都在做扩散,从连续到离散,从CV到NLP,基本上都被diffusion洗了一遍。但是观察发现,里面的数学基础并不是模型应用的必须。其实大部分的研究者都不需要理解扩散模型的数学本质,更需要的是对… https://zhuanlan.zhihu.

    2023年04月19日
    浏览(29)
  • 4、High-Resolution Image Synthesis with Latent Diffusion Models

    github地址 diffusion model明显的缺点是耗费大量的时间、计算资源,为此,论文将其应用于强大的预训练自编码器的潜在空间 ,这是首次允许在复杂性降低和细节保存之间达到一个近乎最佳的点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意层,将扩散模型转化为

    2024年02月12日
    浏览(24)
  • 【AIGC】5、Stable Diffusion 原型 | High-Resolution Image Synthesis with Latent Diffusion Models

    论文:High-Resolution Image Synthesis with Latent Diffusion Models 代码:https://github.com/CompVis/latent-diffusion 出处:CVPR2022 | 慕尼黑大学 贡献: 提出了潜在扩散模型,通过将像素空间转换到潜在空间,能够在保持图像生成效果的同时降低计算量 相比纯粹的 transformer-based 方法,本文提出的方

    2024年02月09日
    浏览(33)
  • High-resolution image reconstruction with latent diffusion models from human brain activity

    论文地址:https://doi.org/10.1101/2022.11.18.517004 项目地址:https://sites.google.com/view/stablediffusion-with-brain/ 从人类大脑活动中重建视觉体验,为理解大脑如何代表世界,以及解释计算机视觉模型和我们的视觉系统之间的联系提供了独特的方法。虽然深度生成模型最近被用于这一任务,

    2023年04月25日
    浏览(40)
  • 论文阅读--Diffusion Models for Reinforcement Learning: A Survey

    一、论文概述 本文主要内容是关于在强化学习中应用扩散模型的综述。文章首先介绍了强化学习面临的挑战,以及扩散模型如何解决这些挑战。接着介绍了扩散模型的基础知识和在强化学习中的应用方法。然后讨论了扩散模型在强化学习中的不同角色,并对其在多个应用领域

    2024年03月20日
    浏览(39)
  • 【论文阅读】Latent Consistency Models (LDMs)、LCM-LoRa

    提出 Latent Consistency Models (LCMs) ,图像生成速度更快、质量更好. 提出一种简单高效的 one-stage guided consistency distillation 方法,用极少的采样步数蒸馏 Stable Diffusion ,进一步提出 skipping-step 技术加快收敛过程. 介绍针对 LCMs 的微调方法. 使用 empirical PF-ODE 表示模型的逆扩散过程:

    2024年01月16日
    浏览(29)
  • Latent Diffusion(CVPR2022 oral)-论文阅读

    论文: 《High-Resolution Image Synthesis with Latent Diffusion Models》 github: https://github.com/CompVis/latent-diffusion 为了使得DM在有限计算资源下训练,同时保留其生成质量及灵活性,作者将其应用于预训练编解码器的隐空间。基于表征训练扩散模型达到降低计算量及细节保留的最优点。作者

    2024年02月11日
    浏览(28)
  • 扩散模型相关论文阅读,扩散模型和知识蒸馏的结合提升预测速度:Progressive Distillation for Fast Sampling of Diffusion Models

    谷歌research的成果,ICLR 2022 https://arxiv.org/abs/2202.00512 tenserflow官方开源代码: https://github.com/google-research/google-research/tree/master/diffusion_distillation pytorch非官方代码:https://github.com/lucidrains/imagen-pytorch 1.扩散模型虽然取得了很好的效果,但是预测速度慢。 2.作者提出了一种逐步蒸馏

    2024年02月16日
    浏览(26)
  • 【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    这篇文章提出了一个高效的用于文本到图像生成模型架构,整体思路比较直白,在不损失图像生成质量的情况下,相比于现有T2I模型(SD1.4,SD2.1等)大大节约了成本。附录部分给了一些有趣的东西,比如FID的鲁棒性 整篇文章还有点疑惑,比如阶段B的训练,使用的模型;节省

    2024年02月21日
    浏览(30)
  • 论文阅读 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer应用到low-level任务 low-level task 如deblurringdenoisingdehazing等任务多是基于CNN做的,这样的局限性有二: 第一是卷积操作的感受野受限,很难建立起全局依赖, 第二就是卷积操作的卷积核初始化是固定的,而attention的设计可以通过像素之间的关系自适

    2024年02月05日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包