Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

这篇具有很好参考价值的文章主要介绍了Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文发表于CVPR 2023

论文地址:CVPR 2023 Open Access Repository (thecvf.com)

Github官方代码地址: github.com

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】,论文笔记,论文阅读,人工智能,stable diffusion,图像处理,深度学习

 一、Intorduction

最近的文本到图像模型能够根据文本提示生成高质量的图像,可以覆盖广泛的物体、风格和场景。尽管这些模型具有多样的通用功能,但用户通常希望从他们自己的个人生活中综合特定的概念。例如,亲人,如家人,朋友,宠物,或个人物品和地方,如新沙发或最近参观的花园,都是有趣的概念。用户往往希望生成与个人生活紧密相关的内容,而这些通常不会出现在大规模训练数据中。

所以产生了对模型进行定制化的需求,当前个性化模型主要存在以下一些挑战:

  • 遗忘问题: 微调模型时,存在着它可能会忘记或改变已有知识的风险。

  • 过拟合问题: 由于训练样本的数量有限,模型可能会过拟合这些样本,并导致生成的内容缺乏多样性。

  • 复合微调: 如何将多个新概念融入模型,以便可以自由组合它们,比如在图像中合成“月门”前的宠物狗。

本文提出了一种微调扩散模型的方法,自定义扩散的文本到图像的扩散模型。此方法在计算和存储效率上都进行了优化。为了克服上述挑战,我们确定了模型权重的一个小子集,即从文本到交叉注意层中潜在特征的键和值映射。微调这些就足以用新概念更新模型。为了防止模型遗忘,我们使用一小组具有相似字幕的真实的图像作为目标图像。我们还在微调过程中引入了增强,这导致了更快的收敛和更好的结果。为了注入多个概念,我们的方法支持同时训练两者,或者分别训练它们,然后合并。

二、Related Work

深度生成模型:

主流的生成模型包括GAN(生成对抗网络),VAE(变分自编码器),自回归模型,基于流量的模型和扩散模型。这些模型可以以不同类型的条件作为输入,如类别标签,图像或文本提示,以增强生成结果的可控性。

文本条件合成:

之前的研究仅局限于有限的类别。最近的模型在超大规模数据上训练,显示出了显著的泛化能力,但在对特定实例(如个人玩具或稀有类别)的生成上仍有限。

图像编辑和模型微调:

用户常常希望编辑特定的单个图像,而不是随机生成新图像。与预训练模型的表示编辑相关的挑战在于:如何通过逐图像或逐编辑优化来实现。

迁移学习:

预训练模型可以通过迁移学习适应新的数据分布,有研究专注于将模型从一个域调整到另一个域,但这常常导致原有概念的灾难性遗忘。

调整文本到图像模型的特点:

与类似的工作(如DreamBooth和Textual Inversion)相比,本研究关注在不遗忘既有概念的情况下微调模型以获取多个新概念。并且本研究只微调交叉注意层参数的一个子集,减少了微调所需时间。

我们提出了一种面对多个概念组合微调的挑战性场景的解决方案,实现了减少微调参数数量,从而加快微调过程,通过自动度量和人类偏好研究验证了所提方法的效果。

三、Method

给定一个预训练的文本到图像扩散模型,我们的目标是在模型中嵌入一个新的概念,只要给出四张图像和相应的文本描述。微调后的模型应该保留其先验知识,允许基于文本提示的新概念的新一代,这篇文章主要还是在Stable-Diffusion的基础上进行微调的,关于Stable-Diffusion这里就不过多介绍。

我们提出的模型微调方法,如下图所示,只更新模型交叉注意层中的一小部分权重。此外,我们使用一个正则化集的真实的图像,以防止过度拟合的目标概念的几个训练样本。

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】,论文笔记,论文阅读,人工智能,stable diffusion,图像处理,深度学习

权重的变化率

作者通过分析目标数据集上的微调模型中每一层的参数变化,发现更新的参数主要来源于以下三类:

这些参数来自三种类型的层-(1)交叉注意(文本和图像之间),(2)自我注意(图像本身),以及(3)其余参数,包括扩散模型U-Net中的卷积块和归一化层。

正如我们所看到的,交叉注意层参数与其他参数相比具有相对较高的Δ。此外,交叉注意层仅占模型中总参数计数的5%。这表明它在微调过程中起着重要作用,我们在我们的方法中利用了这一点。

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】,论文笔记,论文阅读,人工智能,stable diffusion,图像处理,深度学习

 模型微调:

交叉注意块根据条件特征修改网络的潜在特征,即,在文本到图像扩散模型的情况下的文本特征。给定文本特征c和潜在图像特征f,Q=Wqf,K=Wkc,V=Wvc。

其中Wq、Wk和Wv分别将输入映射到查询、键和值特征,d是键和查询特征的输出维度。潜在特征然后用注意力块输出更新。微调的任务是更新从给定的文本到图像分布的映射,文本特征仅输入到交叉注意块中的Wk和Wv投影矩阵。因此,我们建议在微调过程中仅更新扩散模型的Wk和Wv参数。

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】,论文笔记,论文阅读,人工智能,stable diffusion,图像处理,深度学习

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】,论文笔记,论文阅读,人工智能,stable diffusion,图像处理,深度学习

 

多概念组合微调

其实实现多个概念组合微调的基本原理和单个没有太大区别。为了对多个概念进行微调,我们将每个概念的训练数据集组合起来,并使用我们的方法联合训练它们。为了表示目标概念,我们使用不同的修饰符标记V_i,用不同的罕见标记初始化,并使用每层的交叉注意键和值矩阵沿着对其进行优化。

四、Experiments

数据集: 我们在十个目标数据集上进行实验,这些数据集涵盖了各种类别和不同的训练样本。它由两个场景类别、两个宠物和六个对象组成。

评价指标:

(1)Image-alignment(图像对齐),即,使用CLIP图像特征空间中的相似性,生成的图像与目标概念的视觉相似。

(2)Text-alignment,使用CLIP特征空间中的文本-图像相似性,生成的图像与给定提示的文本对齐。

(3)KID ,用于从LAION-400 M检索的类似概念的500幅真实的图像的验证集,以测量目标概念上的过拟合(例如,在一个实施例中,V dog)和忘记现有的相关概念(例如,狗)。

  (4)人类偏好研究。

与Dreambooth、Textual Inversion进行比较:

单一概念微调:

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】,论文笔记,论文阅读,人工智能,stable diffusion,图像处理,深度学习

论文中提到:第一行:代表水彩画艺术风格的概念。我们的方法还可以在背景中生成山脉,DreamBooth和Textual Inversion忽略了这些山脉。第二行:改变背景场景。我们的方法和DreamBooth执行类似,比文本反转更好。第三行:添加另一个对象,例如,一张带目标桌子的橙子沙发我们的方法成功地添加了另一个对象。我们在我们的网站上展示更多的样品。

多概念微调:

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】,论文笔记,论文阅读,人工智能,stable diffusion,图像处理,深度学习

论文中提到:第一行:我们的方法在遵循文本条件的同时与个人猫和椅子具有更高的视觉相似性。第二行:DreamBooth有时会忽略猫,而我们的方法会同时生成猫和木盆。第三行:我们的方法更好地保持了与目标图像的视觉相似性。第四排:目标桌子和椅子一起在花园里。

如此相比之下,相对于Dreambooth、Textual Inversion而言,论文所提出的方法是相对优异的。

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】,论文笔记,论文阅读,人工智能,stable diffusion,图像处理,深度学习

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】,论文笔记,论文阅读,人工智能,stable diffusion,图像处理,深度学习 

上图是基于文本和图像对齐所作的比较,左边的图是单个概念微调,右边则是多个概念的微调。与其他方法相比,论文所提的方法位于更沿着右上角(方差较小)。考虑到图像对齐与文本对齐之间的权衡,我们的方法与baselines相当或更好。 

五、Discussion

这篇论文的主要创新点在于它仅仅通过改变交叉注意力层的一小部分参数(K、V)以实现个性化微调Stable-Diffuison。相对于Dreambooth微调整个模型的做法而言,无疑是大大减小了训练时间以及微调后的权重模型(3GB——75MB),并且实现了多个概念的个性化微调。文章来源地址https://www.toymoban.com/news/detail-813987.html

到了这里,关于Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI作画:十分钟快速搭建自己的text-to-image diffusion models

    Diffusion Models专栏文章汇总:入门与实战 前言: 最近AI作画彻底火出圈,diffusion models的研究者也越来越多,就连搞推荐算法、搞目标检测的同学都来问我扩散模型的事情。这篇博客作为一个科普博客,手把手教大家如何用十分钟搭建一个属于自己的text-to-image stable diffusion mo

    2024年02月12日
    浏览(31)
  • Adding Conditional Control to Text-to-Image Diffusion Models——【论文笔记】

    本文发表于ICCV2023  论文地址:ICCV 2023 Open Access Repository (thecvf.com) 官方实现代码:lllyasviel/ControlNet: Let us control diffusion models! (github.com)  论文提出了一种神经网络架构ControlNet,可以将空间条件控制添加到大型的预训练文本到图像扩散模型中。ControlNet将预训练好的大型扩散模型

    2024年02月01日
    浏览(30)
  • Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器

    Paper: https://arxiv.org/abs/2303.13439 Project: https://github.com/Picsart-AI-Research/Text2Video-Zero 原文链接:Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器(by 小样本视觉与智能前沿) 目录 最近的text-to-video生成方法依赖于计算量大的训练,并且需要大规模的视频数据集。 在本文中,我

    2024年02月11日
    浏览(30)
  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    论文连接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 论文代码: Code 摘要 Text-to-image diffusion 以文本嵌入作为输入能生成高质量的图像,这表明 diffusion model 的表征与高级语义概念高度关联。此外, CLIP 能够赋予图像准确地开集预测(即zero-shot 分类能力),因此

    2024年02月15日
    浏览(29)
  • 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV、NLP 论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 论文链接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    浏览(38)
  • [PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成

    Fig 1. 原始图像(上)和离散VAE重建图像(下)的比较。编码器对空间分辨率进行8倍的下采样。虽然细节(例如,猫毛的纹理、店面上的文字和插图中的细线)有时会丢失或扭曲,但图像的主要特征通常仍然是可识别的。我们使用8192的大词汇量来减轻信息的丢失 原文链接:[PMLR 2021]Ze

    2024年02月11日
    浏览(30)
  • Text-to-Image with Diffusion models的巅峰之作:深入解读​ DALL·E 2​

    Diffusion Models专栏文章汇总:入门与实战   前言: DALL·E 2、imagen、GLIDE是最著名的三个text-to-image的扩散模型,是diffusion models第一个火出圈的任务。这篇博客将会详细解读DALL·E 2《Hierarchical Text-Conditional Image Generation with CLIP Latents》的原理。 目录 背景知识:CLIP简介 方法概述

    2024年02月13日
    浏览(21)
  • 条件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

      在之前的扩散模型介绍中,入门-1,主要考虑的是无条件下的图片生成,涉及到的问题主要是如何保证图片的质量,这个过程需要考虑很多的参数项,参数设定的不同会对图片的质量和多样性产生很大的影响。    能够让diffusion模型在工业界中大放异彩的模型,比如条件

    2024年02月16日
    浏览(30)
  • AI绘画后面的论文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    代码:lllyasviel/ControlNet: Let us control diffusion models! (github.com) 论文地址 最近AI绘画又双叒叕进化了,前一次还只能生成二次元,这次三次元都能生成了。这次AI绘画这么火爆的原因跟下面这篇文章脱不开关系,它将AI绘画带到了一个新的高度。 我们提出了一个神经网络结构cont

    2024年02月11日
    浏览(36)
  • 【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

    论文地址:https://arxiv.org/abs/2208.12242v1 项目地址:https://dreambooth.github.io/ DreamBooth 主要的工作目的是实现保留主体的细致特征的情况下使用文本对其进行环境等编辑。整体方法为给定一个主体的3-5个图像和文本提示作为输入,微调预训练的文生图模型(Imagen,但不限于特定模型

    2024年02月05日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包