dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

这篇具有很好参考价值的文章主要介绍了dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【笔记】Stable Diffusion模型优化入门级介绍 - LoRA vs Dreambooth vs Textural Inversion vs Hypernetworks - 知乎22年9月份一个获奖作品使AI绘画引爆全网,10月我在本地部署了一个StableDiffusionWebUI程序,然后,就没有然后了。看着我本地生成的一张张垃圾图,从小就喜欢画画又没有天赋的我心里默默留下了泪水。 控制力是AIGC…https://zhuanlan.zhihu.com/p/612992813

dreambooth的核心是用一个唯一标识符将用户想要的输入主体编码进输出域,并且在编码的过程中要避免overfitting和language drift,在推理时,当输入唯一标识符时,扩散模型就会去输出域的键值对中找出之前的主体。在操作中,同时对带有标识符的text和不带标识符的text进行finetune,主要是对text侧的编码能力的一次微调。

dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

只需要几张图,通常是3-5张,dreambooth使用prompt,输入左图训练,可以得到右图,即保证目标图像,环境图像可以根据prompt变换,照明条件的衔接和变化,同时保证对主体关键视觉特征的高保真度。

abstract:个性化的文本到图像扩散模型,对预训练的imagen进行微调,以便它将学习到唯一标识符与特定主体绑定,一旦目标被嵌入到模型的输出域中,则可以使用唯一标识符来合成在不同场景下的目标的真实图像。通过利用嵌入在模型中的语义先验以及新的autogenous class-specific prior preservation loss。

1.introduction

        文本到图像模型通过基于自然语言编写prompt实现高质量和多样化的图像合成,主要优势是从大量图像-文本对中学习到强语义先验关系。但是这类技术缺乏对特定目标的复现,主要原因是输出域的表现力是有限的,对目标再详细的描述也可能产生具有不同外观的实例。

        我们提出了一种文本-图像扩散模型的个性化方法,使其适应特定的图像生成需求。我们的目标是扩展模型的language-vision字典,使其将新词和用户想要生成的特定主体结合起来,一旦新的字典被嵌入到模型中,就可以使用这些词来合成这些主体图像。

        将主体植入模型的输出域中,从而可以利用一个独特的标识符来合成。我们提出了用罕见的标识符来代表一个给定的主体,并对一个预训练,基于文本-图像扩散模型框架进行微调。该框架分为两步,从文本中生成一个低分辨率的图像,然后应用sr扩散模型。首先对低分辨率图像进行微调,输入的图像和prompt,prompt包含一个独特的标识符,A [V] dog,为了防止overfiting和language drift,导致模型将类名dog与具体的实例联系起来,我们提出autogenous,class-specific prior preservation loss,它利用了嵌入在模型中的关于类的语义先验,并鼓励它产生与主体相同的不同实例。在第二步中,我们用输入图像的低分辨率和高分辨率版本对sr进行微调,使得模型能够保持对主体小但重要的细节的高保真度。

dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

上面这个图是对比图,给定一个特定的时钟(input images),prompt:retro style yellow alarm clock with a white clock face and a yellow number three on the right part of the clock face in the jungle(复古风格的黄色闹钟,白色钟面,钟面右侧有黄色数字3,丛林中),可以看到imagen和dalle2都很难对目标进行很好的重建,但dreambooth可以。

2.preliminaries

cascaded text-to-image diffusion models

扩散模型是一种概率生成模型(probabilistic generative models),通过对从高斯分布中采样的变量进行逐步去噪的训练来学习数据分布。具体来说,相当于学习一个固定长度的马尔科夫前向过程的反向过程。

dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

上面这个公式中x是gt,||中的就是扩散模型监督的loss,l2损失,其中第一部分中zt是去噪图像,第三个式子是扩散模型,推理时,通过DDIM在Zt中进行采样。

vocabulary encoding

文本到图像扩散模型中的text-conditioning对视觉质量和语义保真度具有高度重要性,用的是T5.

3.method

dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

将主体实例植入到模型的输出域中,并将主体与一个独特的标识符绑定。输入是三五张图和对应类型名称,经过dreambooth微调之后返回一个能够识别唯一标识符的个性化的文本扩散模型,左边是预训练的,finetune之外的,右边是finetune之后的,推理时输入[V]就能识别之前那条狗,通过finetune把狗编码进了输出域中。

dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

这个结构图不好理解,

3.1 representing the subject with a rare-token identifier

在扩散模型的字典中植入一个新的键值对,这样,给定特定主体的键就能够成这个主体的新图,并在prompt的引导下进行语义修改,如何监督这个过程?

给输入主体贴上一个[标识符][类名称],类名称是粗略的类描述符。标识符在词汇中找到相对罕见的标记。

3.2 class-specific prior preservation loss

微小数据微调产生了overfitting和language drift,语言偏移是指在大型文本语料上预训练的语言模型,在针对特定任务进行微调后,随着在目标任务上的学习改进,逐渐丧失语言的句法和语义知识。提出了prior-preservation loss来解决这两个问题。

dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

和上图对应起来,首先finetune的过程是有两部分的,输入prompt在左侧红色模块是锁定的权重进行的前向生成,这里面就是Xpr,这种先验是有效的。模型finetune中,输入的A [V] dog和A dog是共享权重的,上面这个式子包括两部分,第一部分就是对应上面红色部分,第二部分就是对应下面红色部分。右侧就是生成图的在经过一次sr。       文章来源地址https://www.toymoban.com/news/detail-499631.html

到了这里,关于dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV、NLP 论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 论文链接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    浏览(55)
  • 基于Huggingface完成text-to-image的文本生成图像实例(AIGC)--零基础

    AIGC指人工智能生成创造力(Artificial Intelligence Generated Creativity,AIGC),是一个涵盖多个领域的跨学科领域,它将人工智能和计算机科学与创造力和艺术结合起来,旨在通过算法生成具有创造力和艺术性的作品,例如图像、音乐、文本等。文本到图像转换就是其中一个重要的方

    2024年02月15日
    浏览(54)
  • 文本-图像生成(Text-to-Image Generation)的评价指标介绍——CLIPScore、TISE

    论文标题:CLIPScore: A Reference-free Evaluation Metric for Image Captioning 这一篇是针对Image Caption领域的评价指标,但是有些基于条件的Diffusion模型也使用了这个评价指标来衡量文本和生成图像的匹配程度。 本文提出的CLIPScore(下文简称CLIPS)是不需要推理的评估指标,之前常见的基于

    2023年04月08日
    浏览(46)
  • Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

    本文发表于CVPR 2023 论文地址:CVPR 2023 Open Access Repository (thecvf.com) Github官方代码地址: github.com 最近的文本到图像模型能够根据文本提示生成高质量的图像,可以覆盖广泛的物体、风格和场景。尽管这些模型具有多样的通用功能,但用户通常希望从他们自己的个人生活中综合

    2024年01月22日
    浏览(47)
  • AI作画:十分钟快速搭建自己的text-to-image diffusion models

    Diffusion Models专栏文章汇总:入门与实战 前言: 最近AI作画彻底火出圈,diffusion models的研究者也越来越多,就连搞推荐算法、搞目标检测的同学都来问我扩散模型的事情。这篇博客作为一个科普博客,手把手教大家如何用十分钟搭建一个属于自己的text-to-image stable diffusion mo

    2024年02月12日
    浏览(52)
  • 条件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

      在之前的扩散模型介绍中,入门-1,主要考虑的是无条件下的图片生成,涉及到的问题主要是如何保证图片的质量,这个过程需要考虑很多的参数项,参数设定的不同会对图片的质量和多样性产生很大的影响。    能够让diffusion模型在工业界中大放异彩的模型,比如条件

    2024年02月16日
    浏览(44)
  • chatgpt fine-tuning 官方文档

    Learn how to customize a model for your application. This guide is intended for users of the new OpenAI fine-tuning API. If you are a legacy fine-tuning user, please refer to our legacy fine-tuning guide. Fine-tuning lets you get more out of the models available through the API by providing: Higher quality results than prompting Ability to train on more exa

    2024年02月09日
    浏览(40)
  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    论文连接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 论文代码: Code 摘要 Text-to-image diffusion 以文本嵌入作为输入能生成高质量的图像,这表明 diffusion model 的表征与高级语义概念高度关联。此外, CLIP 能够赋予图像准确地开集预测(即zero-shot 分类能力),因此

    2024年02月15日
    浏览(41)
  • AI绘画后面的论文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    代码:lllyasviel/ControlNet: Let us control diffusion models! (github.com) 论文地址 最近AI绘画又双叒叕进化了,前一次还只能生成二次元,这次三次元都能生成了。这次AI绘画这么火爆的原因跟下面这篇文章脱不开关系,它将AI绘画带到了一个新的高度。 我们提出了一个神经网络结构cont

    2024年02月11日
    浏览(46)
  • 98、Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models

    github 利用预训练的2D文本到图像模型来合成来自不同姿势的一系列图像。为了将这些输出提升为一致的3D场景表示,将单目深度估计与文本条件下的绘画模型结合起来,提出了一个连续的对齐策略,迭代地融合场景帧与现有的几何形状,以创建一个无缝网格 随着时间的推移而

    2024年02月05日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包