DreamBooth论文解读

这篇具有很好参考价值的文章主要介绍了DreamBooth论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


论文: 《DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation》
project: https://dreambooth.github.io/
第三方代码: https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

摘要

文本生成图像模型取得不错进展,但是无法根据提供的参考集生成新模态。DreamBooth利用预训练模型语义先验及新的特定目标先验保留损失合成未出现在参考图中的各种场景、姿势、视角、光照下目标。

问题

现有文本生成图片模型无法依据参考图生成该目标。

算法

仅需3-5张图像不需要任何文本描述,即可通过各种prompt引导生成目标变体。

3.1 文生图扩散模型

损失函数如式1,对于初始噪声 ϵ ∈ N ( 0 , I ) \epsilon \in N(0, I) ϵN(0,I),x为真值。
DreamBooth论文解读

3.2 个性化文生图模型

常规思路是通过少量数据集进行finetune,但是容易出现过拟合及模式坍塌。但是作者发现大规模文生图扩散模型擅长整合新信息且不会遗忘先验知识,也不会过拟合到小规模训练集。
作者设计prompt为“a [identifier] [class noun]”,[identifier]为目标相关固定标识符,[class noun]为目标类别描述,比如猫、狗。如果不使用类别描述或使用错误类别描述将导致增加训练时间或者发生语言偏移,进而降低表现。
标识符使用常见单词或随机字母,效果相似,因为每个字母分别进行tokenize,因此作者使用词汇中不常见token f ( V ^ ) f( \hat V) f(V^)转换进文本空间 V ^ \hat V V^

3.3 特定类别先验保留损失

直接finetune所有模型所有层将导致语言偏移;同时可能导致输出多样性降低。
针对上述问题作者提出一种自生特定类别先验损失用于保证多样性同时抑制语言偏移。该方法本质上使用生成样本监督模型。损失函数如式2,其中 C p r C_{pr} Cpr仅包含类别信息,图3展示该过程。
DreamBooth论文解读
DreamBooth论文解读

实验

评估方式

  1. CLIP-I:CLIP的提取生成图与真图的embedding,计算两者之间的余弦相似度;
  2. DINO:ViT- S/16 DINO提取生成图与真图的embedding,计算两者之间的余弦相似度;
  3. CLIP-T:计算prompt机图像的CLIP embedding之间余弦相似度

比较

DreamBooth论文解读
表1作者比较DreamBooth超越Textual Inversion,同时使用Imagen优于使用Stable Diffusion,
表2展示人工评测结果,在目标精确度以及prompt一致性上DreamBooth优于Textual Inversion;结合表1,量化指标微小差异,对用户直观感受差异巨大。可视化结果如图4.
DreamBooth论文解读
DreamBooth论文解读

消融实验

PPL

DreamBooth论文解读
作者比较prior preservation loss (PPL)影响,结果如表3,评估方式为PRES,计算先验类别随机生成目标与真实图指定目标之间DINO embedding距离,该指标越高表明目标多样性不足,发生模式坍塌。同时作者使用平均LPIPS进行多样性评估(DIV)。作者发现使用PPL具有更高多样性,可视化结果如图6。
DreamBooth论文解读

类别先验

使用类别先验,可生成各种纹理目标;使用错误类别,将导致生成奇怪物体;不使用类别先验,导致模型难以拟合,进而生成错误目标。实验结果如表4。
DreamBooth论文解读

应用

重构。可生成在不同环境中目标,如图7。
DreamBooth论文解读

艺术再现。如图8
新颖视角生成。如图8,仅使用4张正面图可生成未见过视角:侧面、上面、下面。
属性修改。如图8,输入prompt为:“a cross of a [V] dog and a [target species]”
DreamBooth论文解读

限制

DreamBooth论文解读
图9为一些失败案例。
作者归因于:
a.较弱先验,或者目标与特定概念很少出现在训练集;
b.环境与目标外观耦合;
c.过拟合到真实图片,当prompt与真实图相似时易出现。
同时对于一些比较少见目标,模型难以生成该目标多个变体。

结论

作者提出的DreamBooth,仅需要3-5张目标图片,通过prompt引导就可生成该目标变体。该方法核心为将该目标与特定标识符绑定。文章来源地址https://www.toymoban.com/news/detail-491809.html

到了这里,关于DreamBooth论文解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 详细解读Diffuser DreamBooth代码

    Diffusion Models专栏文章汇总:入门与实战  前言: 之前的博客《如何定制属于自己的stable diffusion?Dreambooth原理详解和代码实战》详细解读了dreambooth,不过那篇博客的代码讲解部分主要基于mmagic,不过瘾。这篇博客讲解一下diffuser的drembooth的部分。 目录 参数详解

    2024年02月06日
    浏览(25)
  • Prompt-Tuning——深度解读一种新的微调范式

    作者:王嘉宁  邮箱:lygwjn@126.com 转载请注明出处:https://wjn1996.blog.csdn.net/article/details/120607050 本博客针对Prompt进行的综述博客,暂时为半成品,持续更新中,若对您的科研和工作有所帮助,期待您的收藏与引用。 作者简介:王嘉宁,华东师范大学 数据学院 博士生,研究

    2024年02月15日
    浏览(34)
  • 【提示学习论文七】Visual Prompt Tuning论文原理

    这篇文章于2022年发表在ECCV(European Conference on Computer Vision),作者是Menglin Jia, Luming Tang,Bor-Chun Chen, Claire Cardie, Serge Belongie,Bharath Hariharan, Ser-Nam Lim。 VPT是一种有效的用于大规模Transformer的视觉微调,只需要在输入空间引入少量可训练参数,同时冻结backbone。 目前适应预训练模

    2024年01月17日
    浏览(48)
  • [论文笔记]P-tuning

    今天带来第四篇大模型微调的论文笔记GPT Understands, Too。 本篇工作提出的方法是P-tuning,使用可训练的连续提示嵌入,使GPT在NLU上表现比传统的全量微调的GPT更好的效果。P-tuning还提高了BERT在少样本和监督设定下的性能,大幅减少了提示工程的需求。 根据训练目标,预训练语

    2024年02月07日
    浏览(32)
  • [论文阅读笔记75]P-Tuning v2

    题目 论文作者与单位 来源 年份 P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks Xiao Liu等Tsinghua University 清华大学 2021 Citations, References 论文链接:https://arxiv.org/pdf/2110.07602.pdf [1] Liu X , Ji K , Fu Y , et al. P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Unive

    2024年02月16日
    浏览(30)
  • 论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

    ptuning - Prefix-Tuning - soft promt - p tuning v2 \\\"The Power of Scale for Parameter-Efficient Prompt Tuning\\\" EMNLP 2021 Google Brain 人能理解的不一定是模型需要的,所以不如让模型自己训练所需的prompt。 论文作者:Brian Lester, Rami Al-Rfou Google Blog: \\\"Guiding Frozen Language Models with Learned Soft Prompts\\\" Github Repo J

    2024年02月11日
    浏览(35)
  • [论文阅读笔记76]GPT Understands, Too(P-tuning)

    题目 论文作者与单位 来源 年份 GPT Understands, Too 清华大学 Citations, References 论文链接:https://arxiv.org/pdf/2103.10385.pdf 论文代码: 研究主题 问题背景 核心方法流程 亮点 数据集 结论 论文类型 微调大模型 采用传统微调的gpt在自然语言理解(NLU)方面未能取得良好的效果

    2024年02月09日
    浏览(43)
  • 【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式

    【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式 FesianXu 20230928 at Baidu Search Team Prompt Tuning是一种PEFT方法(Parameter-Efficient FineTune),旨在以高效的方式对LLM模型进行下游任务适配,本文简要介绍Prompt Tuning方法,希望对读者有所帮助。如有谬误请见谅并联系指

    2024年02月07日
    浏览(40)
  • 【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【开源】 【核心思想】 本文的核心思想是提出了一种用于医学图像分割的参数高效的提示调整(Prompt Tuning)方法。这种方法基于预训练的神经网络,通过插入可学习的

    2024年01月17日
    浏览(46)
  • 论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE

    微软24年1月的paper AI在如农业等特定领域的应用仍然有限,这是由于缺乏专门的训练数据 虽然AI已被用来从农业的卫星图像和传感器数据中派生见解,但技术在农民中的采用仍然缓慢 尽管GPT-4和Bing是寻找信息的强大工具,但它们可能不会为有关其作物和家畜的非常具体问题的

    2024年04月09日
    浏览(23)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包