【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

这篇具有很好参考价值的文章主要介绍了【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

论文地址:https://arxiv.org/abs/2208.12242v1
项目地址:https://dreambooth.github.io/

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth 主要的工作目的是实现保留主体的细致特征的情况下使用文本对其进行环境等编辑。整体方法为给定一个主体的3-5个图像和文本提示作为输入,微调预训练的文生图模型(Imagen,但不限于特定模型)用于合成主体在不同场景中的全新照片级图像。

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

该框架分两步操作(见上图);

1)从文本生成低分辨率图像(64×64)

利用3-5张输入图像文本提示微调低分辨率文生图模型,并且为了防止过度拟合和语言漂移提出了自发性的**类别区分的先验保留损失(Class-specific Prior Preservation Loss)**来鼓励生成与主体相同的类的不同实例。

对于文本提示,本文使用“a [identifier] [class noun]”的形式,其中[identifier]是与主体关联的唯一标识符,[class noun]表示主体类别,如cat、dog等。对于[identifier]作者尝试使用描述性词汇,如“蓝色的”、“特别的”等,以及随机字符数字组合,如“xxy5sy00”,但是都会混杂有语言模型对这些词汇或字母的先验知识。最终,作者的方法是在词汇表中找到相对罕见的tokens,然后将这些tokens利用de-tokenizer反转到文本空间中成为唯一标识符的候选。

作者使用T5-XXL语言模型生成文本提示P的条件嵌入c。首先使用SentencePiece标记器f使用学习的词汇表将文本tokenize,获得固定长度的向量f§,语言模型以f§为条件,以产生嵌入c=Γ(f§)。最后,文生图扩散模型直接以c为条件。

语言漂移是语言模型常在fine-tuning时遇到的问题,即在较少样本上fine-tuning时,导致某个词汇失去其原有的语义。类别区分的先验保留损失即利用原本预训练的模型根据无identifier的文本提示生成的图像作为Ground Truth训练来保留其原本预训练模型对于类别的先验知识。下面两幅图可以看到该损失对于防止过度拟合(上图)和语言漂移(下图)的效果。

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

2)应用超分辨率(SR)扩散模型(1024×1024)
没有微调的超分网络,由于对主体实例的纹理细节不熟悉或缺少信息,会导致生成伪影。作者发现将64×64->256×256的超分网络fine-tuneng对于大部分主体是必不可少的,而256×256->1024×1024的超分网络的fine-tuneng对于有一些极细细节的例子是有用的。同时作者发现噪声增强的水平太高会导致主体和环境的高频图案的模糊。因此在微调256×256 SR模型期间作者将噪声增强水平从10-3降低到10-5。下图可以看出噪声强度和fintunig的效果。

【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation文章来源地址https://www.toymoban.com/news/detail-445728.html

到了这里,关于【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV、NLP 论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 论文链接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    浏览(55)
  • Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

    本文发表于CVPR 2023 论文地址:CVPR 2023 Open Access Repository (thecvf.com) Github官方代码地址: github.com 最近的文本到图像模型能够根据文本提示生成高质量的图像,可以覆盖广泛的物体、风格和场景。尽管这些模型具有多样的通用功能,但用户通常希望从他们自己的个人生活中综合

    2024年01月22日
    浏览(47)
  • AI作画:十分钟快速搭建自己的text-to-image diffusion models

    Diffusion Models专栏文章汇总:入门与实战 前言: 最近AI作画彻底火出圈,diffusion models的研究者也越来越多,就连搞推荐算法、搞目标检测的同学都来问我扩散模型的事情。这篇博客作为一个科普博客,手把手教大家如何用十分钟搭建一个属于自己的text-to-image stable diffusion mo

    2024年02月12日
    浏览(52)
  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    论文连接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 论文代码: Code 摘要 Text-to-image diffusion 以文本嵌入作为输入能生成高质量的图像,这表明 diffusion model 的表征与高级语义概念高度关联。此外, CLIP 能够赋予图像准确地开集预测(即zero-shot 分类能力),因此

    2024年02月15日
    浏览(41)
  • AI绘画后面的论文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    代码:lllyasviel/ControlNet: Let us control diffusion models! (github.com) 论文地址 最近AI绘画又双叒叕进化了,前一次还只能生成二次元,这次三次元都能生成了。这次AI绘画这么火爆的原因跟下面这篇文章脱不开关系,它将AI绘画带到了一个新的高度。 我们提出了一个神经网络结构cont

    2024年02月11日
    浏览(46)
  • Text-to-Image with Diffusion models的巅峰之作:深入解读​ DALL·E 2​

    Diffusion Models专栏文章汇总:入门与实战   前言: DALL·E 2、imagen、GLIDE是最著名的三个text-to-image的扩散模型,是diffusion models第一个火出圈的任务。这篇博客将会详细解读DALL·E 2《Hierarchical Text-Conditional Image Generation with CLIP Latents》的原理。 目录 背景知识:CLIP简介 方法概述

    2024年02月13日
    浏览(32)
  • tune a video:one-shot tuning of image diffusion models for text-to-video generation

    【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!_哔哩哔哩_bilibili 【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!共计2条视频,包括:[论文代码阅读]T

    2023年04月11日
    浏览(51)
  • 【文生图】Stable Diffusion XL 1.0模型Full Fine-tuning指南(U-Net全参微调)

    Stable Diffusion是计算机视觉领域的一个生成式大模型,能够进行文生图(txt2img)和图生图(img2img)等图像生成任务。Stable Diffusion的开源公布,以及随之而来的一系列借助Stable Diffusion为基础的工作使得人工智能绘画领域呈现出前所未有的高品质创作与创意。 今年7月Stability A

    2024年02月03日
    浏览(51)
  • 基于Huggingface完成text-to-image的文本生成图像实例(AIGC)--零基础

    AIGC指人工智能生成创造力(Artificial Intelligence Generated Creativity,AIGC),是一个涵盖多个领域的跨学科领域,它将人工智能和计算机科学与创造力和艺术结合起来,旨在通过算法生成具有创造力和艺术性的作品,例如图像、音乐、文本等。文本到图像转换就是其中一个重要的方

    2024年02月15日
    浏览(54)
  • 文本-图像生成(Text-to-Image Generation)的评价指标介绍——CLIPScore、TISE

    论文标题:CLIPScore: A Reference-free Evaluation Metric for Image Captioning 这一篇是针对Image Caption领域的评价指标,但是有些基于条件的Diffusion模型也使用了这个评价指标来衡量文本和生成图像的匹配程度。 本文提出的CLIPScore(下文简称CLIPS)是不需要推理的评估指标,之前常见的基于

    2023年04月08日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包