[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成

这篇具有很好参考价值的文章主要介绍了[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

[PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成

[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

Fig 1. 原始图像(上)和离散VAE重建图像(下)的比较。编码器对空间分辨率进行8倍的下采样。虽然细节(例如,猫毛的纹理、店面上的文字和插图中的细线)有时会丢失或扭曲,但图像的主要特征通常仍然是可识别的。我们使用8192的大词汇量来减轻信息的丢失

原文链接:[PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成 (by)小样本视觉与智能前沿

01 现有工作的不足?

文本到图像生成的重点是为固定数据集的训练找到更好的建模假设。这些假设可能涉及复杂的体系结构、辅助损失或在训练期间提供的诸如对象部分标签或分割掩码之类的侧信息。

02 文章解决了什么问题?

我们描述了一种基于转换器的简单方法,该转换器将文本和图像标记自回归地建模为单个数据流, 实现了零样本的文本到图像的生成。

03 关键的解决方案是什么?

在这项工作中,我们展示了在从互联网收集的2.5亿个图像-文本对上训练一个120亿个参数的自回归转换器,会产生一个灵活的、高保真的图像生成模型,可以通过自然语言控制。

04 主要的贡献是什么?

  • 我们研究了一种基于自回归转换器的文本到图像生成的简单方法.
  • 提出的方法能够在初级水平上执行复杂的任务,如图像到图像的翻译。这以前需要定制方法(Isola等人,2017),而不是作为单个大型生成模型的能力出现。

05 方法具体是如何实现的?

我们的目标是训练一个转换器将文本和图像标记作为单个数据流进行自回归建模。然而,对于高分辨率图像,直接使用像素作为图像标记将需要过多的内存。可能性目标倾向于优先考虑像素之间的短程依赖关系建模,因此大部分建模能力将用于捕获高频细节,而不是使物体在视觉上可识别的低频结构。

我们通过使用两阶段的训练来解决这些问题:

  1. 我们训练了一个离散变分自编码器(dVAE)1,将每个256×256 RGB图像压缩成一个32 × 32的图像标记网格,它的每个元素可以有8192个可能的值。这将变压器的上下文大小减少了192倍,而视觉质量没有大的下降(参见图1)。
  2. 我们将多达256个BPE编码的文本标记与32 × 32 = 1024个图像标记连接起来,并训练一个自回归转换器来对文本和图像标记的联合分布进行建模。

我们用因式分解对这个分布建模:

[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

产生下界:

[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

Fig 4. 变压器resblock的逐resblock梯度缩放说明。实线表示正向传播的操作序列,虚线表示反向传播的操作序列。我们根据每个resblock的梯度缩放来缩放传入梯度,并在将其添加到连续resblock的梯度之和之前取消对传出梯度的缩放。沿着标识路径的激活和梯度以32位精度存储。“filter”操作将激活梯度中的所有Inf和NaN值设置为零。如果没有这一点,当前resblock中的非有限事件将导致之前所有resblock的梯度尺度不必要地下降,从而导致下溢。

[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

06 实验结果和对比效果如何?

Fig 2. 在不同程度的可靠性下,我们的模型似乎能够以合理的方式组合不同的概念,创建动物的拟人化版本,呈现文本,并执行某些类型的图像到图像的翻译。
[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

Fig 3. 将我们模型中的样本与MS-COCO中先前方法的样本进行比较。我们的每个模型样本都是由对比模型排名的512个样本中最好的。我们不使用任何手动挑选与任何模型的标题或样品的选择。
[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

Fig 7. 人类对我们的模型(在没有温度降低的情况下评估零射击)与先前对MS-COCO标题的工作(DF-GAN)的评估。在五选一的投票中,我们模型的样本在90.0%的情况下被选为最真实的,在93.3%的情况下被选为最匹配共享标题的图像。
[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

Fig 8. 我们的模型在CUB数据集上的Zero-shot样本。

[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

Fig 9. MS-COCO和CUB的定量结果。实线表示针对原始验证集计算的FID,虚线表示针对删除重叠图像的验证集计算的FID(参见3.2节)。对于MS-COCO,我们在从验证集中采样的30,000个标题的子集上评估所有模型。对于CUB,我们在测试集中的所有唯一标题上评估所有模型。
[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

07 消融研究告诉了我们什么?

Tab 1. 我们展示了模型大小和梯度的最小压缩等级(最高128的倍数)之间的关系,这是避免在训练的前10%的训练损失中出现差距所必需的。这些结果表明,在我们的设置中,我们可以实现约85%的压缩率,与模型大小无关。
[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

Fig 6. 增加对比重排序过程中图像数量对MS-COCO标题的影响。[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成,Diffusion,论文解析,Zero-shot,Text-to-Image,图像生成,Diffusion,扩散模型

08 结论

我们研究了一种基于自回归转换器的文本到图像生成的简单方法,当它在大规模执行时。我们发现,规模可以导致改进的泛化,无论是相对于以前的领域特定方法的零射击性能,还是从单个生成模型产生的功能范围来看。我们的研究结果表明,作为规模的函数提高泛化可能是这一任务进展的有用驱动因素。

原文链接:[PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成 (by)小样本视觉与智能前沿文章来源地址https://www.toymoban.com/news/detail-515786.html

到了这里,关于[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 代码解读:Zero-shot 视频生成任务 Text2Video-Zero

    Diffusion Models视频生成-博客汇总 前言: 上一篇博客《【ICCV 2023 Oral】解读Text2Video-Zero:解锁 Zero-shot 视频生成任务》解读了这篇论文《Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators》。这篇论文的创新点比较多,含金量很高,而且开源了代码。所以这篇博客结合

    2024年02月03日
    浏览(56)
  • 论文笔记--DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

    标题:DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature 作者:Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn 日期:2023 期刊:arxiv preprint   文章提出了一种检测语料是否为LLM生成的无监督方法“DetectGPT”,该方法属于一种基于LLM的log-proba进行

    2024年02月04日
    浏览(42)
  • Metric3D:Towards Zero-shot Metric 3D Prediction from A Single Image

    参考代码:Metric3D 在如MiDas、LeReS这些文章中对于来源不同的深度数据集使用归一化深度作为学习目标,则在网络学习的过程中就天然失去了对真实深度和物体尺寸的度量能力。而这篇文章比较明确地指出了影响深度估计尺度变化大的因素就是焦距 f f f ,则对输入的图像或是

    2024年02月14日
    浏览(39)
  • 零样本参考图像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 论文笔记

    写在前面   新的一周开始了,冲冲冲~ 最近 Segment Anything 爆火,感觉一些方向可能就此终结了,比如少样本、零样本以及视频领域,但是新的方向也应该会源源不断涌出,切勿悲观~ 论文地址:Zero-shot Referring Image Segmentation with Global-Local Context Features 代码地址:https://github

    2024年02月09日
    浏览(44)
  • Adding Conditional Control to Text-to-Image Diffusion Models

    安全验证 - 知乎 知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,

    2024年02月06日
    浏览(68)
  • Adding Conditional Control to Text-to-Image Diffusion Models——【论文笔记】

    本文发表于ICCV2023  论文地址:ICCV 2023 Open Access Repository (thecvf.com) 官方实现代码:lllyasviel/ControlNet: Let us control diffusion models! (github.com)  论文提出了一种神经网络架构ControlNet,可以将空间条件控制添加到大型的预训练文本到图像扩散模型中。ControlNet将预训练好的大型扩散模型

    2024年02月01日
    浏览(41)
  • 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV、NLP 论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 论文链接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    浏览(56)
  • 文本-图像生成(Text-to-Image Generation)的评价指标介绍——CLIPScore、TISE

    论文标题:CLIPScore: A Reference-free Evaluation Metric for Image Captioning 这一篇是针对Image Caption领域的评价指标,但是有些基于条件的Diffusion模型也使用了这个评价指标来衡量文本和生成图像的匹配程度。 本文提出的CLIPScore(下文简称CLIPS)是不需要推理的评估指标,之前常见的基于

    2023年04月08日
    浏览(46)
  • 基于Huggingface完成text-to-image的文本生成图像实例(AIGC)--零基础

    AIGC指人工智能生成创造力(Artificial Intelligence Generated Creativity,AIGC),是一个涵盖多个领域的跨学科领域,它将人工智能和计算机科学与创造力和艺术结合起来,旨在通过算法生成具有创造力和艺术性的作品,例如图像、音乐、文本等。文本到图像转换就是其中一个重要的方

    2024年02月15日
    浏览(55)
  • Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

    本文发表于CVPR 2023 论文地址:CVPR 2023 Open Access Repository (thecvf.com) Github官方代码地址: github.com 最近的文本到图像模型能够根据文本提示生成高质量的图像,可以覆盖广泛的物体、风格和场景。尽管这些模型具有多样的通用功能,但用户通常希望从他们自己的个人生活中综合

    2024年01月22日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包