【论文阅读】(DALLE-3)Improving Image Generation with Better Captions

这篇具有很好参考价值的文章主要介绍了【论文阅读】(DALLE-3)Improving Image Generation with Better Captions。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

(DALLE-3)Improving Image Generation with Better Captions

引用: Betker J, Goh G, Jing L, et al. Improving image generation with better captions[J]. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2023, 2(3): 8.

论文链接: https://arxiv.org/abs/2212.09748

简介

论文展示了通过在高度描述性的生成图像captions上训练,可以显著提高文本到图像模型的提示跟随能力。现有的文本到图像模型在遵循详细图像描述方面存在困难,经常忽略提示中的单词或混淆提示的含义。作者假设这个问题源于训练数据集中图像标题的噪声和不准确性。通过训练一个定制的图像captions生成器并用它来重新标注训练数据集来解决这个问题。然后,训练了几个文本到图像模型,并发现在这些合成captions上训练可靠地提高了提示跟随能力。最后,使用这些发现构建了DALLE 3:一个新的文本到图像生成系统,并在设计用来衡量提示跟随、连贯性和美学的评估中测试了其性能,发现它与竞争对手相比具有优势。

Method

论文提出的文本到图像模型是在由大量配对(t,i)组成的数据集上训练的,其中i是图像,t是描述该图像的文本。在大规模数据集中,t通常来源于人类作者,他们专注于对图像主题的简单描述,而忽略了图像中描绘的背景细节或常识关系。t中通常省略的重要细节可能包括:

  1. 厨房水槽或人行道上的停车标志等物体的存在以及对这些物体的描述。
  2. 场景中对象的位置和这些对象的数量。
  3. 常识性细节,如场景中对象的颜色和大小。
  4. 显示在图像中的文本。

糟糕的是,在互联网上发现的captions往往根本不正确;描述图像的切向相关细节。例如,在通常用于为图像制作captions的文本中,通常会发现广告或表情包。作者假设所有这些缺点都可以通过综合生成的 captions来解决。

图像字幕与预测文本的传统语言模型非常相似。语言模型首先使用标记器将文本字符串分解为离散的标记。一旦以这种方式分解,语料库的文本部分就可以表示为一个序列,t=[t1,t2,…,tn]。然后,可以通过最大化以下可能性函数,在文本上建立一个语言模型:
【论文阅读】(DALLE-3)Improving Image Generation with Better Captions,论文,论文阅读,计算机视觉,人工智能

其中,θ是要优化的captioner的参数。要将此语言模型转换为captioner,只需要对图像进行调整即可。这里的挑战是图像是由成千上万的像素值组成的。对目前的神经网络来说,对所有这些信息进行调节是非常低效的,所以需要一个压缩的表示空间。方便的是,CLIP提供了这一点。因此,给定预先训练的CLIP图像嵌入函数F(i),扩展语言模型的优化目标如下:
【论文阅读】(DALLE-3)Improving Image Generation with Better Captions,论文,论文阅读,计算机视觉,人工智能

为了改进图像生成数据集中的captions,希望使caption生成器产生有利于学习文本到图像模型的图像描述。在第一次尝试中,构建了一个小的caption数据集,只描述图像的主要主题。然后继续在这个数据集上训练captioner。该过程引起的θ更新可以导致模型偏向于描述图像的主要主题。将此微调生成的captions称为"short synthetic captions"。

【论文阅读】(DALLE-3)Improving Image Generation with Better Captions,论文,论文阅读,计算机视觉,人工智能

然后,第二次重复这个过程,创建一个由长的、高度描述性的captions组成的数据集,描述微调数据集中每个图像的内容。这些captions不仅描述了图像的主要主题,还描述了图像周围的环境、背景、图像中的文本、风格、颜色等。再次在此数据集上captioner。将此captioner生成的captions称为“描descriptive synthetic captions”。图3显示了基本事实、简短合成和描述性合成captions的示例。

构建完成后,将图像captioner微调应用于文本到图像数据集中的每个图像,从而生成一组合成字幕,用于后续实验。

实验

【论文阅读】(DALLE-3)Improving Image Generation with Better Captions,论文,论文阅读,计算机视觉,人工智能
【论文阅读】(DALLE-3)Improving Image Generation with Better Captions,论文,论文阅读,计算机视觉,人工智能
【论文阅读】(DALLE-3)Improving Image Generation with Better Captions,论文,论文阅读,计算机视觉,人工智能
【论文阅读】(DALLE-3)Improving Image Generation with Better Captions,论文,论文阅读,计算机视觉,人工智能文章来源地址https://www.toymoban.com/news/detail-838742.html

到了这里,关于【论文阅读】(DALLE-3)Improving Image Generation with Better Captions的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记

    写在前面   该忙的事情忙的差不多了,继续看论文写笔记,把之前两个月落下来的补回来!(还差7篇博文),欢迎关注,持续高产。 论文地址:PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 代码地址:作者暂未提供 预计投稿在 CVPR 2023,昨天还是前天放榜了,不

    2024年02月07日
    浏览(45)
  • 【论文阅读24】Better Few-Shot Text Classification with Pre-trained Language Model

    论文标题:Label prompt for multi-label text classification(基于预训练模型对少样本进行文本分类) 发表时间:2021 领域:多标签文本分类 发表期刊:ICANN(顶级会议) 相关代码:无 数据集:无 最近,预先训练过的语言模型在许多基准测试上都取得了非凡的性能。通过从一个大型的

    2024年02月14日
    浏览(46)
  • 【论文阅读笔记】Emu Edit: Precise Image Editing via Recognition and Generation Tasks

    Emu edit是一篇 图像编辑Image Editing 的文章,和instruct pix2pix类似,选择了合成数据作为训练数据,不是zero-shot任务,并进一步将多种任务都整合为生成任务,从而提高模型的编辑能力。本篇文章的效果应该目前最好的,在local和global编辑甚至其他代理任务(分割、边缘检测等)

    2024年02月04日
    浏览(55)
  • 论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation

    HMER论文系列 1、论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2、论文阅读和分析:Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客 3、论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation_KPer_Yang的博

    2023年04月08日
    浏览(40)
  • 论文阅读:VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial

    论文标题是“ VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design ”,写不下了,是2023.7.31原vits团队刚刚挂在arxiv上的文章,主要基于四个方面对vits做了改动,此篇文章我们就不讲vits,主要分析vits2的部分。 单阶段文本到语音模型最近

    2024年02月07日
    浏览(53)
  • 【论文阅读】SynDiff Unsupervised Medical Image Translation with Adversarial Diffusion Models

    Unsupervised Medical Image Translation with Adversarial Diffusion Models 论文大致翻译和主要内容讲解 通过源-目标通道转换对缺失图像进行填充可以提高医学成像协议的多样性。合成目标图像的普遍方法包括通过生成性对抗网络(GAN)的一次映射。然而,隐含地描述图像分布的Gan模型可能会受

    2024年04月17日
    浏览(37)
  • 论文阅读--High-Resolution Image Synthesis with Latent Diffusion Models

    High-Resolution Image Synthesis with Latent Diffusion Models论文阅读 Abstract Introduction Diffusion model相比GAN可以取得更好的图片生成效果,然而该模型是一种自回归模型,需要反复迭代计算,因此训练和推理代价都很高。论文提出一种在潜在表示空间(latent space)上进行diffusion过程的方法,

    2024年01月17日
    浏览(64)
  • 【论文阅读】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

    论文链接:SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness | IEEE Journals Magazine | IEEE Xplore 代码: GitHub - Linfeng-Tang/SuperFusion: This is official Pytorch implementation of \\\"SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness\\\" 图像融合的重要性:由于摄影环境

    2024年03月19日
    浏览(51)
  • 自监督论文阅读笔记 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

            深度学习方法促进了遥感 (RS) 图像解释的快速发展。最广泛使用的训练范式是利用 ImageNet 预训练模型来处理指定任务的 RS 数据。然而,存在  自然场景与RS场景之间的领域差距 ,以及 RS模型泛化能力差 等问题。开发 具有通用 RS 特征表示的基础模型 是有意义的。

    2024年02月16日
    浏览(52)
  • [论文阅读]YOLO9000:Better,Faster,Stronger

    我们引入了YOLO9000,一个可以检测超过9000种类别的先进的实时目标检测系统。首先我们提出了多种yolo检测方法的提升方式,既新颖又参考了 之前的工作。改进后的模型,YOLOV2在标准检测任务例如PASCAL VO 和COCO 上都取得了领先。使用一个新颖的多尺度的训练方法,同一个YOLO

    2024年02月02日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包