【多模态】DALL·E 2 笔记

这篇具有很好参考价值的文章主要介绍了【多模态】DALL·E 2 笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

DALLE2

论文题目:《Hierarchical Text-Conditional Image Generation with CLIP Latents》(使用CLIP特征的 层次文本条件图像生成)

DALL·E 2 模型结构

首先训练一个 CLIP 模型,进行图片-文本对的对比学习,训练得到一个 text encoder 和一个 img encoder,然后将 text encoder 固定住,拿来进行 DALL·E 2 的训练。

先经过一个 prior 扩散模型,从文本特征得到图像特征,然后再通过图像特征decode 得到完整的图片。

文本 -> 文本特征 ->[prior模型] -> 图像特征 ->[decoder模型]-> 图像

【多模态】DALL·E 2 笔记

这段解读来自博文
https://blog.csdn.net/u012193416/article/details/126162618

结合这个图来看,首先虚线上面是一个clip,这个clip是提前训练好的,在dalle2的训练期间不会再去训练clip,是个权重锁死的,在dalle2的训练时,输入也是一对数据,一个文本对及其对应的图像,首先输入一个文本,经过clip的文本编码模块(bert,clip对图像使用vit,对text使用bert进行编码,clip是基本的对比学习,两个模态的编码很重要,模态编码之后直接余弦求相似度了),在输入一个图像,经过clip的图像编码模块,产生了图像的vector,这个图像vector其实是gt。产生的文本编码输入到第一个prior模型中,这是一个扩散模型,也可以用自回归的transformer,这个扩散模型输出一组图像vector,这时候通过经过clip产生的图像vector进行监督,此处其实是一个监督模型,后面是一个decoder模块,在以往的dalle中,encoder和decoder是放在dvae中一起训练的,但是此处的deocder是单训的,也是一个扩散模型,其实虚线之下的生成模型,是将一个完整的生成步骤,变成了二阶段显式的图像生成,作者实验这种显式的生成效果更好。这篇文章称自己为unclip,clip是将输入的文本和图像转成特征,而dalle2是将文本特征转成图像特征再转成图像的过程,其实图像特征到图像是通过一个扩散模型实现的。在deocder时既用了classifier-free guidence也用了clip的guidence,这个guidence指的是在decoder的过程中,输入是t时刻的一个带噪声的图像,最终输出是一个图像,这个带噪声的图像通过unet每一次得到的一个特征图可以用一个图像分类器去做判定,此处一般就用交叉熵函数做一个二分类,但是可以获取图像分类的梯度,利用这个梯度去引导扩散去更好的decoder。

图像生成模型的研究背景

GAN的缺点:保真度高,但是多样性不好。而扩散模型在刚刚提出(数年前)的时候,保真度不及 GAN,但是多样性很好。人们为了提高 GAN 的生成多样性,从 AE(Auto-Encoder)中改进得到了 VAE(Variational Auto-Encoder),VAE 的改进是将 AE 的 bottleneck 从预测一个低维特征图改为了预测是从一个正态分布的哪个位置采样得到的,这样,训练完成之后,就可以将 Encoder 部分扔掉,让正态分布随机采样,从而生成不同的图片了。在 VAE 之后,又提出了 VQ-VAE,VQ-VAE-2 模型,随后出现的就是现在所说的 DALLE 模型的第一代(使用 VQ-VAE 的改进版),然后是DALLE 2(使用扩散模型的版本,并使用了很多其他技巧),至此,扩散模型完全打败了GAN。

DALL·E 2 的解码器

这个 Decoder解码器,实际上是一个扩散模型 DDPM (Denoising Diffusion Probabilistic Models,去噪声扩散概率模型)

扩散模型的原理:

给定一个图像 x 0 x_0 x0 ,每一次加一点点高斯噪声,变成 x t x_t xt 直到加到 x T x_T xT 变成一个完全是高斯噪声的图像,然后训练一个模型让模型根据 x t x_t xt 图像,预测 x t − 1 x_{t-1} xt1 图像的情况(实际上,是预测残差图 ϵ \epsilon ϵ ,也就是预测在哪些位置加了噪声,有点 ResNet的感觉了,这样训练起来更方便,效果更好),模型因为输入输出是一样的尺寸,所以一般使用 U-Net 进行生成,原来用 T T T 步生成图片,就用 T T T 步循环 forward 这个 U-Net 网络来进行图片的还原,这样就可以做到从高斯模型还原回一副真实的图片,训练的时候,用( x t − 1 x_{t-1} xt1 , x t x_{t} xt)构建数据集 ground truth,进行训练,生成的时候,让模型从高斯噪声图片一步步还原(生成)图片。此外,还通过某种方式往这个 U-Net 中加入当前的时间信息(目前预测到 t t t 步),来提醒模型当前是需要增加低频(轮廓,色彩)信息还是高频(细节)信息。

训练技巧

DALL·E 2的训练过程中还使用到一些训练技巧:

Classifier Guidance

在从 x t x_{t} xt 生成 x t − 1 x_{t-1} xt1 的过程中,为了使得生成的图片更加逼真,引入了一个在加了噪声的 ImageNet 图像数据集上预训练好的分类器 f f f ,来对 x t x_{t} xt 生成的图片进行分类,看是否和文本特征匹配,并反传梯度给 U-Net 模型,让模型在不匹配的地方重点进行生成文章来源地址https://www.toymoban.com/news/detail-511966.html

到了这里,关于【多模态】DALL·E 2 笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChatGPT和 dalle2 配合生成故事绘本

    在之前章节中,我们已经尝试过让 ChatGPT 来生成一些故事情节,不管是影视剧还是小说还是游戏都可以。这时候,自然而然的可以联想到:那我们可不可以一步到位,把 ChatGPT 编出来的故事情节,再画成连环画、甚至生成动画视频呢? 事实上,ChatGPT 和 Dalle2 配合完成故事绘

    2024年02月13日
    浏览(47)
  • 大模型 Dalle2 学习三部曲(二)clip学习

    clip论文比较长48页,但是clip模型本身又比较简单,效果又奇好,正所谓大道至简,我们来学习一下clip论文中的一些技巧,可以让我们快速加深对clip模型的理解,以及大模型对推荐带来革命性的变化。 首选我们来看看clip的结构,如图clip结构比较直观,训练的时候把文本描述

    2024年02月09日
    浏览(38)
  • AI写代码修Bug画画写诗,ChatGPT&DALLE2试用攻略

    ChatGPTDALLE2是OpenAI的最新研究成果,在量子位看到他的强大功能后,就自己试玩了一下,比如我让ChatGPT帮我写一个GraphSage模型,ChatGPT先简单解释了一下GraphSage,然后写出了不错的PyTorch代码 (详见见示例一),是不是很神奇? 在我将量子位的公众号文章转发朋友圈之后,很多人

    2024年02月11日
    浏览(42)
  • 【多模态】DALL·E 2 笔记

    论文题目:《Hierarchical Text-Conditional Image Generation with CLIP Latents》(使用CLIP特征的 层次文本条件图像生成) 首先训练一个 CLIP 模型,进行图片-文本对的对比学习,训练得到一个 text encoder 和一个 img encoder,然后将 text encoder 固定住,拿来进行 DALL·E 2 的训练。 先经过一个 pr

    2024年02月11日
    浏览(40)
  • 大模型 Dalle2 学习三部曲(一)Latent Diffusion Models学习

    Diffusion model 大获成功,但是它的短板也很明显,需要大量的计算资源,并且推理速度比较慢。如何才能提升Diffusion model的计算效率。业界有各种各样的改进,无疑 Latent Diffusion Models(潜在扩散模型,LDMs) 是比较成功的一篇,那就来学习一下LDMS是怎么做的吧 1,与基于变换

    2024年01月18日
    浏览(37)
  • AI art 实验:同样的Prompt, DALLE2 跟 Disco Diffusion 的创作大比拼

    关门测试的 DALL·E 2 昨日放出消息,说刚向社区投放了 1000 个内测名额,赶紧奔去查我的邮箱!没有!还是没有,向几位我认识搞机器学习的大佬们托了人情也不行,没有插队的!(奔走掩面甩泪) 为什么那么多人在翘首期盼 DALL·E 2,看看下面这个创作实验就明白了。 这个

    2024年02月09日
    浏览(41)
  • DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

    目录 1.标题解读 2.前言 3.摘要部分 4.引言部分  5.生成模型概述 6.扩散模型的发展 7.方法部分 Hierarchical Text-Conditional Image Generation with CLIP Latents 是一种层级式的基于CLIP特征的根据文本生成图像模型。 层级式 的意思是说在图像生成时,先生成 64*64再生成256*256 ,最终生成令人叹

    2023年04月09日
    浏览(46)
  • 论文学习笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    论文阅读:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 今天学习的论文是 ICCV 2021 的 best paper,Swin Transformer,可以说是 transformer 在 CV 领域的一篇里程碑式的工作。文章的标题是一种基于移动窗口的层级 vision transformer。文章的作者都来自微软亚研院。 Abstract 文章的

    2024年02月08日
    浏览(38)
  • DALL·E 2 论文阅读笔记

    《Hierarchical Text-Conditional Image Generation with CLIP Latents》 Paper: https://cdn.openai.com/papers/dall-e-2.pdf Project: https://openai.com/product/dall-e-2 Author: OpenAI 时间线:2021.01推出DALL·E,2021年底推出GLIDE,2022.04推出DALL·E 2 DALL·E 2的能力:“DALL·E 2 can create original, realistic images and art from a text descr

    2023年04月08日
    浏览(22)
  • AIGC之论文笔记DALL-E

    机构:openai 代码:https://github.com/openai/DALL-E 人们常说自然语言处理是人工智能皇冠上的明珠,这些年transformer以及大规模语言模型LLM的蓬勃发展,让这颗明珠更加熠熠生辉。除此之外,ViT,MAE等方法也充分验证了图像在transformer以及大规模预训练之路上的可行性,那么近一步

    2024年01月25日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包