【多模态】DALL·E 2 笔记-Toy模板网

这篇具有很好参考价值的文章主要介绍了【多模态】DALL·E 2 笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

DALLE2

论文题目：《Hierarchical Text-Conditional Image Generation with CLIP Latents》（使用CLIP特征的层次文本条件图像生成）

DALL·E 2 模型结构

首先训练一个 CLIP 模型，进行图片-文本对的对比学习，训练得到一个 text encoder 和一个 img encoder，然后将 text encoder 固定住，拿来进行 DALL·E 2 的训练。

先经过一个 prior 扩散模型，从文本特征得到图像特征，然后再通过图像特征decode 得到完整的图片。

文本 -> 文本特征 ->[prior模型] -> 图像特征 ->[decoder模型]-> 图像

【多模态】DALL·E 2 笔记

这段解读来自博文
https://blog.csdn.net/u012193416/article/details/126162618

结合这个图来看，首先虚线上面是一个clip，这个clip是提前训练好的，在dalle2的训练期间不会再去训练clip，是个权重锁死的，在dalle2的训练时，输入也是一对数据，一个文本对及其对应的图像，首先输入一个文本，经过clip的文本编码模块（bert，clip对图像使用vit，对text使用bert进行编码，clip是基本的对比学习，两个模态的编码很重要，模态编码之后直接余弦求相似度了），在输入一个图像，经过clip的图像编码模块，产生了图像的vector，这个图像vector其实是gt。产生的文本编码输入到第一个prior模型中，这是一个扩散模型，也可以用自回归的transformer，这个扩散模型输出一组图像vector，这时候通过经过clip产生的图像vector进行监督，此处其实是一个监督模型，后面是一个decoder模块，在以往的dalle中，encoder和decoder是放在dvae中一起训练的，但是此处的deocder是单训的，也是一个扩散模型，其实虚线之下的生成模型，是将一个完整的生成步骤，变成了二阶段显式的图像生成，作者实验这种显式的生成效果更好。这篇文章称自己为unclip，clip是将输入的文本和图像转成特征，而dalle2是将文本特征转成图像特征再转成图像的过程，其实图像特征到图像是通过一个扩散模型实现的。在deocder时既用了classifier-free guidence也用了clip的guidence，这个guidence指的是在decoder的过程中，输入是t时刻的一个带噪声的图像，最终输出是一个图像，这个带噪声的图像通过unet每一次得到的一个特征图可以用一个图像分类器去做判定，此处一般就用交叉熵函数做一个二分类，但是可以获取图像分类的梯度，利用这个梯度去引导扩散去更好的decoder。

图像生成模型的研究背景

GAN的缺点：保真度高，但是多样性不好。而扩散模型在刚刚提出（数年前）的时候，保真度不及 GAN，但是多样性很好。人们为了提高 GAN 的生成多样性，从 AE（Auto-Encoder）中改进得到了 VAE（Variational Auto-Encoder），VAE 的改进是将 AE 的 bottleneck 从预测一个低维特征图改为了预测是从一个正态分布的哪个位置采样得到的，这样，训练完成之后，就可以将 Encoder 部分扔掉，让正态分布随机采样，从而生成不同的图片了。在 VAE 之后，又提出了 VQ-VAE，VQ-VAE-2 模型，随后出现的就是现在所说的 DALLE 模型的第一代（使用 VQ-VAE 的改进版），然后是DALLE 2（使用扩散模型的版本，并使用了很多其他技巧），至此，扩散模型完全打败了GAN。

DALL·E 2 的解码器

这个 Decoder解码器，实际上是一个扩散模型 DDPM （Denoising Diffusion Probabilistic Models，去噪声扩散概率模型）

扩散模型的原理：

给定一个图像 $x_0$ ，每一次加一点点高斯噪声，变成 $x_t$ 直到加到 $x_T$ 变成一个完全是高斯噪声的图像，然后训练一个模型让模型根据 $x_t$ 图像，预测 $x_{t-1}$ 图像的情况（实际上，是预测残差图 $\epsilon$ ，也就是预测在哪些位置加了噪声，有点 ResNet的感觉了，这样训练起来更方便，效果更好），模型因为输入输出是一样的尺寸，所以一般使用 U-Net 进行生成，原来用 $T$ 步生成图片，就用 $T$ 步循环 forward 这个 U-Net 网络来进行图片的还原，这样就可以做到从高斯模型还原回一副真实的图片，训练的时候，用（ $x_{t-1}$ , $x_{t}$ ）构建数据集 ground truth，进行训练，生成的时候，让模型从高斯噪声图片一步步还原（生成）图片。此外，还通过某种方式往这个 U-Net 中加入当前的时间信息（目前预测到 $t$ 步），来提醒模型当前是需要增加低频（轮廓，色彩）信息还是高频（细节）信息。

训练技巧

DALL·E 2的训练过程中还使用到一些训练技巧：

Classifier Guidance

在从 $x_{t}$ 生成 $x_{t-1}$ 的过程中，为了使得生成的图片更加逼真，引入了一个在加了噪声的 ImageNet 图像数据集上预训练好的分类器 $f$ ，来对 $x_{t}$ 生成的图片进行分类，看是否和文本特征匹配，并反传梯度给 U-Net 模型，让模型在不匹配的地方重点进行生成文章来源地址https://www.toymoban.com/news/detail-511966.html