AIGC零基础30天学习——CLIP模型-Toy模板网

这篇具有很好参考价值的文章主要介绍了AIGC零基础30天学习——CLIP模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. 模型架构

Contrastive Language-Image Pre-training（以下简称“CLIP”）是OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型，可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练，在很多任务表现上达到了目前最佳表现（SOTA）。

AIGC零基础30天学习——CLIP模型

模型架构如上图所示，包括三个部分：

（1）对比预训练（contrast pre-training）：建立文本和图像的一一对应关系。文本和图像需要用Encoder转化为向量形式，文本通过TextEncoder转化为[T1,T2,T3.....,Tn]，图像通过ImageEncoder转化为[I1,I2,I3.....,In]。文本向量和图像向量可以建立成N×N的矩阵关系，如下图所示，当处于对角线的向量乘积，因为i=j，余弦相似度是最大的（cos0为1）；不在对角线上的向量成绩，因为i≠j，余弦相似度最小。

AIGC零基础30天学习——CLIP模型

（2）提取预测类型的文本特征（create dataset from label text）

将待预测文本转换为向量，如下图所示：

AIGC零基础30天学习——CLIP模型

（3）zero-shot预测（use zero-shot prediction）

将待测图片进行编码，并与

AIGC零基础30天学习——CLIP模型

2. 损失函数：交叉熵损失函数

AIGC零基础30天学习——CLIP模型

3. 训练方法

利用图文的特征 encoder 分别获取图像特征向量和文本特征向量，一个图像特征会对应一个文本特征，然后构成了一个 NxN 的一个相似度矩阵，其中对角线上的图文对是正样本，非对角部分 N^2 - N 是负样本。

训练过程中，通过对每行 image->text 做交叉熵 loss，每列 text->image 做交叉熵loss，目标就是优化这两个 loss 之和。

4. 推理方法

在推理阶段，首先将需要分类的图像经过ImageEncoder得到特征，然后对于目标任务数据集的每一个标签，或者你自己定义的标签，都构造一段对应的文本，例如，将 dog 改造成 “A photo of a dog”，以此类推。然后经过编码器得到文本和图像特征，接着将文本特征与图像特征做内积，内积最大对应的标签就是图像的分类结果。这就完成了目标任务上的 zero-shot 分类。