AIGC零基础30天学习——CLIP模型

这篇具有很好参考价值的文章主要介绍了AIGC零基础30天学习——CLIP模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 模型架构    

        Contrastive Language-Image Pre-training(以下简称“CLIP”)是OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型,可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练,在很多任务表现上达到了目前最佳表现(SOTA) 。

AIGC零基础30天学习——CLIP模型

   模型架构如上图所示,包括三个部分:

(1) 对比预训练(contrast pre-training):建立文本和图像的一一对应关系。文本和图像需要用Encoder转化为向量形式,文本通过TextEncoder转化为[T1,T2,T3.....,Tn],图像通过ImageEncoder转化为[I1,I2,I3.....,In]。文本向量和图像向量可以建立成N×N的矩阵关系,如下图所示,当处于对角线的向量乘积,因为i=j,余弦相似度是最大的(cos0为1);不在对角线上的向量成绩,因为i≠j,余弦相似度最小。

AIGC零基础30天学习——CLIP模型

(2)提取预测类型的文本特征(create dataset from label text)

        将待预测文本转换为向量,如下图所示:

AIGC零基础30天学习——CLIP模型

 (3)zero-shot预测(use zero-shot prediction)

        将待测图片进行编码,并与

AIGC零基础30天学习——CLIP模型

2. 损失函数:交叉熵损失函数

AIGC零基础30天学习——CLIP模型

3. 训练方法

        利用图文的特征 encoder 分别获取图像特征向量和文本特征向量,一个图像特征会对应一个文本特征,然后构成了一个 NxN 的一个相似度矩阵,其中对角线上的图文对是正样本,非对角部分 N^2 - N 是负样本。

        训练过程中,通过对每行 image->text 做交叉熵 loss,每列 text->image 做交叉熵loss,目标就是优化这两个 loss 之和。

4. 推理方法

        在推理阶段,首先将需要分类的图像经过ImageEncoder得到特征,然后对于目标任务数据集的每一个标签,或者你自己定义的标签,都构造一段对应的文本,例如,将 dog 改造成 “A photo of a dog”,以此类推。然后经过编码器得到文本和图像特征,接着将文本特征与图像特征做内积,内积最大对应的标签就是图像的分类结果。这就完成了目标任务上的 zero-shot 分类。

5. 优、缺点分析

        CLIP在论文和它的官方网站上也说了CLIP的一些缺点,例如更细粒度的分类任务,数据集未覆盖到的任务上的表现。这些从本质上来看还是说明了CLIP还是一个有偏的模型。

        目前看来仅仅通过它的4亿条数据以及对比学习预训练还不足以让模型学习到在NLP上那些通用的能力,这一方向也亟待提升。

        优点不多说了,在当时比较新颖,有点aigc开篇的意思。文章来源地址https://www.toymoban.com/news/detail-490313.html

到了这里,关于AIGC零基础30天学习——CLIP模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习:MPT-30B】提高开源基础模型的标准

    隆重推出 MPT-30B,它是我们开源模型基础系列中功能更强大的新成员,在 NVIDIA H100 Tensor Core GPU 上使用 8k 上下文长度进行训练。 在这里尝试 HuggingFace 上的 MPT-30B-Chat! 自 5 月份推出 MPT-7B 以来,ML 社区热切地接受开源 MosaicML 基础系列模型。 MPT-7B 基础、-Instruct、-Chat 和 -Story

    2024年02月22日
    浏览(42)
  • 大模型学习 -- CLIP

    本文是CLIP算法的学习笔记,从CLIP算法介绍到具体实现原理,再到应用方法和后续一些优化策略来学习CLIP系列算法。 CLIP是什么: CLIP全称是Contrastive Language–Image Pre-training,一种基于对比文本-图像对的预训练方法。 CLIP怎么做的 主要包含Text Encoder和Image Encoder两个模块,分别

    2024年02月12日
    浏览(34)
  • 多模态模型学习1——CLIP对比学习 语言-图像预训练模型

    学了一些多模态的知识,CLIP算是其中最重要也是最通用的一环,一起来看一下吧。 CLIP的全称是Contrastive Language-Image Pre-Training,中文是对比语言-图像预训练,是一个预训练模型,简称为CLIP。 该模型是 OpenAI 在 2021 年发布的,最初用于匹配图像和文本的预训练神经网络模型,

    2023年04月13日
    浏览(56)
  • 大模型 Dalle2 学习三部曲(二)clip学习

    clip论文比较长48页,但是clip模型本身又比较简单,效果又奇好,正所谓大道至简,我们来学习一下clip论文中的一些技巧,可以让我们快速加深对clip模型的理解,以及大模型对推荐带来革命性的变化。 首选我们来看看clip的结构,如图clip结构比较直观,训练的时候把文本描述

    2024年02月09日
    浏览(39)
  • 企业架构LNMP学习笔记30

    1、upstream 中server的:语法: upstream中的分发之后的几个: 1)backup 备 其他的没有backup标识的都不可用了,才分发到backup; 2)down 此条配置,不会被分发到。 systemctl restart nginx 可以看到,server03能一直能正常使用,所以就不会再转发给server01。所以web页面一直显

    2024年02月09日
    浏览(41)
  • 深度学习实战30-AIGC项目:自动生成思维导图文件,解放双手

    大家好,我是微学AI,今天给大家介绍一下深度学习实战30-AIGC项目:自动生成思维导图文件,解放双手,思维导图是一种常见的工具,用于将复杂的信息和概念以图形化方式展示出来。AIGC项目旨在将这种思维导图的创建过程自动化,并通过使用ChatGPT作为生成器,使其变得更

    2024年02月14日
    浏览(52)
  • 【AIGC】CLIP

      对比学习: Clip使用对比学习来训练模型。对比学习的目标是通过将正样本(相似的图像和文本对)与负样本(不相似的图像和文本对)进行比较,从而使模型学会区分不同样本之间的差异。这有助于模型学到更具泛化性的表示。 双向编码器: Clip包括两个部分的编码器,

    2024年01月25日
    浏览(48)
  • AIGC系列之:CLIP和OpenCLIP

    目录 模型背景 CLIP模型介绍 相关资料 原理和方法 Image Encoder Text Encoder 对比学习 预训练 Zero Shot预测 优势和劣势 总结 OpenClip模型介绍 相关资料 原理 结果 用法 模型总结 Stable Diffusion主要由三个核心模块组成: Text Encoder(文本编码器) Image Information Creator(图像信息生成器)

    2024年02月04日
    浏览(41)
  • AIGC神器CLIP:技术详解及应用示例

    编者按:上一期,我们介绍了Diffusion模型的发展历程、核心原理及其对AIGC发展的推动作用。本期,我们将共同走进另一项AI重要突破——CLIP,著名的DALLE和Stable Diffusion均采用了CLIP哦。 Nikos Kafritsas的这篇文章,为我们详细介绍了CLIP是如何工作的,同时提供一些编码示例。 以

    2024年02月11日
    浏览(54)
  • 【AIGC】10、Chinese CLIP | 专为中文图文匹配设计

    论文:Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese 代码:https://github.com/OFA-Sys/Chinese-CLIP 出处:阿里达摩院 时间:2022.11 贡献: 提出了 Chinese CLIP,是经过在大尺度中文图像-文本对儿的两阶段预训练 CLIP 的成功极大地促进了对比学习在视觉-语言模型预训练上的研究和应用

    2024年02月13日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包