深度学习--CLIP算法(文本搜图片,图片搜图片)

这篇具有很好参考价值的文章主要介绍了深度学习--CLIP算法(文本搜图片,图片搜图片)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. CLIP简介

  CLIP全称Constrastive Language-Image Pre-training,是OPAI推出的采用对比学习的文本-图像预训练模型。CLIP惊艳之处在于架构非常简洁且效果好到难以置信,在zero-shot文本-图像检索,zero-shot图像分类,文本→图像生成任务guidance,open-domain 检测分割等任务上均有非常惊艳的表现,本文将对CLIP做一些初步的介绍。

2. CLIP模型简介

   CLIP的基本算法原理如下,为了对image和text建立联系,首先分别对image和text进行特征提取,image特征提取的backbone可以是resnet系列模型也可以是VIT系列模型,text特征提取目前一般采用bert模型,特征提取之后,由于做了normalize,直接相乘来计算余弦距离,同一pair对的结果趋近于1,不同pair对的结果趋近于0,因为就可以采用对比损失loss(info-nce-loss),熟悉这个loss的同学应该都清楚,这种计算loss方式效果与batch size有很大关系,一般需要比较大的batch size才能有效果。CLIP的模型如下图所示:
深度学习--CLIP算法(文本搜图片,图片搜图片)
   CLIP 能够成功,并且很难自己复现的一个重要原因就是CLIP用了大量的训练数据以及训练资源,真的可以说是大力出奇迹。CLIP用了4亿的图像文本对进行训练。伪代码如下:
深度学习--CLIP算法(文本搜图片,图片搜图片)

  • 编码 :通过图像&文本编码器,得分图像和文本特征。
  • 投影:首先通过投影矩阵将图像及文本特征映射到相同的维度大小,在进行L2 normalization (使得之后的点积操作直接等效于cosine similarity)
  • 相似度计算:点积运算计算文本-图像的cosine similarity,得到 n x n 矩阵的logits(模型预测),越接近1则说明模型预测该文本-图像对是配对的,否则不配对。
  • 计算loss:已知 logits 矩阵对角线的文本和图像是配对的,非对角线元素不配对,因此构造训练标签 np.arange(n),然后分别在图像维度(axis=0) 和文本维度(axis=1)计算loss。以图像维度为例简单说明一下这里的逻辑,因为在计算相似度的时候,图像特征矩阵@文本特征矩阵得到的 n x n 矩阵,第一个n 代表的图像,因此我们在axis=0 计算图像维度的loss。

3. CLIP模型优缺点总结

优点

  • zero-shot做得好,经过在400million大的未清洗的数据集上训练,在不同的数据集上表现还可以,可以自定义任务,而且效率很高。
  • 高效,虽然GPT3做zero-shot也很好,但是CLIP吃的资源少,计算量少,训练效率高。最好的一版CLIP只在256个GPU上训练两周就好了,跟目前图像领域的其他大模型都差不多。
  • 灵活和通用:因为他们直接从自然语言中学习广泛的视觉概念,CLIP明显比现有的ImageNet模型更灵活和通用。我们发现他们能够轻松地完成许多不同的任务。

缺点

  • 虽然CLIP通常在识别普通物体方面表现良好,但在更抽象或更系统的任务上却表现不佳。比如计算图像中物体的数量,以及在更复杂的任务上,比如预测照片中最近的汽车距离有多近。在这两个数据集上,零射剪辑只比随机猜测好一点点。与特定任务模型相比,Zero-shot CLIP在非常细粒度的分类上也很困难,比如区分汽车模型、飞机变体或花卉种类之间的区别。
  • 对于未包含在其预训练数据集中的图像,CLIP的泛化效果也很差。例如,尽管CLIP学习了一个有效的OCR系统,但当从MNIST数据集评估手写数字时,zero-shot CLIP仅达到88%的准确率,远低于数据集上99.75%的人的准确率。(其实还行,毕竟不是专门在MNIST上跑的)

4. CLIP模型开源方案

OPENAI方案:

github代码地址
论文介绍

中文CLIP方案:

中文clip
CLIP图片搜索演示Demo
CLIP视频搜索演示Demo

参考资料:CLIP介绍:连接图像与自然语言文章来源地址https://www.toymoban.com/news/detail-420798.html

到了这里,关于深度学习--CLIP算法(文本搜图片,图片搜图片)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • html学习笔记11-标签简写及全称、XHTML

    https://www.runoob.com/html/html-tag-name.html XHTML 是以 XML 格式编写的 HTML。可扩展超文本标记语言 XML 是一种必须正确标记且格式良好的标记语言。 XML 指可扩展标记语言(eXtensible Markup Language)。

    2024年02月11日
    浏览(41)
  • 【计算机视觉】CLIP:连接文本和图像(关于CLIP的一些补充说明)

    我们推出了一个名为CLIP的神经网络,它可以有效地从自然语言监督中学习视觉概念。CLIP可以应用于任何视觉分类基准,只需提供要识别的视觉类别名称,类似于GPT-2和GPT-3的“零样本”功能。 尽管深度学习彻底改变了计算机视觉,但当前的方法存在几个主要问题: 典型的视

    2024年02月09日
    浏览(50)
  • 深度学习处理文本(NLP)

    深度学习处理文本主要涉及到自然语言处理(NLP)领域。随着深度学习技术的发展,NLP领域已经取得了很大的进展。以下是深度学习在处理文本中的一些主要应用和技术: 词嵌入(Word Embeddings): 词嵌入是将词汇表中的单词映射到稠密的向量,常用的方法有Word2Vec, GloVe和Fas

    2024年02月11日
    浏览(37)
  • Keras-5-深度学习用于文本和序列-处理文本数据

    本篇学习记录为:《Python 深度学习》第6章第1节(处理文本数据) 知识点: 深度学习处理文本或序列数据的基本方法是: 循环神经网络 (recurrent neural network) 和 一维卷积神经网络 (1D convert) ; 这些算法的应用范围包括:文档分类、时间序列分类、时间序列比对、时间序列预测

    2024年02月13日
    浏览(45)
  • AI绘画中CLIP文本-图像预训练模型

    OpenAI 在 2021 年提出了 CLIP(Contrastive Language–Image Pretraining)算法,这是一个先进的机器学习模型,旨在理解和解释图像和文本之间的关系。CLIP 的核心思想是通过大规模的图像和文本对进行训练,学习图像内容与自然语言描述之间的对应关系。这种方法使得模型能够在没有特

    2024年02月03日
    浏览(41)
  • 6、CLIP:连接文本和视觉世界的预训练模型

             目录 一、论文题目 二、背景与动机 三、创新与卖点 四、技术细节 模型结构 简易代码 clip实现zero shot分类 五、为什么是CLIP?为什么是对比学习? 六、一些资料         在人工智能领域,文本和图像是两个极其重要的数据形式。传统上,机器学习模型往往专注

    2024年01月16日
    浏览(39)
  • SIFT 算法和SURF(Speeded Up Robust Features)算法的全称是什么,分别是什么意思,分别是用来干什么的?

    问题描述:SIFT 算法和SURF(Speeded Up Robust Features)算法的全称是什么,分别是什么意思,分别是用来干什么的? 问题解答: SIFT 算法: 全称: 尺度不变特征变换(Scale-Invariant Feature Transform)。 意义: SIFT 算法用于检测图像中的关键点,并提取这些关键点的特征描述子,具有尺度

    2024年01月20日
    浏览(53)
  • 猿创征文|【深度学习前沿应用】文本生成

    作者简介 :在校大学生一枚,C/C++领域新星创作者,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPCC)志愿者,以及编程爱好者,期待和大家一起学习,一起进步~ . 博客主页 :

    2024年02月06日
    浏览(40)
  • 深度学习基本概念简介

    一、Linear Models\\\' Bias 上篇学习机器学习一文中,所构造的 $y = b + wx_0$ 函数是一个linear model亦即线性模型,但是linear models有缺陷的——它过于简单了。实际应用中,我们所面临的不会只是一个简单的linear model,因此我们需要更复杂的models。 比如上图中的红色曲线,如何找到它

    2024年04月16日
    浏览(45)
  • 主流开源深度学习框架简介

    本文目录: 一、TensorFlow深度学习框架 二、PyTorch深度学习框架 三、Keras深度学习框架 四、Caffe深度学习框架 五、中国深度学习开源框架状况 六、几种框架的对比 七、其他统计数据 当下,有许多主流的开源深度学习框架供开发者使用。 主要包括TensorFlow、PyTorch、Keras、Caffe等

    2024年02月11日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包