【多模态】CLIP模型

这篇具有很好参考价值的文章主要介绍了【多模态】CLIP模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Title: Learning transferable visual models from natural language supervision

作者:Alec Radford * 1 Jong Wook Kim * 1 Chris Hallacy 1 Aditya Ramesh 1 Gabriel Goh 1 Sandhini Agarwal Girish Sastry 1 Amanda Askell 1 Pamela Mishkin 1 Jack Clark 1 Gretchen Krueger 1 Ilya Sutskever 1

发表单位:OpenAI, San Francisco

关键词:clip、多模态

论文:https://arxiv.org/pdf/2103.00020

代码:https://github.com/OpenAI/CLIP

一句话总结:利用text信息监督视觉任务自训练,本质就是将分类任务化成了图文匹配任务,效果可与全监督方法相当 ;

最大的优点:它打破了categorical label的限制(在分类的时候必须要定义一个分类的列表,如果不在分类的任务之中,是没办法分出来的,或者只能分类成最相似的。)

  【多模态】CLIP模型

文本和图像的匹配。 假设有n个样本对,一个图片对应一个文本。

每个句子经过一个text encoder(可以是resnet,也可以是transformer)得到n个向量,记为T_N;每个图片经过image encoder得到N个向量得到I_N。构建一个矩阵,这个矩阵的对角线上的损失最小(因为是匹配的),是正样本,非对角线的元素是负样本,希望损失最大。

数据:CLIP采用了4E的图文配对的数据,从头开始学习。

类型:zero-shot 

证明了简单的预训练任务,即预测哪个标题caption与哪个图像相匹配,是一种有效的、可扩展的方法,可以在从互联网上收集的4亿个(图像、文本)对数据集上从头开始学习SOTA的图像表示。

摘要:

SOTA计算机视觉系统经过训练,可以预测一组固定的预定对象类别。这种受限的监管形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种很有前途的选择,它利用了更广泛的监督来源。我们证明,在从互联网收集的4亿对(图像、文本)数据集上,预测哪个字幕(caption)与哪个图像匹配的简单预训练任务是一种有效且可扩展的方法,可以从头学习SOTA图像表示。在预训练后,使用自然语言引用学习到的视觉概念(或描述新概念),从而实现模型到下游任务的zero-shot 的迁移。我们研究了30多个不同计算机视觉数据集的性能,包括OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务。该模型可以非平凡地转移到大多数任务,并且通常可以与完全监督的基线进行竞争,而无需任何特定于数据集的培训。例如,我们在ImageNet zero shot上匹配原始ResNet50的精度,而不需要使用它所训练的128万个训练示例中的任何一个。

introduction

在过去几年中,直接从原始文本学习的方法彻底改变了NLP(Dai&Le,2015;Peters et al.,2018;Howard&Ruder,2018;Radford et al.,2018;Devlin et al.,2018;Raffel et al.,2019)。将“文本到文本”发展为标准化的输入-输出接口,使任务无关架构能够将zero-shot 迁移到下游数据集。像GPT-3这样的旗舰系统(Brown et al.,2020)现在在许多定制(bespoke)模型的任务中都具有竞争力,同时几乎不需要数据集特定的培训数据。这些结果表明,在网络规模的文本集合中,现代预训练方法的总体监督能力超过了高质量的人群标记NLP数据集。

然而,在计算机视觉等其他领域,在人群标记数据集(如ImageNet)上预训练模型仍然是标准做法(Deng等人,2009)。直接从网络文本中学习的可扩展的预训练方法能否在计算机视觉领域取得类似的突破?

之前的工作令人鼓舞。Joulin等人(2016年)证明,经过训练以预测图像字幕中的单词的CNN可以学习与ImageNet训练相竞争的表征。Li等人(2017)随后将该方法扩展到预测短语n-gram以及单个单词,并证明了他们的系统能够将零镜头传输到其他图像分类数据集。VirTex(Desai&Johnson,2020)、ICMLM(Bulent Sariyildiz et al.,2020)和ConVIRT(Zhang et al.,2020)最近采用了更新的架构和培训前方法,展示了基于转换器的语言建模、掩蔽语言建模和对比目标从文本中学习图像表示的潜力。然而,上述模型仍在执行当前的SOTA计算机视觉模型,如大转移(Kolesnikov et al.,2019)和弱监督的ResNeXt(Mahajan et al.,2018)。一个关键的区别是规模。Mahajan et al.(2018)和Kolesnikov et al.(2019)在数百万到数十亿张图像上进行了加速器年培训,VirTex、ICMLM和ConVIRT在一到二十万张图像上进行了加速器日培训。我们填补了这一空白,并大规模研究了自然语言监督训练的图像模型的行为。我们证明了一种简化的ConVIRT从头开始训练,我们称之为CLIP,用于对比语言图像预训练,是一种有效且可扩展的自然语言监控学习方法。我们找到了CLIP在预训练期间学习执行一系列任务,包括OCR、地理定位、动作识别,并在计算效率更高的情况下优于最好的公共可用ImageNet模型。我们还发现,零镜头剪辑模型比同等精度的监督ImageNet模型更具鲁棒性。

approach

现有工作主要使用了三个数据集,MS-COCO(Lin et al.,2014)、Visual Genome(Krishna et al.,2017)和YFCC100(Thomee et al.,2016)。虽然MS-COCO和Visual Genome是高质量的人群标记数据集,但按照现代标准,它们都很小,每个都有大约100000张训练照片。相比之下,其他计算机视觉系统在多达35亿张Instagram照片上接受培训(Mahajan等人,2018年)。1亿张照片的YFCC100M是一种可能的替代方案,但每个图像的元数据都很稀疏,质量也各不相同。许多图像使用自动生成的文件名,如2016071613957。JPG作为“标题”或包含相机曝光设置的“说明”。经过筛选,只保留带有自然语言标题和/或英文描述的图像后,数据集缩小了6倍,只有1500万张照片。这与ImageNet的大小大致相同。自然语言监管的一个主要动机是互联网上公开的大量这种形式的数据。为了验证这一点,我们构建了一个新的数据集,该数据集包含从互联网上各种公开来源收集的4亿对(图像、文本)。为了尽可能广泛地涵盖一组视觉概念,我们在构建过程中搜索(图像、文本)对,其文本包括一组500000个查询中的一个。我们通过在每个查询中包含多达20000对(图像、文本)来大致平衡结果。结果数据集的总字数与用于训练GPT-2的WebText数据集相似。我们将此数据集称为WebImageText的WIT。

我们最初的方法类似于VirTex,从零开始联合训练图像CNN和文本转换器来预测图像的标题。然而,我们在有效地扩展此方法时遇到了困难。在图2中,我们展示了一个6300万参数的transformer语言模型,该模型已经使用了其ResNet50图像编码器两倍的计算量,它学习识别ImageNet类的速度比Joulin et al.(2016)类似的方法慢三倍,该方法预测了相同文本的一袋单词编码。对比表征学习的最新研究发现,对比目标可以优于等效预测目标(Tian等人,2019)。注意到这一发现,我们探索了训练一个系统来解决可能更容易的代理任务,即仅预测哪个文本作为一个整体与哪个图像配对,而不是预测该文本的确切单词。从同一袋单词编码基线开始,我们将预测目标替换为图2中的对比目标,观察到零炮传输到ImageNet的效率进一步提高了4倍。

给定一批N(图像,文本)对,对片段进行训练,以预测在一批中实际发生的N×N(图像,文本)对中的哪一个。为此,CLIP通过联合训练图像编码器和文本编码器来学习多模态嵌入空间,以最大化批次中N个实数对的图像和文本嵌入的余弦相似性,同时最小化N个实数对的嵌入的余弦相似性− N不正确的配对。我们优化了这些相似性分数上的对称交叉熵损失。在图3中,我们为CLIP实现的核心包含了伪代码。该批量构建技术和目标首次作为多类N对丢失Sohn(2016)引入,最近Zhang等人(2020)将其应用于医学影像领域的对比(文本、图像)表征学习。

由于过度拟合不是主要问题,与Zhang等人(2020)相比,训练CLIP的细节简化了。我们从头开始训练剪辑,而不是用预先训练好的权重进行初始化。我们去除了表示空间和对比嵌入空间之间的非线性投影。我们仅使用线性投影将每个编码器的表示映射到多模态嵌入空间image\u encoder-ResNet或Vision Transformer#text\u encoder-CBOW或text Transformer#I[n,h,w,c]-对齐图像的小批量#T[n,l]-对齐文本的小批量#w\u I[d\u I,d\u e]-要嵌入的图像的学习项目#w\u T[d\u T,d\u e]-要嵌入的文本的学习项目#T-学习的温度参数#提取每个模态的特征表示u f=图像\u编码器(I)#[n,d\u I]T\u f=text\u编码器(T)#[n,d\T]#联合多模式嵌入[n,d\e]I\u e=l2\u规格化(np.dot(I\f,W\u I),axis=1)T\u e=l2\u规格化(np.dot(T\f,W\T),axis=1)#缩放成对余弦相似度[n,n]logits=np。点(I\u e,T\u e.T)*np。exp(t)#对称损失函数标签=np。arange(n)loss\u i=cross\u entropy\u loss(logits,labels,axis=0)loss\u t=cross\u entropy\u loss(logits,labels,axis=1)loss=(loss\u i+loss\u t)\/2图3。类Numpy伪代码,为CLIP的核心实现。我们还删除了文本转换函数tu,该函数从文本中均匀采样一个句子,因为CLIP预训练数据集中的许多(图像、文本)对都只是一个句子。我们还简化了图像转换函数tv。从调整大小的图像中随机裁剪正方形是训练期间使用的唯一数据增强。最后,在训练过程中,控制softmax中logit范围的温度参数τ直接作为对数参数化的乘法标量进行优化,以避免变为超参数。

微调:这种模型如何去微调?经过CLIP训练的网络只能得到图像和文本的特征,他并没有像Resnet,VGG等网络那样有一个分类头,我们无法对其进行微调。因此,CLIP借用了NLP中的prompt template。例如,Imagenet有1000个类,先将1000个类生成为一个简单的句子(以plane为例,生成一个"a photo of plane"),生成的1000个文本信息与图片构建一个1*1000的矩阵进行预测。

为什么这么做微调呢?因为在训练的时候,图片看到的都是一个句子,如果在推理的时候只保留一个单词。文章来源地址https://www.toymoban.com/news/detail-409771.html

到了这里,关于【多模态】CLIP模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 多模态模型学习1——CLIP对比学习 语言-图像预训练模型

    学了一些多模态的知识,CLIP算是其中最重要也是最通用的一环,一起来看一下吧。 CLIP的全称是Contrastive Language-Image Pre-Training,中文是对比语言-图像预训练,是一个预训练模型,简称为CLIP。 该模型是 OpenAI 在 2021 年发布的,最初用于匹配图像和文本的预训练神经网络模型,

    2023年04月13日
    浏览(56)
  • 【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型

    论文:Learning Transferable Visual Models From Natural Language Supervision 代码:https://github.com/OpenAI/CLIP 官网:https://openai.com/research/clip 出处:OpenAI 时间:2021.02 贡献: 基于图文匹配,不受限于分类类别,有很强的扩展性!!!这是 CLIP 最炸裂的地方,彻底摆脱了预定义标签列表了 不仅仅

    2024年02月15日
    浏览(47)
  • 论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake(多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF)

    论文名称:AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake 作者团队:   以前的方法仅侧重单模态的伪造,即使有多模态的数据也只是将音频信号当做监督信号,忽略了音频被伪造的可能。 提出一个新的多模态基准数据集DefakeAVMiT,其包含足够多的视频和音频伪造内容,两个

    2024年02月03日
    浏览(40)
  • 多模态大语言模型 LlaVA 论文解读:Visual Instruction Tuning

    代码:https://github.com/haotian-liu/LLaVA 在这篇论文中,作者首次尝试使用 纯语言 GPT-4 生成多模态语言图像指令遵循数据 (insruction-following data)。 通过对此类生成数据进行指令调整,推出了 大型语言和视觉助手 (Large Language and Vision Assistant, LLaVA )。一种端到端训练的大型多

    2024年02月11日
    浏览(41)
  • 迁移学习(Transfer Learning)

      迁移学习作为机器学习的一个分支,一直比较好奇,接着这篇文章对迁移学习做一个简单的了解(本篇只涉及外围,没有太多细节)。文章围绕以下主题产生:   1.迁移学习概要   2.迁移学习的分类   3.迁移学习的应用场景? 一、迁移学习概要   迁移学习(Trans

    2024年02月16日
    浏览(52)
  • 【论文合集】Awesome Transfer Learning

    目录 Papers (论文) 1.Introduction and Tutorials (简介与教程) 2.Transfer Learning Areas and Papers (研究领域与相关论文) 3.Theory and Survey (理论与综述) 4.Code (代码) 5.Transfer Learning Scholars (著名学者) 6.Transfer Learning Thesis (硕博士论文) 7.Datasets and Benchmarks (数据集与评测结果) 8.Transfer Learning Challen

    2024年02月06日
    浏览(84)
  • 深度学习|9.7迁移学习transfer learning

    迁移学习是指将针对某项任务学习到的知识应用到其他任务的问题解决中去。 可以下载别人训练好的网络,保留网络中训练好的参数(参数分两种,一种是人为设置好的超参数,另外一种是在训练过程中学习/调整到的参数) 注意的是,原先训练好的网络可能会有多个输出结

    2024年01月20日
    浏览(44)
  • 视觉大模型调研(Survey of Visual Foundation Model)

    目录 A.写在前面 B.论文支撑与基础理论 1.大模型基本概念的诞生 2.大模型产业化落地的理论支撑 3.视觉模型架构的形成-Transformer到ViT再到MAE C.产业落地化现状 1.百度文心 UFO 2.0 整体概述 原理介绍 模型效果 应用场景与方案 2.华为 盘古CV视觉大模型 模型预训练 模型部署与模型

    2024年02月09日
    浏览(71)
  • 基于LLMs的多模态大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC)

    当LLMs已经拥有了极强的对话能力后,如何使其拥有视觉和语音等多模态能力是紧接而来的热点(虽然GPT4已经有了),这个系列将不定期更新一些利用LLMs做多模态任务的文章。 直觉上,如果直接训练一个类似chatgpt架构的多模态框架一定会消耗非常大的数据和计算量,此外如

    2024年02月06日
    浏览(80)
  • 【多模态】4、Chinese CLIP | 专为中文图文匹配设计

    论文:Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese 代码:https://github.com/OFA-Sys/Chinese-CLIP 出处:阿里达摩院 时间:2022.11 贡献: 提出了 Chinese CLIP,是经过在大尺度中文图像-文本对儿的两阶段预训练 CLIP 的成功极大地促进了对比学习在视觉-语言模型预训练上的研究和应用

    2024年02月16日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包