【计算机视觉】CLIP:连接文本和图像(关于CLIP的一些补充说明)

这篇具有很好参考价值的文章主要介绍了【计算机视觉】CLIP:连接文本和图像(关于CLIP的一些补充说明)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、前言

我们推出了一个名为CLIP的神经网络,它可以有效地从自然语言监督中学习视觉概念。CLIP可以应用于任何视觉分类基准,只需提供要识别的视觉类别名称,类似于GPT-2和GPT-3的“零样本”功能。

尽管深度学习彻底改变了计算机视觉,但当前的方法存在几个主要问题:

  • 典型的视觉数据集是劳动密集型的,创建成本高昂,同时只教授一小部分视觉概念;
  • 标准视觉模型擅长一项任务且仅擅长一项任务,并且需要付出大量努力才能适应新任务;

在基准测试中表现良好的模型在压力测试中的表现令人失望,这让人们对计算机视觉的整个深度学习方法产生了怀疑。

我们提出了一个旨在解决这些问题的神经网络:

它在各种图像上进行训练,并接受互联网上大量提供的各种自然语言监督。 通过设计,可以用自然语言指示网络执行各种分类基准测试,而无需直接针对基准性能进行优化,类似于 GPT-2 和 GPT-3 的“零样本”功能。

这是一个关键的变化 :通过不直接针对基准进行优化,我们表明它变得更具代表性:我们的系统将这种“稳健性差距”缩小了高达 75%,同时在 ImageNet 零镜头上匹配原始 ResNet-50 的性能,而无需使用任何原始的 1.28M 标记示例。

clip网络,计算机视觉,计算机视觉,人工智能,CLIP,OpenAI

二、背景及相关工作

CLIP(对比语言-图像预训练)建立在大量关于零镜头迁移、自然语言监督和多模式学习的工作之上。

零数据学习的想法可以追溯到十多年前,但直到最近才主要在计算机视觉中作为一种泛化到看不见的对象类别的方式进行研究。

一个关键的见解是利用自然语言作为灵活的预测空间来实现泛化和转移。 2013 年,Richer Socher 和斯坦福大学的合著者通过在 CIFAR-10 上训练模型在词向量嵌入空间中进行预测来开发概念证明,并证明该模型可以预测两个不可见的类。

同年,DeVISE 扩展了这种方法,并证明可以微调 ImageNet 模型,使其可以泛化以正确预测原始 1000 个训练集之外的对象。

对 CLIP 最有启发性的是 Ang Li 和他的合著者在 FAIR 上的工作,他们在 2016 年演示了使用自然语言监督来实现零镜头迁移到几个现有的计算机视觉分类数据集,例如规范的 ImageNet 数据集。 他们通过微调 ImageNet CNN 从 3000 万张 Flickr 照片的标题、描述和标签文本中预测更广泛的视觉概念(视觉 n-gram),并在 ImageNet 上达到 11.5% 的准确率,从而实现了这一目标 零射击。

最后,CLIP 是一组论文的一部分,这些论文重新审视了过去一年中从自然语言监督中学习视觉表示。

这一系列工作使用更现代的架构,如 Transformer,包括探索自回归语言建模的 VirTex,研究屏蔽语言建模的 ICMLM,以及研究我们用于 CLIP 的相同对比目标的 ConVIRT,医学影像。

三、方法

我们表明,扩展一个简单的预训练任务足以在各种图像分类数据集上实现有竞争力的零样本性能。

我们的方法使用大量可用的监督来源:文本与在互联网上找到的图像配对。

此数据用于为 CLIP 创建以下代理训练任务:给定一张图像,预测一组 32,768 个随机抽样的文本片段中的哪一个在我们的数据集中与它实际配对。

为了解决这个任务,我们的直觉是 CLIP 模型需要学习识别图像中的各种视觉概念并将它们与它们的名称相关联。 因此,CLIP 模型可以应用于几乎任意的视觉分类任务。

例如,如果数据集的任务是对狗和猫的照片进行分类,我们会检查每张图像,CLIP 模型是否预测文本描述 “a photo of a dog” 或 “a photo of a cat” 更有可能配对 用它。

clip网络,计算机视觉,计算机视觉,人工智能,CLIP,OpenAI

CLIP 旨在缓解计算机视觉标准深度学习方法中的一些主要问题:

3.1 Costly datasets

深度学习需要大量数据,而视觉模型传统上是在人工标记的数据集上训练的,这些数据集的构建成本很高,而且只对有限数量的预定视觉概念提供监督。

ImageNet 数据集是该领域最大的成果之一,需要超过 25,000 名工作人员为 22,000 个对象类别标注 1400 万张图像。 相比之下,CLIP 从互联网上公开的文本图像对中学习。 先前的工作已经广泛研究了减少对昂贵的大型标记数据集的需求,特别是自我监督学习对比方法、自我训练方法和生成建模。

3.2 Narrow

ImageNet 模型擅长预测 1000 个 ImageNet 类别,但这就是它“开箱即用”的全部功能。

如果我们希望执行任何其他任务,机器学习从业者需要构建一个新的数据集,添加一个输出头,并对模型进行微调。

相比之下,CLIP 可以适应执行各种视觉分类任务,而无需额外的训练示例。

要将 CLIP 应用于新任务,我们需要做的就是“告诉”CLIP 的文本编码器任务视觉概念的名称,它将输出 CLIP 视觉表示的线性分类器。

这种分类器的准确性通常可以与完全监督的模型相媲美。

3.3 Poor real-world performance

深度学习系统经常被报道可以达到人类甚至超人的表现。在视觉基准上,但在野外部署时,它们的性能可能远低于基准设定的预期。 换句话说,“基准性能”和“实际性能”之间存在差距。

我们推测,之所以会出现这种差距,是因为模型仅通过优化基准性能来“作弊”,就像一名学生通过仅研究过去几年考试中的问题来通过考试一样。

相比之下,CLIP 模型可以在基准上进行评估,而无需对其数据进行训练,因此它不能以这种方式“作弊”。 这导致其基准性能更能代表其在野外的性能。

为了验证“作弊假设”,我们还测量了 CLIP 在能够“学习”ImageNet 时的性能变化。

当线性分类器安装在 CLIP 的特征之上时,它将 CLIP 在 ImageNet 测试集上的准确率提高了近 10%。

然而,这个分类器在 7 个其他数据集的评估套件中的平均表现并没有更好,这些数据集测量了“稳健”的性能。

四、要点

4.1 CLIP is highly efficient

CLIP 从未经过滤的、高度多样化和高度嘈杂的数据中学习,旨在以零样本的方式使用。

我们从 GPT-2 和 3 中了解到,在此类数据上训练的模型可以实现令人信服的零样本性能; 然而,此类模型需要大量的训练计算。 为了减少所需的计算,我们专注于算法方法来提高我们方法的训练效率。

我们报告了导致显着计算节省的两种算法选择。

第一个选择是采用对比目标来连接文本和图像。我们最初探索了一种图像到文本的方法,类似于 VirTex,但遇到了缩放它以实现状态的困难- 艺术表演。 在中小型实验中,我们发现 CLIP 使用的对比目标在零样本 ImageNet 分类方面的效率提高了 4 到 10 倍。

第二个选择是采用 Vision Transformer,与标准 ResNet 相比,它使我们的计算效率进一步提高了 3 倍。 最后,我们性能最好的 CLIP 模型在 256 个 GPU 上训练了 2 周,这与现有的大规模图像模型相似。

clip网络,计算机视觉,计算机视觉,人工智能,CLIP,OpenAI

4.2 CLIP is flexible and general

因为它们直接从自然语言中学习了广泛的视觉概念,所以 CLIP 模型比现有的 ImageNet 模型更加灵活和通用。 我们发现他们能够零射击执行许多不同的任务。

为了验证这一点,我们测量了 CLIP 在 30 多个不同数据集上的零样本性能,包括细粒度对象分类、地理定位、视频中的动作识别和 OCR 等任务。

特别是,学习 OCR 是标准 ImageNet 模型中不会发生的令人兴奋的行为的一个例子。 上面,我们从每个零样本分类器中可视化了一个随机的非 cherry picked 预测。

这一发现也反映在使用线性探针的标准表示学习评估中。 在我们测试的 26 个不同传输数据集中的 20 个上,最佳 CLIP 模型优于公开可用的最佳 ImageNet 模型 Noisy Student EfficientNet-L2。

clip网络,计算机视觉,计算机视觉,人工智能,CLIP,OpenAI
clip网络,计算机视觉,计算机视觉,人工智能,CLIP,OpenAI

五、限制

虽然 CLIP 通常在识别常见物体方面表现良好,但它在更抽象或系统的任务(例如计算图像中的物体数量)和更复杂的任务(例如预测照片中最近的汽车的距离)方面表现不佳。

在这两个数据集上,零样本 CLIP 仅略优于随机猜测。 与任务特定模型相比,零样本 CLIP 在非常细粒度的分类上也表现不佳,例如区分汽车模型、飞机变体或花卉种类。

CLIP 对其预训练数据集中未涵盖的图像的泛化能力仍然很差。

例如,尽管 CLIP 学习了一个功能强大的 OCR 系统,但在对来自 MNIST 数据集的手写数字进行评估时,零样本 CLIP 仅达到 88% 的准确率,远低于数据集上人类的 99.75%。

最后,我们观察到 CLIP 的零样本分类器可能对措辞或措辞敏感,有时需要反复试验“提示工程”才能表现良好。

六、更广泛的影响

CLIP 允许人们设计自己的分类器并消除了对特定任务训练数据的需求。 这些类的设计方式会严重影响模型性能和模型偏差。 例如,我们发现当给定一组标签时,包括 Fairface 种族标签 C 。

以及一些令人震惊的术语,如“犯罪”、“动物”等,该模型倾向于将 0-20 岁的人的图像分类为令人震惊的类别,比率约为 32.3%。 然而,当我们将类“child”添加到可能的类列表中时,这种行为下降到约 8.7%。

此外,鉴于 CLIP 不需要特定任务的训练数据,它可以更轻松地解锁某些特定任务。 其中一些任务可能会引发与隐私或监视相关的风险,我们通过研究 CLIP 在名人识别方面的表现来探讨这一问题。

当从 100 个候选对象中进行选择时,CLIP 在“野外”名人图像分类中的 top-1 准确率为 59.2%,而当从 1000 个可能的选项中进行选择时,CLIP 的 top-1 准确度为 43.3%。

尽管通过与任务无关的预训练实现这些结果值得注意,但与广泛使用的生产级模型相比,这种性能并不具有竞争力。

我们进一步探讨了 CLIP 在我们的论文中提出的挑战,我们希望这项工作能够激发未来对此类模型的能力、缺点和偏差的表征的研究。

七、结论

借助 CLIP,我们测试了是否也可以利用互联网规模自然语言的任务不可知预训练(它推动了 NLP 的最新突破)来提高其他领域深度学习的性能。

到目前为止,我们对将这种方法应用于计算机视觉所取得的成果感到非常兴奋。

与 GPT 系列一样,CLIP 在预训练期间学习了各种各样的任务,我们通过零镜头迁移展示了这些任务。 我们对 ImageNet 的发现也感到鼓舞,这些发现表明零样本评估是衡量模型能力的更具代表性的指标。文章来源地址https://www.toymoban.com/news/detail-706774.html

到了这里,关于【计算机视觉】CLIP:连接文本和图像(关于CLIP的一些补充说明)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(6月 29 日论文合集)

    基于多示例学习的全幻灯片图像分类的伪袋混合增强 论文地址: 鉴于十亿像素图像建模的特殊情况,多实例学习(MIL)已成为全幻灯片图像(WSI)分类最重要的框架之一。 在当前实践中,大多数 MIL 网络在训练中经常面临两个不可避免的问题:i)WSI 数据不足,ii)神经网络

    2024年02月11日
    浏览(57)
  • 【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 7 日论文合集)

    用于图像异常检测的上下文亲和度提取 以往的无监督工业异常检测工作主要集中在局部结构异常,如裂纹和颜色污染。虽然在这种异常上实现了显着的高检测性能,但它们面临着违反远程依赖性的逻辑异常,例如放置在错误位置的正常对象。在本文中,基于以前的知识蒸馏工

    2024年02月12日
    浏览(76)
  • 【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 17 日论文合集)

    Tall:用于深度假冒视频检测的缩略图布局 deepfake对社会和网络安全的威胁日益严重,引起了公众的极大关注,人们越来越多地致力于deepfake视频检测这一关键话题。现有的视频方法实现了良好的性能,但计算密集型。本文介绍了一种简单而有效的策略–缩略图布局(TALL),该

    2024年02月16日
    浏览(72)
  • 【计算机视觉】关于图像处理的一些基本操作

    图像平滑是指受传感器和大气等因素的影响,遥感图像上会出现某些亮度变化过大的区域,或出现一些亮点(也称噪声)。这种为了抑制噪声,使图像亮度趋于平缓的处理方法就是图像平滑。图像平滑实际上是低通滤波,平滑过程会导致图像边缘模糊化。 均值滤波 线性滤波,针

    2024年02月14日
    浏览(47)
  • 【计算机视觉】如何利用 CLIP 做简单的人脸任务?(含源代码)

    CELEBA 数据集( CelebFaces Attributes Dataset )是一个大规模的人脸图像数据集,旨在用于训练和评估人脸相关的计算机视觉模型。该数据集由众多名人的脸部图像组成,提供了丰富的人脸属性标注信息。 以下是 CELEBA 数据集的一些详细信息: 规模: CELEBA 数据集包含超过 20 万张名

    2024年02月04日
    浏览(54)
  • 计算机视觉——图像视觉显著性检测

    目录 系列文章目录 零、问题描述 一、图像显著性检测 1.定义 2.难点 二、常用评价标准和计算方法 1.综述 2.ROS曲线详述 2.1 混淆矩阵 2.2 ROC曲线简介 2.3 ROC曲线绘制及其判别标准 2.4 ROC曲线补充 三、Fast and Efficient Saliency (FES) 1.算法简介 2.项目导入与解析 3.FES注意预测实践 4.评价

    2024年02月03日
    浏览(56)
  • 【计算机视觉 | 目标检测】OVSeg:Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP论文讲解

    开放词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练过程中可能没有看到。 最近的两阶段方法首先生成与类别无关的mask proposals,然后利用预训练的视觉语言模型(例如CLIP)对 masked regions 进行分类。我们认为这种模式的性能瓶颈是预训练的CLIP模型,因

    2024年02月09日
    浏览(51)
  • 计算机视觉----图像拼接

     一.简介 图像拼接(Image Stitching)是一种利用实景图像组成全景空间的技术,它将多幅图像拼接成一幅大尺度图像或360度全景图,接可以看做是场景重建的一种特殊情况,其中图像仅通过平面单应性进行关联。图像拼接在运动检测和跟踪,增强现实,分辨率增强,视频压缩和图

    2024年02月09日
    浏览(52)
  • 计算机视觉--图像拼接

    单应性变换是指一个平面上的点通过一个矩阵变换映射到另一个平面上的点,这个变换矩阵是一个 3 × 3 3 times 3 3 × 3 的矩阵,称为单应性矩阵。单应性变换可以分为仿射变换和投影变换两种类型。 在单应性变换中,仿射变换是其中一种特殊的变换。仿射变换是指在变换前后

    2024年02月04日
    浏览(52)
  • 计算机视觉 -- 图像分割

    引入问题: 在自动驾驶系统中,如果用之前的检测网络(例如Faster-Rcnn),试想,倘若前方有一处急转弯,系统只在道路上给出一个矩形标识,这样一来车辆很有可能判断不出是该避让还是径直上前,车祸一触即发。因此,对新技术的诉求应运而生,该技术须能识别具体路况

    2024年02月11日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包