论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

这篇具有很好参考价值的文章主要介绍了论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一. 摘要

如何将现有的图像 - 文本多模态大模型(例如 OpenAI CLIP)用于视频内容理解,是一个非常实用且具有前景的研究课题。它不仅可以充分挖掘图像大模型的潜力,还可以为视频大模型的设计和研究铺平道路。
在视频内容理解领域,为节省计算 / 数据开销,视频模型通常 「微调」图像预训练模型。而在图像领域, 最近流行的语言 - 图像预训练模型展现了卓越的泛化性,尤其是零样本迁移能力。那么人们不禁要问:能否有一种视频模型兼顾「微调」 的高效和 「语言 - 图像预训练」的全能?答案是可以!
为解决此问题,来自微软的研究者提出了将语言 - 图像预训练模型拓展到通用视频识别的方法,在建模时序信息的同时,利用类别标签文本中的语义信息。该方法在 Kinetics-400/600 数据集上分别取得了 87.7% 和 88.3% 的 Top-1 分类准确率,计算量仅为ViViT 和 Video Swin的十几分之一,并且在 few-shot 和 zero-shot 评测上大幅领先其它方法,如下图所示,代码已开源。

论文链接
代码链接
论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

二. 亮点

  • 无需海量视频 - 文本数据:直接将预训练的语言 - 图像模型在下游视频数据集微调,而非从零使用视频 - 文本预训练
  • 利用标签中的语义信息:在视频识别任务中,抛弃了传统离散标签,充分利用每个类别标签中的语义信息并提升了性能
  • 方法简单、高效且通用:无缝衔接至不同的语言 - 图像模型,可用于多种数据分布场景,如全样本、少样本和零样本

至于视频分类的效果,与其他方法相比,X-CLIP 可用于零样本识别,即用户自定义候选标签,实现对视频内容更精准的描述,如下图所示:

  1. 三只狗在拉雪橇
    论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition
  2. 在水池上灌篮
    论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition
  3. 更换车轮
    论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

三. 研究动机

最近,语言 - 图像预训练模型(Language-image pretrained models)在计算机视觉领域引起了极大关注。它使用更广泛的文本信息作为监督,打破了传统模型学习固定视觉概念的范式。受益于此,其展示出了强大的迁移能力和泛化能力,在全样本、少样本和零样本分类上取得了卓越的成绩。
现在是一个短视频爆发的时代,现实世界中丰富的概念更是难以被一个固定的封闭集所定义。于是,研究人员和从业人员也希望有一个泛化能力强大的视频模型,能在不同的数据分布场景和不同的概念环境中表现优异。这样的模型会助力于现实世界的许多应用,比如自动驾驶、视频标签、安防监控等。同样,由于视频的获取成本通常更加高昂,少样本和零样本的识别能力也被期待。
但是,如果直接模仿语言 - 图像预训练,使用视频 - 文本预训练会带来以下两个问题:

  • 数据困境:需要数以亿计的视频 - 文本数据,但是大量的数据是难以获得的;
  • 计算困境:视频的训练通常需要数倍于图像的计算资源,这些资源消耗通常无法承受。

有鉴于此,研究者考虑探索如何将预训练的语言 - 图像模型中的知识迁移到视频领域,而非从零预训练一个语言 - 视频模型。与图像相比,视频增加了时间的维度;与传统视频识别框架相比,研究者引入了文本信息。
因此,研究者需要解决两个关键问题:

  • 如何在语言 - 图像预训练模型中建模视频的时序信息?
  • 如何利用视频类别标签中的文本信息?

四.方法详述

针对第一个问题,研究者提出了 Cross-frame Communication Transformer 和 Multi-frame Integration Transformer 模块,在预训练模型中引入时序信息;对于第二个问题,研究者提出了 Video-specific Prompting 机制,用于产生视频自适应的提示信息,充分地利用了类别标签中的文本信息和视频信息。方法整体框架图如下图所示。
论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

CCA(Cross-frame Communication attention block)模块如下图所示:利用message token(cls_token)帧间通讯,来建模时序信息
论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

本文中,研究者提出了一种简单高效的视频编码器。该编码器由两部分组成,即 Cross-frame Communication Transformer(CCT)和 Multi-frame Integration Transformer(MIT)。为了避免联合时空建模(join space-time attention)的高计算量,整体上,CCT 采用各帧独立编码的计算方式。

具体地,对每一帧编码时,动态地生成各自的 message token(也即是每一帧的cls_token)(如下图中彩色的圆形部分),携带所在帧的信息,再通过 Cross-frame Fusion Attention 交换不同帧的 message token 携带的信息,弥补了时序信息的缺失。具体地,如上图所示,在 CCT 的每一个 block 中,我们在 cls token 上施加线性变化得到 message token,每帧的 message token 通过 Cross-frame Fusion Attention(CFA)交换信息,如下面公式所示:

论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

随后,每一帧的 message token 再回归到所属帧。通过 Intra-frame Diffusion Attention(也即是每帧进行空间上的self-attention自注意力计算),每一帧内的 spatial tokens 在建模空间信息的同时,吸收了来自 message token 的全局时序信息,如下面公式所示

论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

最后,每一帧的 spatial tokens 再经过 FFN 进一步编码信息。为了进一步提升性能,研究者在 CCT 产生的每帧的特征上,额外使用一层 Multi-frame Integration Transformer(MIT)聚合每一帧的信息(使用每一帧的cls-token进行multi-self attention自注意力计算),产生视频最终的表达

Cross-frame Fusion Attention 和 MIT 是额外添加的模块并使用随机初始化。Intra-Frame Diffusion Attention 和 FFN 对应于预训练 Vision Transformer 中的 self-attention 和 FFN 部分。值得注意的是,因为帧数(本篇论文通常采用8或者16帧)(message tokens 的数量)远小于 spatial tokens 的数量,所以 Cross-frame Fusion Attention 和一层 MIT 的计算量远小于 Intra-frame Diffusion Attention, 这样便以较小的计算代价建模了全局的时序信息。

利用标签的语义信息:视频自适应的提示学习针对第二个问题,提示学习(Prompt learning)主张为下游任务设计一种模板,使用该模板可以帮助预训练模型回忆起自己预训练学到的知识。比如, CLIP手动构造了 80 个模板,CoOp主张构造可学习的模板。

研究者认为,人类在理解一张图片或视频时,自然地会从视觉内容中寻找有判别性的线索。例如有额外的提示信息「在水中」,那么「游泳」和「跑步」会变得更容易区分。但是,获取这样的提示信息是困难的,原因有二:

  • 数据集中通常只有类别标签,即「跑步」、「游泳」、「拳击」等名称,缺乏必要的上下文描述,固定的标签名称
  • 同一个类别下的视频共享相同的标签信息,但它们的关键视觉线索可能是不同

为了缓解上述问题,研究者提出了从视觉表征中学习具有判别性的线索。具体地,他们提出了视频自适应的提示模块,根据视频内容的上下文,自适应地为每个类别生成合适的提示信息每个视频的自适应提示模块由一个 cross-attention 和一个 FFN 组成。令文本特征当作 query,视频内容的编码当作 key 和 value(Key,Value是从经过视频编码器Multi-frame Integration Transformer(MIT)后得到的,也即是视频每帧添加的cls_token作为key,value),允许每个类别的文本从视频的上下文中提取有用的提示信息作为自己的补充,最后,使用学习到的提示信息来丰富原本文本信息的表示,使得其具有更强的判别性。,公式如下。
论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

五.试验结果

研究者在全样本(Fully-supervised)、**少样本(few-shot)零样本(zero-shot)**上验证了方法的性能。
在 Kinetics-400 上的实验如下图所示,可以看出 X-CLIP 在 FLOPs 更小的情况下领先于其它方法,这得益于提出的视频编码器的高效性。当和其它使用互联网(Web)规模数据预训练的模型比较时,本文的方法依然有性能优势,这归功于该方法充分挖掘和利用了预训练语言 - 图像模型中的表达能力。
论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

K400准确度为87.7%,K600准确度为88.3%,如下图所示:

论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

下图展示了few-shot少样本情况下的性能,和经典的使用离散标签监督的方法相比,使用文本信息可以大幅提升性能。研究者在消融实验中证明了性能增益更多来自于文本的使用,而非更强的预训练模型。
论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

下图展示了在zero-shot 零样本情况下,提出的方法依然有效。这种显著的改进可以归因于所提出的视频 - 文本学习框架,该框架利用大规模的视觉 - 文本预训练和视频自适应的提示学习。
论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

消融试验:研究者在消融实验中展示了每个模块的作用,分析了文本信息的必要性,探索了不同数据分布下应该训练哪个分支,比较了不同的 prompts 方法。

论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

六. 总结

  • 视频编码器包含两个transformer,第一个transformer是Cross-frame Communication Transformer(CCT),包含12个block,里面每个block有Cross-frame Fusion Attention(CFA)和 Intra-frame Diffusion Attention(IFA),CFA将各帧cls_token计算多头自注意力(Mutil-head self attention),从而对视频时序建模,获取视频全局时序信息;IFA计算每一帧里面各个patch的空间自注意力信息。
  • 第二个transformer是Multi-frame Integration Transformer(MIT),只包含1个block,一个标准的transformer encoder 的block(一个Mutil-head Self Attention+FFN),输入是视频每帧经过第一个transformer编码得到后的所有帧的cls_token作为输入,进行多头自注意力计算。
  • 视频自适应文本提示:将数据集标签经过text transformer编码后得到的cls_token当做query与经过视频编码器后得到的所有帧的cls_token当做key,value 进行多头注意力计算(注意此处不是进行自注意力计算),来生成视频自适应的文本提示。

七. 相关链接

1. ECCV 2022 | 视频理解新框架X-CLIP:仅用微调的成本,达到预训练的全能
2. 论文链接
3. 代码链接文章来源地址https://www.toymoban.com/news/detail-430719.html

到了这里,关于论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CLIP 论文解读

    现有的计算机视觉系统用来预测一组固定的预订对象类别,比如ImageNet数据集有1000类,CoCo数据集有80类。这种受限的监督形式限制了模型的通用性和可用性。使用这种方法训练好的模型对训练过程中出现的对象类别有很好的识别效果,但是对训练过程中未出现的类别,识别效

    2024年02月04日
    浏览(51)
  • CLIP,GLIP论文解读,清晰明了

    CLIP:Contrastive Language-Image Pre-training 论文名称:Learning Transferable Visual Models From Natural Language Supervision 原论文地址:https://arxiv.org/abs/2103.00020 开源预训练模型:https://github.com/OpenAI/CLIP GLIP论文名称:Grounded Language-Image Pre-training 原论文地址: https://arxiv.org/abs/2112.03857 是的没错,开

    2024年02月05日
    浏览(46)
  • VLM 系列——中文CLIP——论文解读

        CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》,训练使用2亿 图-文 对的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图

    2024年01月24日
    浏览(65)
  • CLIP论文笔记——Learning Transferable Visual Models From Natural Language Supervision

    一个强大的无监督训练模型 通过NLP来的监督信号得到迁移学习 进行图片与文字的配对实现监督的信号,解决了需要打标签进行训练的限制,增强了模型的泛化能力 CLIP的结构包含两个模型 Text Encoder 和 Image Encoder ,Text Encoder用于提取文本特征,Image Encoder用来提取图像特征 C

    2024年02月02日
    浏览(39)
  • CLIP原理解读——大模型论文阅读笔记一

    通过自然语言处理来的一些监督信号,可以去训练一个迁移效果很好的视觉模型。 论文的作者团队收集了一个超级大的图像文本配对的数据集,有400 million个图片文本的配对, 模型最大用了ViT-large,提出了CLIP(Contrastive Language-Image Pre-training),是一种从自然语言监督中学习

    2024年02月08日
    浏览(44)
  • 【论文精读】Hierarchical Text-Conditional Image Generation with CLIP Latents

    本篇工作即DALL·E2,是文生图领域和多模态领域具有轰动性的工作,其一出现就上了各大板块的热搜。DALL·E2生成的图像丰富且真实,很容易以假乱真。它的实现基于CLIP和扩散模型,前者结合丰富的图文语义,后者生成多样高质量图像,这套组合拳可谓实力十足。下面就来看

    2024年02月09日
    浏览(42)
  • 论文翻译:Text-based Image Editing for Food Images with CLIP

    图1:通过文本对食品图像进行处理的结果示例。最左边一栏显示的是原始输入图像。\\\"Chahan\\\"(日语中的炒饭)和 \\\"蒸饭\\\"。左起第二至第六列显示了VQGAN-CLIP所处理的图像。每个操作中使用的提示都是将食物名称和 \\\"与 \\\"一个配料名称结合起来。例如,第二列中的两幅图像分别是

    2024年02月16日
    浏览(47)
  • 【GPT-2】论文解读:Language Models are Unsupervised Multitask Learners

    论文:Language Models are Unsupervised Multitask Learners 作者:Alec Radford, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, I. Sutskever 时间:2019 GPT-2 是一个有15亿参数的模型,GPT-2的想法是转向一个通用的系统,不需要进行数据集的标注就可以执行许多的任务; 因为数据集的创建是很难的,我们很难

    2024年02月22日
    浏览(44)
  • LLaMA(Open and Efficient Foundation Language Models )论文解读(二)

    此篇博客主题:LLAMA模型数据、训练时长、功耗及碳排放量 LLaMA: Open and Efficient Foundation Language Models paper https://arxiv.org/pdf/2302.13971v1.pdf Overall, our entire training dataset contains roughly 1.4T tokens after tokenization. For most of our training data, each token is used only once during training, with the exception of t

    2024年02月16日
    浏览(47)
  • ChatGPT2论文解读《Language Models are Unsupervised Multitask Learners》(2019)

    以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。 数据集 自制了一个网页爬虫,被抓取的网页部分来自于社交平台,这些网页由人工进行过滤。最终生成 WebText数据集 ,包含45000000个链接。另一部分来自于新闻网站,数据截

    2024年02月08日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包