【论文笔记】Video Vision Transformer(ViViT)

这篇具有很好参考价值的文章主要介绍了【论文笔记】Video Vision Transformer(ViViT)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

以下是我看了ViViT这篇文章的理解,如果理解有误,欢迎各位大佬指正。

原文:https://arxiv.org/abs/2103.15691

代码:https://github.com/google-research/scenic.

目录

一.介绍

二.简单介绍ViT原理

 三.Video Vision Transformer原理(ViViT)

 1.Tublet Embedding

2.“central  frame initialisation”3D滤波器生成方法

3.四种变体Attention的模型原理

1)Spatio-Temporal Attention Model

2) Factorised Encoder Model

3)Factorised Self-Attention Model

4)Factorised Dot-Product Attention Model

4.四个模型的区别


一.介绍

ViViT是一个视频分类模型,基于ViT模型进行了一些改进。ViT只用于2D图像的分类识别,视频与图像的区别是,视频引入了时间维度,因此ViViT模型在识别视频的时候也引入了时间维度,提出了tublet embedding来划分patches;3D滤波器的另一种生成方式;引入了时间维度的4种变体Attention模型,在各个数据集上的精确度都表现优秀:

video vit,论文阅读,transformer,深度学习

改进点:

1.提出了一种"Tubelet embedding "方法划分patches

2.提出了3D卷积滤波器的另一种生成方法:"central frame initialisation",来生成tokens

3.提出了4种变体Attention的模型:

        1) Spatial-Temporal Attention Model(采用了joint space-time attention机制)

        2)Factorised Encoder Model(效果在这四个提出的模型中最好)

        3)Factorised Self-Attention Model(类似于TimeSformer的divided space-time attention机制)

        4)Factorised Dot-Product Attention(在MSA多头自注意力机制中,一半的头只算空间的Attention,一半的头只算时间的Attention)

二.简单介绍ViT原理

        video vit,论文阅读,transformer,深度学习

video vit,论文阅读,transformer,深度学习

 三.Video Vision Transformer原理(ViViT)
 1.Tublet Embedding

在没有提出tublet embedding之前,一般用于划分视频patches用的是Uniform Frame Sampling:

video vit,论文阅读,transformer,深度学习

该论文提出了Tubelet embedding生成patches:

video vit,论文阅读,transformer,深度学习

2.“central  frame initialisation”3D滤波器生成方法

不论图像或者视频变成token都需要对划分的patches进行变换,其中图像生成token用的是2D卷积滤波器,因为图像划分的patches是2D的,而tublet embedding划分的patches是3D的,需要用3D卷积滤波器对其进行处理。通常3D滤波器生成用的是沿着时间维度复制2D滤波器并将其平均化,以此来“膨胀”它们变成3D滤波器:

        video vit,论文阅读,transformer,深度学习

该论文提出了用“central  frame initialisation”:即只有在[t/2]取整数的位置有2D滤波器,其余沿时间位置都是0,这样模型能够在训练过程中学习从多个帧中聚合时间信息:

video vit,论文阅读,transformer,深度学习

3.四种变体Attention的模型原理
1)Spatio-Temporal Attention Model

该模型与ViT模型不同之处在于计算注意力的方式不同,采用了联合时空注意力机制,同时输入的token也不同,ViT是2D patches通过2D卷积滤波器降维生成token,该模型是3D tublet embedding patches通过3D卷积滤波器(用“central  frame initialisation”方法生成)降维生成token,将 token输入到以下结构中:

video vit,论文阅读,transformer,深度学习

 我通过TimeSformer那篇论文,觉得这里的Joint Space-Time Attention中计算注意力得分的公式应该是:

video vit,论文阅读,transformer,深度学习

2) Factorised Encoder Model

Factorised Encoder的主要思想是用了两个编码器来处理时间和空间的信息:空间编码器来提取空间特征;时间编码器用来提取时间特征,由于该结构是分别处理时间维度和空间维度的信息的,因此计算量相比于1)的联合时空计算大大降低,下图的Factorised Encoder的结构:

video vit,论文阅读,transformer,深度学习

从这个结构来看,Factorised Encoder将来自不同patch的tokens分别输入空间transformer编码器中,生成空间分类token, 再将生成的空间分类token(一个patch生成一个空间分类token)输入到时间transformer编码器中,经过MLP,得到最终的分类结果。

这里我认为空间transformer编码器,时间transformer编码器跟transformer编码器的区别就是注意力机制的不同,空间transformer编码器中算的是只有空间变量的自注意力分数,时间transformer编码器算的是只有时间变量的自注意力分数。

3)Factorised Self-Attention Model

该模型与ViT不同之处是采用的注意力机制不同,该模型采用的计算注意力方式类似于TimeSformer的Divided Space-Time Attention,但TimeSformer是先计算时间attention分数,再计算空间attention分数。该模型是先计算空间attention,再计算时间attention。

video vit,论文阅读,transformer,深度学习

video vit,论文阅读,transformer,深度学习

4)Factorised Dot-Product Attention Model

该模型与ViT不同之处也是采用的注意力机制不同,原ViT模型采用的是多头自注意力机制(MSA),每个头部(heads)都有一组Wq,Wk,Wv来计算q,k,v,qkv生成空间的自注意力分数z,对每个头部(heads)生成的z进行拼接,再线性变换降维生成了多头自注意力分数。

video vit,论文阅读,transformer,深度学习

而该模型将MSA进行了改进,其中一半头用来计算仅空间自注意分数。另一半头用来计算仅时间自注意力分数。

video vit,论文阅读,transformer,深度学习

主要思想是通过对每一个query修改keys,values,使其只关注来自同一时空的tokens:

video vit,论文阅读,transformer,深度学习

4.四个模型的区别

        模型1)是一个编码器内部的计算,计算联合时空的注意力,再编码分类输出;

        模型2)是两个编码器的串联,在不同编码器中计算仅时间、仅空间的注意力,在外部顺序的先执行空间注意力编码分类,再执行时间注意力编码分类输出;

        模型3)是一个编码器内部的串行计算,先计算仅空间注意力,再计算仅时间注意力,再编码分类输出;

        模型4)是一个编码器内部的并行计算,通过不同的头,同时计算仅时间注意力和仅空间注意力,再编码分类输出。

         文章来源地址https://www.toymoban.com/news/detail-859303.html

到了这里,关于【论文笔记】Video Vision Transformer(ViViT)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《Vision Transformer (ViT)》论文精度,并解析ViT模型结构以及代码实现

    《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》 论文共有22页,表格和图像很多,网络模型结构解释的很清楚,并且用四个公式展示了模型的计算过程;本文章对其进行精度,并对源码进行剖析,希望读者可以耐心读下去。 论文地址:https://arxiv.org/abs/2010.11929 源

    2024年02月05日
    浏览(32)
  • Vision Transformer(ViT)论文解读与代码实践(Pytorch)

    Vision Transformer(ViT)是一种基于Transformer架构的神经网络模型,用于处理计算机视觉任务。传统的计算机视觉模型如卷积神经网络(CNN)在处理图像任务时取得了很大的成功,但CNN存在一些局限,例如对于长距离依赖的建模能力较弱。ViT通过引入Transformer的注意力机制来解决这

    2024年02月07日
    浏览(29)
  • EfficientViT: Memory Efficient Vision Transformer withCascaded Group Attention论文阅读

    高效的记忆视觉transformer与级联的群体注意 摘要。 视觉transformer由于其高模型能力而取得了巨大的成功。然而,它们卓越的性能伴随着沉重的计算成本,这使得它们不适合实时应用。在这篇论文中,我们提出了一个高速视觉transformer家族,名为EfficientViT。我们发现现有的tran

    2024年01月22日
    浏览(34)
  • 【论文阅读】VideoComposer: Compositional Video Synthesis with Motion Controllability

    VideoComposer: 具有运动可控性的合成视频。 paper:[2306.02018] VideoComposer: Compositional Video Synthesis with Motion Controllability (arxiv.org) 由阿里巴巴研发的可控视频生成框架,可以灵活地使用文本条件、空间条件和时序条件来生成视频,比如使用草图、深度图或运动向量等多个组合条件合

    2024年02月04日
    浏览(23)
  • Transformer---ViT:vision transformer

    记录一下对transformer方法在计算机视觉任务中的应用方法的理解 参考博客:https://blog.csdn.net/weixin_42392454/article/details/122667271 参考代码:https://gitcode.net/mirrors/Runist/torch_vision_transformer?utm_source=csdn_github_accelerator 模型网络图 假设输入维度为[B, C, H, W],假设其中C=3,H=224,W=224 假设patch_s

    2024年02月12日
    浏览(32)
  • Feature Prediction Diffusion Model for Video Anomaly Detection 论文阅读

    文章标题:Feature Prediction Diffusion Model for Video Anomaly Detection 文章信息: 发表于:ICCV 2023 原文链接:https://openaccess.thecvf.com/content/ICCV2023/papers/Yan_Feature_Prediction_Diffusion_Model_for_Video_Anomaly_Detection_ICCV_2023_paper.pdf 源代码:https://github.com/daidaidouer/FPDM 在视频异常检测是一个重要的研

    2024年01月17日
    浏览(42)
  • Generative Cooperative Learning for Unsupervised Video Anomaly Detection 论文阅读

    文章信息: 发表于:CVPR 2022 原文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Zaheer_Generative_Cooperative_Learning_for_Unsupervised_Video_Anomaly_Detection_CVPR_2022_paper.pdf 视频异常检测在弱监督和单类别分类(OCC)设置下已经得到很好的研究。然而,无监督视频异常检测方法相对较少,可

    2024年01月25日
    浏览(45)
  • Video anomaly detection with spatio-temporal dissociation 论文阅读

    文章信息: 发表于:Pattern Recognition(CCF A类) 原文链接:https://www.sciencedirect.com/science/article/pii/S0031320321003940 源代码:https://github.com/ChangYunPeng/VideoAnomalyDetection 视频中的异常检测仍然是一项具有挑战性的任务,主要由于异常的定义模糊不清以及真实视频数据中视觉场景的复杂

    2024年02月03日
    浏览(33)
  • Vision Transformer(VIT)

    Vision Transformer(ViT)是一种新兴的图像分类模型,它使用了类似于自然语言处理中的Transformer的结构来处理图像。这种方法通过将输入图像分解成一组图像块,并将这些块变换为一组向量来处理图像。然后,这些向量被输入到Transformer编码器中,以便对它们进行进一步的处理。

    2024年02月07日
    浏览(37)
  • Vision Transformer (ViT)

    生成式模型与判别式模型 生成式模型,又称概率模型 ,是指 通过学习数据的分布来建立模型P(y|x) ,然后利用该模型来生成新的数据。生成式模型的典型代表是 朴素贝叶斯模型 ,该模型通过学习数据的分布来建立概率模型,然后利用该模型来生成新的数据。 判别式模型,又

    2024年02月15日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包