视频理解学习笔记(二):I3D and Kinetics Dataset

这篇具有很好参考价值的文章主要介绍了视频理解学习笔记(二):I3D and Kinetics Dataset。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

视频理解的三个流派(怎么处理时序)

  • LSTM (a): ConvNet + LSTM
  • 3D网络 (b): 3D-ConvNet
  • 双流网络,利用光流 (c): Two-Stream

其他

  • 将3D和双流结合 (d): 3D-Fused
  • I3D (e): Two-Sream I3D
    视频理解学习笔记(二):I3D and Kinetics Dataset

论文概览

Workshop: CVPR’17
论文标题:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

论文地址:https://arxiv.org/abs/1705.07750

论文作者

  • Joao Carreira from DeepMind
  • Andrew Zisserman from DeepMind and Department of Engineering Science, University of Oxford (他也是双流网络的二作)

主要贡献

  1. I3D:Two-Stream Inflated(扩大、膨胀)3D ConvNet,如何将2D模型扩大膨胀到3D模型。
  2. Kinetics Dataset

Kinetics Dataset

该数据集包括400个人类动作的类别,每个类别对应至少400的视频片段,且每个片段都来自不同的YouTube视频。每个视频片段(clip)都是10s。

模型详解

将2D卷积网络扩张到3D(Inflating 2D ConvNets into 3D)

Inflate:保持2D卷积网络框架,将2D的卷积核全部替换成3D的卷积核,将2D的pooling全部替换成3D的pooling。

如何用预训练好的2D网络来初始化3D网络(Bootstrapping 3D filters from 2D Filters)

bootstrap:引导
将2D图片重复n次获得一个n帧的boring video;将2D预训练好的模型的参数重复n次,并且rescale(即除以n,因为初始化要保证2D网络和3D网络面对同样的输入,可以得到同样的输出),赋给3D模型。

网络结构

视频理解学习笔记(二):I3D and Kinetics Dataset

实验

视频理解学习笔记(二):I3D and Kinetics Dataset

迁移学习实验效果:
视频理解学习笔记(二):I3D and Kinetics Dataset
肯定了预训练和迁移学习。

和其他方法对比:
视频理解学习笔记(二):I3D and Kinetics Dataset文章来源地址https://www.toymoban.com/news/detail-459242.html

到了这里,关于视频理解学习笔记(二):I3D and Kinetics Dataset的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PyTorch 深度学习之加载数据集Dataset and DataLoader(七)

    全部Batch:计算速度,性能有问题 1 个 :跨越鞍点 mini-Batch:均衡速度与性能 两种处理数据的方式 linux 与 windows 多线程不一样 torchvision 内置数据集 MINIST Dataset

    2024年02月07日
    浏览(29)
  • 05-快速理解SparkSQL的DataSet

    一个数据集是分布式的数据集合。Spark 1.6增加新接口Dataset,提供 RDD的优点:强类型、能够使用强大lambda函数 Spark SQL优化执行引擎的优点 可从JVM对象构造Dataset,然后函数式转换(map、flatMap、filter等)操作。Dataset API在Scala和Java中可用。 Python不支持Dataset API,但由于Python动态

    2024年03月24日
    浏览(32)
  • MVTEC 3D dataset

    官网:https://www.mvtec.com/company/research/datasets/mvtec-3d-ad/downloads https://www.mvtec.com/company/research/datasets/mvtec-3d-ad https://www.mvtec.com/company/research/datasets/mvtec-3d-ad 数据大小:13个G         MVTec 3D异常检测数据集(MVTec 3D- ad)是一个用于无监督异常检测和定位任务的综合3D数据集。    

    2024年02月06日
    浏览(47)
  • Center-based 3D Object Detection and Tracking(基于中心的3D目标检测和跟踪 / CenterPoint)论文笔记

    原文链接:https://arxiv.org/pdf/2006.11275.pdf         CenterPoint先使用基于激光雷达的主干网络如VoxelNet或PointPillars,压缩为BEV后,使用基于图像的关键点检测器寻找物体中心。然后对每个物体中心回归尺寸、朝向和速度。然后,第二阶段细化物体位置,提取估计的3D边界框每个

    2024年02月09日
    浏览(27)
  • Pytorch中Dataset和dadaloader的理解

    不同的数据集在形式上千差万别,为了能够统一用于模型的训练,Pytorch框架下定义了一个dataset类和一个dataloader类。 dataset用于获取数据集中的样本,dataloader 用于抽取部分样本用于训练。比如说一个用于分割任务的图像数据集的结构如图1所示,一个样本由原图像和对应的m

    2024年01月25日
    浏览(22)
  • 【论文笔记】GeneFace: Generalized and High-FidelityAudio-Driven 3D Talking Face Synthesis

    这项工作泛化能力弱,存在的两个挑战: (1)训练数据规模小。 (2)容易产生“平均脸”。音频到其对应的面部运动是一对多映射,这意味着相同的音频输入可能具有多个正确的运动模式。使用基于回归的模型学习此类映射会导致过度平滑和模糊结果 (1)为了处理弱泛化

    2024年02月04日
    浏览(35)
  • 论文笔记(二十九):BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects

    作者:Bowen Wen, Jonathan Tremblay, Valts Blukis, Stephen Tyree, Thomas Muller, Alex Evans, Dieter Fox, Jan Kautz, Stan Birchfield 来源:arXiv:2303.14158v1 [cs.CV] 24 Mar 2023 原文:https://arxiv.org/pdf/2303.14158.pdf 代码、数据和视频: https://bundlesdf.github.io/ 系列文章目录: 上一篇: https://blog.csdn.net/xzs1210652636?spm=

    2024年02月04日
    浏览(30)
  • 深入理解深度学习——BERT派生模型:BART(Bidirectional and Auto-Regressive Transformers)

    分类目录:《深入理解深度学习》总目录 UniLM和XLNet都尝试在一定程度上融合BERT的双向编码思想,以及GPT的单向编码思想,同时兼具自编码的语义理解能力和自回归的文本生成能力。由脸书公司提出的BART(Bidirectional and Auto-Regressive Transformers)也是如此,它是一个兼顾上下文

    2024年02月11日
    浏览(25)
  • Waymo dataset+mmdet3d的坐标系问题

    mmdet3d 在处理 waymo dataset的时候,3D/2D gt box, point cloud等数据进行了非常多的坐标系转换。本身waymo的坐标系也有不少。 写这篇文章的motivation主要是,自己在处理3D point投影到2D image的过程中产生了两个问题: 枚举ego centric 3D点投到5个相机的时候,发现覆盖范围是歪的,front c

    2024年02月08日
    浏览(30)
  • 【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement 原文链接:https://ieeexplore.ieee.org/abstract/document/10363646 本文的3DOPFormer使用空间交叉注意力机制和反卷积恢复3D占用,然后基于激光雷达射线方向特征提出优化3D占用感知模型的新方法。使

    2024年01月25日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包