视频插帧论文阅读(一)——FLAVR

这篇具有很好参考价值的文章主要介绍了视频插帧论文阅读(一)——FLAVR。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

视频插帧论文阅读(一)——FLAVR

CVPR2021

论文地址:https://arxiv.org/abs/2012.08512
代码地址:https://github.com/avinashpaliwal/Super-SloMo


1. 亮点
  • 使用3D卷积来学习帧间运动信息
  • 无光流估计的单次预测视频插帧方法(CAIN也是,但CAIN一次只能插一帧(t=0.5),FLAVR可以进行一次多帧预测)
2. Sampling Training Data from Unlabeled Videos
视频插帧论文阅读(一)——FLAVR
  • 训练时以插帧倍数为步长从原始视频数据中进行抽帧,比如要进行4倍插帧,那么要采样的视频帧序列就是 A 1 A_{1} A1 A 5 A_{5} A5 A 9 A_{9} A9 A 13 A_{13} A13,…

  • 设置了滑动窗口(时间窗口),窗口大小为2 C C C C > = 1 C>=1 C>=1 C ∈ Z C\in\Z CZ),表示C组上下文帧信息(Context Frames),图中所示就是 C = 2 C=2 C=2,利用{ A 1 A_{1} A1 A 5 A_{5} A5 A 9 A_{9} A9 A 13 A_{13} A13} 作为输入,然后一次生成中间的{ A 6 A_{6} A6 A 7 A_{7} A7 A 8 A_{8} A8}帧

  • 基于上述的训练过程,该网络设置了如下损失函数:
    L ( { I ‾ } , { I } ) = 1 N ∑ i = 1 N ∑ j = 1 k − 1 ∣ ∣ I ^ j ( i ) − I j ( i ) ∣ ∣ 1 L(\lbrace \overline{I} \rbrace,\lbrace {I} \rbrace) =\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{k-1}||\hat{I}_j^{(i)}-{I}_j^{(i)}||_{1} L({I},{I})=N1i=1Nj=1k1I^j(i)Ij(i)1
    ​ 其中, N N N表示min-batch的大小,而k-1就是要一次生成的中间帧的数量,k表示插帧倍数

3. 模型结构
视频插帧论文阅读(一)——FLAVR
  • 3D U-Net结构,希望利用3D核所引入的时间维度来学习插帧所需要的时间信息(包含运动轨迹、动作以及帧间的对应关系)

  • encoder部分使用ResNet-3D(R3D)并移除了最后的分类器,取而代之的是5个3D conv模块

  • decoder部分渐进形地融合编码器特征以及多尺度上采样特征(融合高级语义信息以及低级的细节纹理信息)

  • 针对decoder部分使用3D TransConv上采样导致的棋盘格伪影,在3D TransConv layers后加入了3D Conv

  • decoder部分输出的是一个3D feature map,通过一个2D Conv(时间信息融合层)转为2D feature map

  • Spatio-Temporal Feature Gating(时空特征选通模块),实际是一种注意力机制,网络中每一个block最后都会加上该模块,通过适当提高特征映射的某些block的权重,以学习更有用的信息

4.训练时的一些设置
  • 基于问题的对称性,随机选择输入序列并随机对序列进行反转,也会对输入帧进行一个随机的水平翻转

  • 评估阶段,对于多帧插帧,计算生成的多个中间帧的平均PSNR 和 SSIM

5.实验结果
5.1 单帧插值

视频插帧论文阅读(一)——FLAVR

表1 各算法2倍插帧(单帧插值)的结果
  • 单帧插值,视频帧率由15FPS—>30FPS

  • 上述结构是在VImeo90K的训练集上训练,然后分别在Vimeo90K-val以及UCF101和DAVIS数据集上进行评估,后两者是为了测试模型的泛化能力

  • DAIN以及QVI都引入了额外的模块(已有的网络),DAIN是深度估计以及光流估计网络,QVI是光流估计网络PWC-Net


5.2 多帧插值

视频插帧论文阅读(一)——FLAVR

表2 各算法8倍插帧(多帧插帧)的结果
  • 8倍插帧,相邻帧间要插入7帧,视频帧率由30FPS------>240FPS

  • 在GoPro上进行训练,然后在GoPro的val集和Adobe 数据集上进行评估

  • QVI在Adobe上的效果更好,但是该模型引入了额外的预训练流估计网络

视频插帧论文阅读(一)——FLAVR

表3 各算法4倍插帧(多帧插帧)的结果

5.3 速度vs.精度
视频插帧论文阅读(一)——FLAVR
图3 各算法推理速度和质量的比较图
视频插帧论文阅读(一)——FLAVR
图4 各算法在不同倍数下的插帧推理速度折线图

  • 图3是各算法在GoPro数据集(512x512图像分辨率 240FPS)上进行8倍插帧后的一个PSNR和推理速度的比较图

  • 图4文中没有提到是在哪个数据集上测出来的结果(能进行32倍插帧比较的话应该是GoPro),但从结果上来说,FLAVR的推理速度随着K的增加几乎没有增加,这一点比较亮眼

  • 文章中也提到这篇工作最大的共享可能就在于提出的FLAVR在现有方法中在速度和精度上达到了最佳平衡,尽管CAIN的速度也很快,但是它只能在t=0.5时刻进行插帧,所以这也是第一篇不需要利用流估计且能进行多帧插值的视频插帧算法


5.4 面对不同任务难度的鲁棒性比较
视频插帧论文阅读(一)——FLAVR
图5 各算法在SNU-Film不同插帧难度下的PSNR折现图
  • 上图所示结果是在SNU-Film数据集(AAAI 2020)上测出来的,该数据集根据不同的帧间隔,设置了不同的插帧难度:

    • easy(120-240FPS)
    • medium(60-120FPS)
    • hard(30-60FPS)
    • extreme(15-30FPS)

    都是进行x2插帧(单帧插值),但是很明显若帧间的时间间隔越大,帧间所具有的时间信息就会越多,网络所需要学习并预测的运动信息也会越多,难度就更大。实际上,easy,medium,hard这三个难度是如今更多场合下所需要的。


5.5 一些消融实验

视频插帧论文阅读(一)——FLAVR

图6 在Vimeo90k上的几个消融实验结果
  • 不同的骨干网络以及上下文输入帧

    • R3D(ResNet 3D)的整体效果优于R2D

    • 采用两组含上下文信息的视频帧(C=2)作为输入的效果会比较好

  • 编码器和解码器部分的不同特征融合方式

    • 比起不进行融合,在编解码器之间相同维度上采用一定的特征传输(融合)方式,能够达到更好的效果(原因:编码器所提供的细节纹理信息和解码器的一个语义信息将进行融合)
    • 融合方式上,从实验结果上来说沿通道维度拼接后,在通过CNN进行聚合优于直接相加
  • 时间步的设置

    • 池化(pooling)和步长(striding)的设置会在一定程度上造成帧间细节信息,而对于VFI这样low-level的合成任务来说对这些细节信息又是有需求的
  • 特征选通(Gating Module)的作用

    • 如下图所示,在每个block后添加了Gating Module后,拥有最大激活值(注意力权重)的特征图如(b)所示会更加关注帧间可视的运动信息,这一点上和CAIN的想法是一致的

视频插帧论文阅读(一)——FLAVR

图7 注意力加权特征图的可视化

6.总结

​ 上下文帧对中间帧的合成很重要,一般情况下不能引入太多的相关帧,这会带来太多的干扰信息,但并不意味着仅使用前后两帧作为输入(目前大部分方法还是使用这种策略),尤其是在比较高帧率的视频上插帧,时间间隔小了,更大的窗口应该也能引入更多有用信息,QVI做了转变,但实际上也仅是对运动情况做了稍微复杂一点的假设,我觉得FLAVR使用3D Conv 全靠网络自己学习运动轨迹,至少学到得轨迹是不规则的,。。大致就是我觉得前面的方法有下限,也有上限,但这个属于没下限(应该是下限比前者低)也没有上限 。

​ 还没跑模型,但我觉得网络要学习这么多的信息,模型可能会不太好训练,即不容易收敛文章来源地址https://www.toymoban.com/news/detail-423147.html

到了这里,关于视频插帧论文阅读(一)——FLAVR的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HumanNeRF(CVPR2022 oral)-人体重建论文阅读

    论文: 《HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video》 github: https://github.com/chungyiweng/humannerf 作者提出HumanNeRF,给出复杂动作人体单视角视频,暂停任一帧渲染出任意视角下该人体,甚至360度视角下该人体; HumanNeRF优化了人在标准T姿势下的表征,与运动场相一致,

    2024年02月15日
    浏览(35)
  • CVPR视频理解论文

    视频理解、图像/视频字幕(Image/Video Caption) 时空Transformer+CLIP的对比学习思路 自监督学习,训练Masked AutoEncoder,为视频人脸生成通用的面部编码 In this paper, our goal is to learn universal and taskagnostic representations in a self-supervised manner for face-related downstream tasks

    2024年02月08日
    浏览(25)
  • 《论文阅读》LORA:大型语言模型的低秩自适应 2021

    前言 今天为大家带来的是《LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS》 出版: 时间:2021年10月16日 类型:大语言模型的微调方法 : 作者:Edward Hu, Yelong Shen 等 第一作者机构:Microsoft Corporation github:https://github.com/microsoft/LoRA 简介 为了降低现有模型在下游任务上的计算

    2024年02月05日
    浏览(35)
  • 小样本目标检测综述__刘浩宇(导航与控制2021)论文阅读

    早期采用了大量标注样本回归候选框的位置,但后来 目标集和训练集数据分布不同导致检测效果下降 。 对于没有大量样本支持的小样本检测应用就需要使用 先验知识 来弥补样本的不足。 可以分为三类: 数据域 通过先验知识来做数据增强,以弥补样本不足的问题,解决模

    2024年02月12日
    浏览(39)
  • 《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

    Project page: https://github.com/haoyuc/MaskedDenoising 前提:在捕获和存储图像时,设备不可避免地会引入噪声。减少这种噪声是一项关键任务,称为图像去噪。深度学习已经成为图像去噪的事实方法,尤其是随着基于Transformer的模型的出现,这些模型在各种图像任务上都取得了显著的最

    2024年03月15日
    浏览(50)
  • 论文阅读: (CVPR2023 SDT )基于书写者风格和字符风格解耦的手写文字生成及源码对应

    引言 许久不认真看论文了,这不赶紧捡起来。这也是自己看的第一篇用到Transformer结构的CV论文。 之所以选择这篇文章来看,是考虑到之前做过手写字体生成的项目。这个工作可以用来合成一些手写体数据集,用来辅助手写体识别模型的训练。 本篇文章将从论文与代码一一对

    2024年02月12日
    浏览(49)
  • TPS Motion(CVPR2022)视频生成论文解读

    论文: 《Thin-Plate Spline Motion Model for Image Animation》 github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model 问题: 尽管当前有些工作使用无监督方法进可行任意目标姿态迁移,但是当源图与目标图差异大时,对当前无监督方案来说仍然具有挑战。 方法: 本文提出无监督TPS Motio

    2023年04月11日
    浏览(44)
  • 【论文阅读】通过3D和2D网络的交叉示教实现稀疏标注的3D医学图像分割(CVPR2023)

    论文:3D Medical Image Segmentation with Sparse Annotation via Cross-Teaching between 3D and 2D Networks 代码:https://github.com/hengcai-nju/3d2dct 问题1 :医学图像分割通常需要大量且精确标注的数据集。但是获取像素级标注是一项劳动密集型的任务,需要领域专家付出巨大的努力,这使得在实际临床场

    2024年02月05日
    浏览(38)
  • 论文阅读 (90):Proposal-based Multiple Instance Learning (P-MIL, 2023CVPR)

    名称 :提案多示例学习 (proposal-based multiple instance learning, P-MIL) 背景 :弱监督时间动作定位,即仅在视频级标签下定位和识别未修剪视频中的动作。不考虑实例级标签时,已有方法大多使用 基于片段的多示例 (S-MIL) 框架。 问题 : 如图1(a)所示,测试阶段的目的是将动作提案

    2024年02月08日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包