Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

这篇具有很好参考价值的文章主要介绍了Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution

可控时空视频超分辨率的时间调制网络

 论文:https://arxiv.org/pdf/2104.10642v2.pdf

代码:https://github.com/CS-GangXu/TMNet

研究机构:南开、中科院、腾讯优图

本篇笔记主要对整篇论文从头到尾进行阅读分析,本文内容有点多,主要是对不同部分的总结以及图例解释,如果只对模型原理部分有兴趣,可直接观看第四部分。

本文为了详细说明各图、公式在各组件中的情况,所以对原文图片、公式做了切割和拼接,保证该内容是在该组件中生效的。

目录

(1)摘要

(2)引言

(2.1) TMB

(2.2) 双向变形的convLSTM模块

(3)相关工作

(4)本文方法介绍

(4.1)CFI

 (4.2)时间特征融合

(4.2.1)局部时间特征比较

(4.2.2)全局时间特征融合

 (4.3)高分辨率重建

(4.4)模型细节与补充

(5)实验

(5.1)相比较其他模型的实验结果:

 (5.2)消融实验实验结果:

总结:

(1)摘要

时空超分模型(STVSR)目的在于提高低分辨率和低帧率视频,但是目前的方法只能推断在训练中预先定义好的中间帧(也就是说生成固定帧率视频,也就是目前的STVSR方法高帧率不用提高,低帧率会插视频训练时定义的中间帧,帧率固定,本文就不一样了,两帧之间我可以插多个帧),并且没有完全利用相邻帧之间的信息。本文提出TMNet(时间调制网络)进行中间帧插值,并重建高分辨率帧。TMNet可分为两部分:(1)TMB(时间调制块),实现可控的插值。(2)LFC(局部时间特征比较模块)和双向变形的convLSTM模块用于提取短期和长期的运动线索。

(2)引言

当前的设备可以支持高分辨率4K\8K和120FPS\240FPS的视频,通过单图像超分的方法虽然可以提高单个图像的分辨率,但是用户对于视频质量的感官却不行。为了更好的利用视频中空间与时间维度之间的相关性能够同时执行VSR和VFI(video frame interpolation,在这段中这个VFI我感觉他写错了,他写的video frame interpretation)重建。当前方法,仅限于固定帧率视频,无法通过灵活调整中间视频帧获得更好的可视化效果

TMNet,用于为STVSR插入任意数量的中间帧,如下图 

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

为了TMNet能够在STVSR上插任意数量的中间帧,并进行超分重建,本文提出两个模块

(2.1) TMB

首先在DCN框架下估计两个相邻帧之间的运动,由时间参数定义的任何时刻学习可控插值。

(2.2) 双向变形的convLSTM模块

用于探索短期运动线索的局部特征比较模块,用于融合多帧特征以实现有效的空间对齐和特征扭曲。以及一个用于探索长期运动线索的全局时间特征融合。

(3)相关工作

VFI(video frame interpolation)、VSR(video super-resolution)、STVSR(Space-time video super-resolution)、以及调制网络的相关研究内容。

(4)本文方法介绍

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

如上图所示,这就是本文的TMNet架构,基本上可以分为四个阶段。(1)CFI可控插值,可控的插入中间帧。(2)LFC,局部特征比较,将短期运动线索信息进行提炼比较,提高每个帧的特征效果。(3)GFF,全局特征融合,将长期运动线索进行提炼融合,提升所有帧的特征。(4)上采样,使用Pixel Shuffle进行高分辨率上采样。

(4.1)CFI

CFI可控的插入中间帧。如下图所示,初始的低分辨率、低帧率的视频帧集合Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记经过初始化特征提取Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记,经过CFI插值之后,生成高帧率低分辨率的视频Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记,送入下个模块。

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

文中PCD(modulated Pyramid, Cascading and Deformable 调制金字塔、级联和可变形) ,下图就是TMB模块实现可控帧插入的结构图,应用在PCD框架上,我们结合图和公式做一下解析。

图左:表示为可控特征插入的结构,Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记表示正向运动Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记表示反向运动,在可变参数t的条件下,进行t时刻内的可控的插值,如下方的公式一所示,Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记表示正向运动生成的插入低分辨率特征,在t时刻根据相邻的低分辨率帧进行生成。 Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记表示反向运动生成的插入低分辨率特征,与正向运动相同。将Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记进行串联聚合,生成最后的特征帧Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

图右:表示正向运动的TMB在PCD框架中的过程,在金字塔结构中,镁层结构中都通过TMB块获得offset作为DCN的偏移值(DCN的特点就是便宜的多样性,但是难以训练,训练的不稳定性往往会导致补偿溢出),根据offset训练后,与底层训练结果进行逐级级联,获得最终的插入帧。可以在右图中看到TMB模块中的内容,将时间参数t经过FCN(全连接层),输出1*1*64的向量,与每层金字塔中间的卷积进行乘积处理后,在进行相加,输出为偏移值。

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

 (4.2)时间特征融合

(4.2.1)局部时间特征比较

 如下图所示:使用滑动窗口的方式进行特征提取,DCN模块中输入的是两部分内容,一是原始的Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记特征信息,二是 Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记经过级联卷积之后offset内容,这种称之为反向学习。正向学习的DCN内容也如此。级联两个DCN信息之后,通过四个1*1卷积层和Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记相加之后进行比较,得到提炼后的Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记信息,最后得到一个特征序列Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记。 

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

(4.2.2)全局时间特征融合

 经过LFC细化后的特征序列保证了短期的一致性,为了保证长期的一致性,本文采用全局特征融合的方式。如下图所示,可以看出LFC序列特征的生成,是通过滑动窗口(生成t时刻的特征帧,前一时刻的特征帧与后一时刻的特征帧),将所有生成的LFC序列特征送入BDConvLSTM(双向可变形的卷积LSTM网络),生成全局保持一致的Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记序列帧信息。

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

 (4.3)高分辨率重建

 这一部分可以重新看这个图,我们获得了Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记序列帧信息,进行重建模块,包含40个残差块,进行高分辨率信息提取,然后与初始插针后的帧信息进行相加,送入Pixel Shuffle获取高分辨帧序列。

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

(4.4)模型细节与补充

 作者对TMNet网络的结构给出了详细的设计方案,包括残差模块和上采样模块的结构。

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

 这是TMB和LFC模块的内部实现细节:

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

(5)实验

训练数据集:Vimeo-90K

TMB模块单独训练:Adobe240fps

测试数据集:Vid4、Vimeo-90K

下采样方法:Bicubic (BI)

迭代优化器:Adam optimizer

学习率:4*10^-4,余弦退火的学习率衰减,每150000次,衰变为1*10^-7

输入LR尺寸:32*32,并进行90\180\270翻转。

损失函数:Charbonnier loss

(5.1)相比较其他模型的实验结果:

与当前的STVSR方法进行比较,对比两阶段超分和一阶段超分的模型进行对比PNSR和SSIM对比,两阶段超分就是一个用来执行VFI、一个用来执行VSR。一阶段就是全部都有。对比结果如下,红色最好,蓝色次优。

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

 (5.2)消融实验实验结果:

作者将TMB模块应用在PCD框架上的不同阶层,以及在本文的TMNet网络的PSNR。 

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

TMB模块的设计是为了将超参数t转换成与PCD模块适应的矢量结构,一种设计是线性卷积,另一种就是非线性卷积。如下PSNR的结果。

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

作者将LFC与GFF做不同的结合,一种不用LFC,一种将LFC和GFF的特征结果做融合,本文方法将LFC的结果作为GFF的输入,PSNR结果最好。 

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

 作者将本文的总体结构中去除在最后的Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记中加入Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记得到一个baseline,然后将Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记加在TMNet过程中得到另一个变体,与正规TMNet比较,在不同数据集上还是TMNet的PSNR更高。

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

 

总结:

本文的主要目的就是在STVSR模型上,使得可以进行各种帧率的调整,并且根据短期线索融合长期线索,使得本文模型恢复出来的图像更具备细节特征。不过本文没有对参数量做出实验结果,所以后续的参数量需要细究,以便研究在实时性上的可操作性。

jiji文章来源地址https://www.toymoban.com/news/detail-413057.html

到了这里,关于Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记 Spatial-Temporal Identity: A Simple yet Effective Baseline for Multivariate Time Series Forecas

    CIKM 2022 多维时间序列(Multivariate Time Series, MTS) 最关键的、区别于其他数据的特点是,这些 时间序列之间存在着明显的依赖关系 MTS 预测的关键是:对 MTS 的第 i 条时间序列进行预测的时候,不仅要考虑这第 i 条时间序列的历史信息,也要考虑其他时间序列的历史信息】

    2024年02月02日
    浏览(43)
  • Training-Time-Friendly Network for Real-Time Object Detection 论文学习

    目前的目标检测器很少能做到快速训练、快速推理,并同时保持准确率。直觉上,推理越快的检测器应该训练也很快,但大多数的实时检测器反而需要更长的训练时间。准确率高的检测器大致可分为两类:推理时间久的的训练时间久的。 推理时间久的检测器一般依赖于复杂的

    2024年02月15日
    浏览(45)
  • BiSeNet:用于实时语义分割的双边分割网络——BiSeNet:Bilateral Segmentation Network for Real-time Semantic Segmentation

            语义分割需要丰富的空间信息和较大的感受野。然而,现代的方法通常为了实现实时推断速度而牺牲空间分辨率,导致性能下降。本文提出了一种新的双边分割网络(BiSeNet)来解决这个问题。我们首先设计了一个具有小步长的空间路径来保留空间信息并生成高分

    2024年04月28日
    浏览(43)
  • TCN(Temporal Convolutional Network,时间卷积网络)

            实验表明,RNN 在几乎所有的序列问题上都有良好表现,包括语音/文本识别、机器翻译、手写体识别、序列数据分析(预测)等。         在实际应用中,RNN 在内部设计上存在一个严重的问题: 由于网络一次只能处理一个时间步长,后一步必须等前一步处理完才能

    2024年02月01日
    浏览(41)
  • 论文笔记:Traffic Flow Prediction via Spatial Temporal Graph Neural Network

    WWW 2020 图神经网络+图注意力——空间依赖关系 RNN+Transformer——短期长期依赖关系 缺点:运用RNN于较长序列仍然会带来误差积累,并且RNN模型的运算效率并不高   

    2024年02月12日
    浏览(48)
  • 【论文阅读】Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

    动画化Anyone:用于角色动画的一致且可控的图像到视频合成。 paper:https://arxiv.org/abs/2311.17117 code:还没开源 角色动画,通过驱动信号从静止图像生成角色视频。 扩散模型在 图像-视频 领域仍然存在挑战, 保持时序与角色细节信息 的一致性是一个艰巨的问题。 在本文中,作

    2024年02月03日
    浏览(58)
  • NTP(Network Time Protocol)协议详解

    NTP(Network Time Protocol)是一种用于在分布式网络中的不同设备之间保持精确时间同步的互联网协议。 它允许一台机器与其他机器或权威的时间源建立联系,并根据这些联系来调整自己的时间,以确保整个网络中的所有设备共享一致的时间基准。 NTP通过精确测量时间偏差、补

    2024年02月15日
    浏览(39)
  • 【网络协议】NTP(Network Time Protocol)协议详解

    NTP(Network Time Protocol)是一种用于在分布式网络中的不同设备之间保持精确时间同步的互联网协议。 它允许一台机器与其他机器或权威的时间源建立联系,并根据这些联系来调整自己的时间,以确保整个网络中的所有设备共享一致的时间基准。 NTP通过精确测量时间偏差、补

    2024年02月04日
    浏览(41)
  • 虚拟机安装 Win10 ,无法启动,报错EFI Network ... Time out怎么解决

    问题描述: VMWare 16 安装 win10 的镜像文件,无法启动,报错 EFI Network … Time out 解决办法 虚拟机设置中 固件类型 改用 BIOS 处理后: 后续: 至此虚拟机顺利安装win10!!

    2024年02月09日
    浏览(47)
  • 视频目标检测paper(三)《Temporal ROI Align for Video Object Recognition》

            这篇文章作为2021年的AAAI视频目标检测类文章,可以说是现在视频目标检测的最新技术之一了,并且已经集成到了MMtracking框架之中,可以说是集合了计算机视觉,深度学习,目标检测,视频检测等知识综合性较强的文章,以小编现在的水平很难融汇贯通,所以说作

    2024年02月02日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包