一个基于PVT(Pyramid Vision Transformer)的视频插帧程序(pytorch)

这篇具有很好参考价值的文章主要介绍了一个基于PVT(Pyramid Vision Transformer)的视频插帧程序(pytorch)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

项目地址(欢迎大家来star一下!):GitHub - liaoyanqing666/PVT_v2_video_frame_interpolation: 使用PVT_v2作为编码器的视频插帧程序,A program using PVT_v2 as the encoder of video frame interpolation, VFI, pytorch

        众所周知,视频是由一系列连续帧组成的,而将两个连续帧中间插入中间帧就完成了视频的插帧。项目模型的本质内容是使用相邻两帧图片,生成中间帧图片。项目包含一个程序test.py可以调用训练好的模型进行视频插帧。

        如果你是初学者,本项目下载之后即可直接运行(修改一些小地方如文件地址等),无需了解相关架构,仅需简单python/pytorch基础,阅读文件说明,如果有问题可以通过邮箱联系。

        本代码实现了通过前后两帧预测中间帧的任务,使用Encoder-Decoder架构。

        本项目需要gpu,训练时间较久。

模型介绍

        具体PVT的内容请参考相关博客,本博客不作介绍。

        在Encoder部分,我使用了pvt_v2,即pyramid vision transformer。相比pvt_v1,pvt_v2主要在块编码时使用了overlapping编码,可以考虑到每个块之间的相关关系。不过根据pvt_v2原论文的实验部分的结论,它在attention部分相对于pvt_v1部分的改进几乎没有影响,而且通过阅读源码,我发现使用的是大小为7的平均池化,在不同大小的输入下泛化能力可能不佳,因此我使用了pvt_v1中原始的attention模块。

一个基于PVT(Pyramid Vision Transformer)的视频插帧程序(pytorch),transformer,深度学习,计算机视觉,pytorch,音视频,人工智能,机器学习

图 Encoder结构

        在Decoder部分,我们使用了反卷积和卷积相结合的解码方式。一共四次反卷积,每次包含一个反卷积操作和两个卷积操作。类似于Unet,本模型也考虑到了残差的影响,因此在解码时,每次反卷积后会和相同大小的Encoder结果在通道上进行叠加(拼接),能迫使模型更关注变化的部分,也避免模型过于模糊。

一个基于PVT(Pyramid Vision Transformer)的视频插帧程序(pytorch),transformer,深度学习,计算机视觉,pytorch,音视频,人工智能,机器学习

图 Decoder结构

        整体我使用的是一个类U-net架构,相当于将Encoder中的卷积部分改成了PVT。

一个基于PVT(Pyramid Vision Transformer)的视频插帧程序(pytorch),transformer,深度学习,计算机视觉,pytorch,音视频,人工智能,机器学习

图 整体架构

注意事项(快速上手)

  1. 在train.py中提供了多套可选的参数(B0, B1, B5),数字越大模型越大。这些参数来自于PVT的论文,也可以去使用B2, B3以及自己调参等等。建议使用B0参数(基本就够用了)
  2. 在dataset中提供了是否预加载的选项,如果预加载就可以将所有图片都加载到内存中(需要足够大的内存),这样训练会很快;不预加载就可以直接开始训练,很节省内存,不过训练过程中很大一部分时间花在了读写上。
  3. output.avi和output_without_vfi.avi分别是插帧后和插针前的效果对比,可以下载查看一下(这个视频是随手拍的)
  4. 我有一个训练了的(未完全收敛,但可以用了)B0模型参数,可以邮件联系索取。

引用

[1]. Wang W, Xie E, Li X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 568-578.

[2]. Wang W, Xie E, Li X, et al. Pvt v2: Improved baselines with pyramid vision transformer[J]. Computational Visual Media, 2022, 8(3): 415-424.文章来源地址https://www.toymoban.com/news/detail-845085.html

到了这里,关于一个基于PVT(Pyramid Vision Transformer)的视频插帧程序(pytorch)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 视频插帧论文阅读(一)——FLAVR

    CVPR2021 论文地址:https://arxiv.org/abs/2012.08512 代码地址:https://github.com/avinashpaliwal/Super-SloMo 1. 亮点 使用3D卷积来学习帧间运动信息 无光流估计的单次预测视频插帧方法(CAIN也是,但CAIN一次只能插一帧(t=0.5),FLAVR可以进行一次多帧预测) 2. Sampling Training Data from Unlabeled Videos

    2023年04月24日
    浏览(87)
  • Transformer---ViT:vision transformer

    记录一下对transformer方法在计算机视觉任务中的应用方法的理解 参考博客:https://blog.csdn.net/weixin_42392454/article/details/122667271 参考代码:https://gitcode.net/mirrors/Runist/torch_vision_transformer?utm_source=csdn_github_accelerator 模型网络图 假设输入维度为[B, C, H, W],假设其中C=3,H=224,W=224 假设patch_s

    2024年02月12日
    浏览(36)
  • CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑

    视频预测(video prediction)的性能已经通过先进的深度神经网络大幅提高。然而,大多数当前的方法存在着大的模型尺寸和需要额外的输入(如,语义/深度图)以实现良好的性能。出于效率考虑,本文提出了一个动态多尺度体素流网络(Dynamic Multi-scale Voxel Flow Network,DMVFN),

    2024年02月09日
    浏览(76)
  • Vision Transformer (ViT)

    生成式模型与判别式模型 生成式模型,又称概率模型 ,是指 通过学习数据的分布来建立模型P(y|x) ,然后利用该模型来生成新的数据。生成式模型的典型代表是 朴素贝叶斯模型 ,该模型通过学习数据的分布来建立概率模型,然后利用该模型来生成新的数据。 判别式模型,又

    2024年02月15日
    浏览(51)
  • Vision Transformer(VIT)

    Vision Transformer(ViT)是一种新兴的图像分类模型,它使用了类似于自然语言处理中的Transformer的结构来处理图像。这种方法通过将输入图像分解成一组图像块,并将这些块变换为一组向量来处理图像。然后,这些向量被输入到Transformer编码器中,以便对它们进行进一步的处理。

    2024年02月07日
    浏览(43)
  • Vision Transformer综述 总篇

    Transformer首先应用于自然语言处理领域,是一种以自我注意机制为主的深度神经网络。由于其强大的表示能力,研究人员正在寻找将变压器应用于计算机视觉任务的方法。在各种视觉基准测试中,基于变压器的模型表现类似或优于其他类型的网络,如卷积和循环神经网络。由

    2024年02月09日
    浏览(36)
  • Vision Transformer (ViT)介绍

    paper:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 把transformer直接应用于图像块序列,也可以在图像分类任务上表现很好。 通过在大数据集上预训练,然后迁移到中等规模和小规模数据集上,ViT可以取得和SOTA的卷积网络同样出色(甚至更好)的结果,同时需要更

    2024年02月13日
    浏览(51)
  • Vision Transformer(VIT)调研

    综述参考:https://zhuanlan.zhihu.com/p/598785102 2020 VIT 代码库 https://github.com/lucidrains/vit-pytorch 只有分类任务,有训练的测试。有各种各样的vit模型结构。 原文 https://arxiv.org/abs/2010.11929 2021 Swim Transformer https://arxiv.org/abs/2103.14030 v2 https://arxiv.org/pdf/2111.09883.pdf code and pretrain_model https:/

    2023年04月11日
    浏览(54)
  • 论文阅读 Vision Transformer - VIT

    通过将图像切成patch线形层编码成token特征编码的方法,用transformer的encoder来做图像分类 解决问题: transformer输入限制: 由于自注意力+backbone,算法复杂度为o(n²),token长度一般要512才足够运算 解决:a) 将图片转为token输入 b) 将特征图转为token输入 c)√ 切patch转为token输入 tra

    2024年02月01日
    浏览(40)
  • ViT-vision transformer

    介绍 Transformer最早是在NLP领域提出的,受此启发,Google将其用于图像,并对分类流程作尽量少的修改。 起源 :从机器翻译的角度来看,一个句子想要翻译好,必须考虑上下文的信息! 如:The animal didn’t cross the street because it was too tired将其翻译成中文,这里面就涉及了it这个

    2024年02月15日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包