论文精讲 | 基于昇思MindSpore打造首个深度学习开源视频压缩算法库OpenDMC,支持跨平台和多种评价指标

这篇具有很好参考价值的文章主要介绍了论文精讲 | 基于昇思MindSpore打造首个深度学习开源视频压缩算法库OpenDMC,支持跨平台和多种评价指标。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文标题

OpenDMC: An Open-Source Library and Performance Evaluation for Deep-learning-based Multi-frame Compression

论文来源

ACM MultiMedia

论文链接

https://www.acmmm2023.org/open-source-program/

代码链接

https://openi.pcl.ac.cn/OpenDMC/OpenDMC

昇思MindSpore作为开源的AI框架,为产学研和开发人员带来端边云全场景协同、极简开发、极致性能、安全可信的体验,支持超大规模AI预训练,自2020年3月28日开源来已超过6百万的下载量。昇思MindSpore已支持数百篇AI顶会论文,走入Top100+高校教学,通过HMS在5000+App上商用,拥有数量众多的开发者,在AI计算中心、智能制造、金融、云、无线、数通、能源、消费者1+8+N、智能汽车等端边云车全场景广泛应用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、套件、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。

在科技界、学术界和工业界对昇思MindSpore的广泛支持下,基于昇思MindSpore的AI论文2023年在所有AI框架中占比7%,连续两年进入全球第二,感谢CAAI和各位高校老师支持,我们一起继续努力做好AI科研创新。昇思MindSpore社区支持顶级会议论文研究,持续构建原创AI成果。我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟昇思MindSpore合作,一起推动原创AI研究,昇思MindSpore社区会持续支撑好AI创新和AI应用,本文是MindSpore AI顶会论文系列第22篇,我选择了来自北京大学高伟老师团队的一篇论文解读,感谢各位专家教授同学的投稿。

昇思MindSpore旨在实现易开发、高效执行、全场景覆盖三大目标。通过使用体验,昇思MindSpore这一深度学习框架的发展速度飞快,它的各类API的设计都在朝着更合理、更完整、更强大的方向不断优化。此外,昇思不断涌现的各类开发工具也在辅助这一生态圈营造更加便捷强大的开发手段,例如MindSpore Insight,它可以将模型架构以图的形式呈现出来,也可以动态监控模型运行时各个指标和参数的变化,使开发过程更加方便。

01


 

研究背景

如今,视频流媒体已经成为我们日常生活中不可或缺的一部份。数十亿人在互联网上的视频应用带来了对于高效的视频传输和存储的巨大需求。尽管很多优秀的视频编码算法已被提出,但是目前缺乏一个算法库能有效对这些算法进行分类和组织、能够用不同标准对算法表现进行评价,并且能够支持这些算法在多个平台,特别是昇思MindSpore这一新兴高效的平台上的实现。

02


 

团队介绍

高伟,北京大学信息工程学院助理教授/研究员/博士生导师,IEEE/CCF/CSIG Senior Member。团队在相关领域高水平国际期刊(如IEEE TPAMI、TIP、TCSVT、TMM、TNNLS、TCYB、TGRS等)和高水平国际会议(如CVPR、ECCV、AAAI、ACM MM、DCC等)上发表论文100余篇,申请或授权美国/中国/PCT专利80余项,积极参与多媒体与人工智能技术的标准制定工作并提交技术提案40余项。多篇论文入选ESI高被引论文和优秀论文奖(2篇论文入选ESI高被引,4篇论文获得优秀论文奖)。由于在3D沉浸式媒体方面的研究荣获2021年IEEE多媒体学术新星奖项(IEEE Multimedia Rising Star)。荣获2022年CCF优秀图形开源软件奖项、2021年CCF-腾讯犀牛鸟优秀专利奖、2020年和2019年连续两年CCF-腾讯犀牛鸟基金。

03


 

论文简介

OpenDMC,第一个专门为视频压缩任务设计的开源深度学习算法库。尽管在压缩领域有CompressAI等库珠玉在前,但这些库主要针对的是图像压缩算法,而没有针对视频数据进行算法支持,OpenDMC的出现填补了视频压缩算法库领域的空白。OpenDMC横跨MindSpore等多个平台,支持多种经典的视频压缩算法如DVC、DCVC、SSFVC、DVC-P等,并提出多种分类标准对上述算法进行了组织整理,如根据编码方式分为基于残差编码的方法(Residue-based)和基于条件编码的方法(Condition-based),根据监督方式分为客观监督方法(Objective)和感知监督方法(Perceptual),根据时空线索利用方式分为双向时空建模方法(Bi-directional)和单向时空建模方法(Uni-directional)等。同时,在OpenDMC中我们还采用了多个评价指标对算法进行评估,包括RD表现、运行时间、显存占用等,如下图所示。

开源视频算法平台,深度学习,开源,音视频

图1 OpenDMC所支持跨平台算法及相关评价指标

DVC是深度视频编码领域最早的工作之一,其应用了一个编码器-解码器光流卷积网络来估计帧间运动,然后对残差进行压缩以节省比特率。参考帧通过预测的光流被扭曲到目标帧,然后得到了残差。然后,残差经过非线性神经网络进行更好的量化处理。SSFVC提出了尺度空间流估计和尺度空间扭曲技术。一个尺度场被添加为传统的2通道流场的第三维,以便更好地处理困难情况,并在无法进行基于流的预测时实现更加优雅的降级。DCVC利用可学习的高维度时间上下文特征作为帧压缩的条件。为了解决由运动补偿引起的空间不连续性,DCVC应用了一个上下文精化模块来生成最终的上下文特征。这些上下文特征然后被用作编码器和解码器的条件输入,采用并行和串联的架构。DVC-P提出了一个带有感知优化的深度视频压缩框架。其指出仅仅通过优化视频压缩以提高PSNR并不总是能够增强解码后视频的感知质量具体来说,并受到生成对抗网络的启发,DVC-P将鉴别器网络和混合损失加入框架优化过程中。

04


 

实验结果

本文相关实验的环境搭建、训练和推理过程均由昇思MindSpore框架实现。得益于详细的文档、庞大的社区和高效的底层实现,使用昇思MindSpore搭建实验环境十分方便,且取得了与其他深度学习框架如PyTorch/TensorFlow相当的模型表现与推理时间。具体实验结果如以下图表所示。从表1可以看出,DCVC、SSFVC和DVC-P在BD-MSSSIM指标上获得了比BD-PSNR指标更大的性能提升。相关效率可在图2看出,此处用运行时间和GPU占用两个指标衡量,其中运行时间是UVG数据集中所有序列中帧的总和。显然,最快的算法是采用了尺度空间扭曲的SSFVC,而最慢的是DCVC,其在DCVC中采用的预测上下文的自回归模型显著增加了时间复杂度,这也是其耗时的重要原因。

开源视频算法平台,深度学习,开源,音视频

表1 OpenDMC所支持算法在不同数据集合上与原生DVC算法比较的PSNR与MS-SSIM指标比较

开源视频算法平台,深度学习,开源,音视频

图2 OpenDMC所支持跨平台算法效率指标表现

05


 

总结与展望

在本文中,我们发布了第一个基于深度学习的开源视频压缩算法库,OpenDMC。OpenDMC在多个平台均具备具体实现支持。在本文开头,本文首先简要介绍了视频压缩库中使用的算法及分类依据。随后,我们对代表性的基于深度学习的视频压缩算法进行了性能测试,并对每个模型的性能进行了精细分析,包括RD性能、时间复杂度和空间复杂度。本文相关代码已全部开源。得益于昇思MindSpore详细的文档与完备的社区支持,本文实验可轻松复现,我们希望OpenDMC能在包括昇思MindSpore在内的多个社区中为开发者提供代码支持,完善视频压缩生态,并引领更优秀的开源工作。文章来源地址https://www.toymoban.com/news/detail-782771.html

到了这里,关于论文精讲 | 基于昇思MindSpore打造首个深度学习开源视频压缩算法库OpenDMC,支持跨平台和多种评价指标的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包