智能存储:多媒体实验室AIGC能力助力数据万象开启智能剪辑大门

这篇具有很好参考价值的文章主要介绍了智能存储:多媒体实验室AIGC能力助力数据万象开启智能剪辑大门。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

引言

AIGC正从效率、质量、创意、多样性各方面革新内容生产流程,伴随firely、midjourney等现象级的产品出现,AIGC将逐步广泛服务于内容生产的各类场景与内容生产者,随着AIGC在内容生产的需求场景不断增加,多媒体实验室也在AIGC领域持续发力,并通过数据万象将能力成功应用到传媒、社交、文娱等多个行业,逐步夯实全场景内容生产力。

1)足球精彩集锦

数据万象泛互与传媒客户拥有不小体量的体育视频数据处理需求,尤其是赛事期间,足球赛事作为最受欢迎的体育赛事内容消费量一直居高不下,球迷对其内容的可观赏性要求也颇高,由于时长问题,未经剪辑的足球比赛不能直接投放到体育新闻、短视频等场景用于赛事宣传。为此,腾讯多媒体实验室基于自研的AIGC系列技术,通过腾讯云数据万象产品为广大客户带来足球比赛的智能剪辑能力,在没有人工剪辑参与的情况下自动生成赛事高光内容。

技术介绍

数据方面,我们采集了1200多场具有代表性的足球赛事并标注了高精度的数据集。数据集覆盖各类著名联赛和杯赛,累计600多个小时。同时,我们设置了19个关键事类别,针对每一段视频准确标注出全部关键事件的起始点、结束点和对应类别。关键事件分布如下图,基本可以反映真实比赛的数据分布。

智能存储:多媒体实验室AIGC能力助力数据万象开启智能剪辑大门

数据集关键事件分布

算法方面,我们设计了一个基于智能拆条和进球检测的多模态方案来完成智能剪辑。

智能存储:多媒体实验室AIGC能力助力数据万象开启智能剪辑大门

多模态智能剪辑方案

智能拆条模块基于视频的图像序列和音频信息,通过子任务抽取多模态特征,再由事件检测模型定位各类关键事件。针对单帧图像、音频信息、图像序列,我们基于事件标签有监督地训练了三个特征提取器,用于提取图片、声音、动作等多模态特征

子任务

数据

标签

准确率

图片分类

80万

攻门、解围、任意球、角球、点球、红黄牌、换人、治疗、弹框信息、采访、比赛开始 、比赛结束、入场、奏国歌 、握手、片头/片尾、越位、补水、其它

90.8%

声音分类

7000条

观众欢呼、解说平静、解说激动、哨声、其它

84.1%

动作识别

3万

运动战攻门、运动战解围、回放、任意球、角球、点球、红黄牌、换人、治疗、弹框信息、采访、比赛开始 、比赛结束、入场、奏国歌 、握手、片头/片尾、越位、补水、其它

87.4%

事件检测模型接受由时序卷积编码再拼接的多模态融合特征作为输入,评估各个时刻属于事件开始、结束、过程的概率,并由此构建候选区间和对应的时序特征。候选区间评估阶段利用时序特征评估对应区间与真实事件区间的交并比,进而实现事件定位。最后结合子任务阶段获取的事件标签以及后处理算法就可以得到准确的事件拆条结果。

智能存储:多媒体实验室AIGC能力助力数据万象开启智能剪辑大门

事件检测模型

智能拆条的效果指标mAP达到了82%,其中定位球和回放等事件的对应指标更是达到90%以上。

媒体2.mp4

运动战精彩集锦示例

进球检测模块通过判断比分变化情况来对进球事件作补充。在上述方案中,进球事件的召回率并不高,原因是我们并没有充分利用视频里的比分信息,最直观的解决办法是利用比分信息帮助判断当前的进球情况。在实际应用中,进球检测模块针对视频帧序列检测出比分牌位置,然后适当扩大边缘后再做文字检测获取当前帧比分数位置,通过多帧聚类得到当前比赛的比分数位置,最后利用文字识别技术获得比分序列,根据比分单边递增规则确认进球时刻。

智能存储:多媒体实验室AIGC能力助力数据万象开启智能剪辑大门

进球检测模块

进球检测模块将进球事件的召回率提高到96%,提高了集锦的完整性和精彩程度。

进球.mp4

进球精彩集锦示例

足球场景的智能剪辑方案中,我们还新增了球星识别模块,用于剪辑特定球星片段。该模块通过使用人脸检测算法定位视频中的所有人脸,然后使用人脸识别模型编码人脸特征,通过聚类算法得到相似人脸序列,最后在球星人脸数据库中查找与之匹配的球星。目前我们的方案可识别500位人气球星。

现该功能已在数据万象多个体育客户案例中落地,日均处理量持续攀升,大幅提升数据万象客户赛事周边后期生产速率。

2)影视精彩集锦

除了体育,自研的智能剪辑还支持电视剧、动漫等影视场景,可以根据用户指定的人物、动作、情感、关键词等信息自动生成所需集锦视频。

以人物向为例,用户只需要提供2~3张某个人物的照片,系统便可注册对应人物,剪辑时指定需要剪辑的角色(或列表)即可生成人物集锦。再搭配音乐卡点,上热门妥妥的!

人物向.mp4

人物向集锦

线索集锦方面,用户可以根据剧情内容指定某个关键词作为线索,系统将自动检索剧集中与此相关的内容,并生成关键词集锦,打造全网最清晰的故事线。

蓝银草集锦.mp4

线索词集锦

现该功能已获得数据万象体验馆、智能工具箱、控制台中超高点击率,吸引众多用户关注使用,此场景能够根据用户需求灵活调整集锦所需关键动作、人物等,欢迎各位用户前往测试。

总结

未来,腾讯多媒体实验室将持续投入包括智能剪辑在内的AIGC核心能力建设,数据万象负责人叶嘉梁表示道数据万象借助多媒体实验室在底层 AI 算法多年的积累和建设,结合自身对行业和业务的理解,快速上线了能够帮助客户业务实现智能内容生产的能力,丰富的算法也让业务具备更好的多样性和灵活性。您可以前往数据万象进行相关能力体验对存储在对象存储COS上的数据进行创作。数据万象将持续携手多媒体实验室为广大客户提供视频自动剪辑、智能作曲、音乐评分等更多智能化服务,提升内容生产和创作效率。文章来源地址https://www.toymoban.com/news/detail-497868.html

到了这里,关于智能存储:多媒体实验室AIGC能力助力数据万象开启智能剪辑大门的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Web前端技术基础实验报告三之超链接与多媒体文件应用

    目录 Web前端技术基础实验报告 实验题目:超链接与多媒体文件应用 实验目的:熟悉超链接与多媒体文件的插入的相关标签 实验内容 : 实验过程及结果 实验题目:超链接与多媒体文件应用 实验目的:熟悉超链接与多媒体文件的插入的相关标签 实验内容 : 项目1  设计简易

    2023年04月16日
    浏览(40)
  • 软考:中级软件设计师:多媒体基础,音频,图像,颜色,多媒体技术的种类,图像音频视频的容量计算,常见的多媒体标准

    提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都是需要细心准备的 (1)自己的科研经历, 科研内容 ,学习的相关领域知识,要熟悉熟透了 (2)自己的实习经历,做了 什

    2024年02月09日
    浏览(46)
  • 多媒体音频焦点浅析

    多个音源可以同时向同一个输出流进行播放音频,如果没有音频焦点管控,就会出现多个音源同时播放的现象,给用户带来不便;而Android为了避免多个音源同时播放,就引入了音频焦点的概念,所有音频应用都统一按照音频焦点的规定执行,就可以避免该现象发生。 当应用

    2024年02月13日
    浏览(35)
  • 多媒体API

    许小墨のBlog —— 菜鸡博客直通车 系列文章完整版,配图更多,CSDN博文图片需要手动上传,因此文章配图较少,看不懂的可以去菜鸡博客参考一下配图! 前端系列文章——传送门 后端系列文章——传送门 video 只接受几种视屏格式:ogg、mp4、avi 基本使用: controls属性,出现

    2024年02月02日
    浏览(49)
  • 鉴源实验室丨智能网联汽车协议模糊测试技术概述

    作者 |  乔琪 上海控安可信软件创新研究院工控网络安全组 来源 |  鉴源实验室 社群 |  添加微信号“ TICPShanghai ”加入“上海控安51fusa安全社区” 摘要: 随着智能网联汽车的快速发展,其协议安全性和稳定性成为了关注焦点。智能网联汽车协议特点主要表现为:数据格式

    2024年04月23日
    浏览(40)
  • AIGC生成多媒体流程

    给定 生成多个故事标题 多个故事标题进行反向推导出 再生成标题 直到达到一个相似度 多个标题固定总结合并为一个标题 根据生成故事多个章节标题 多个章节标题反向生成一个标题 对比前后两个标题相似度 不断重复直到达到一定相似度 第一个章

    2024年02月12日
    浏览(37)
  • 多媒体开发之cgo

         go语言作为近十年来优秀的现代开发语言的代表,由于继承了c语言的简洁和很多现代语言的表达方式,在广泛的应用场景中得到众多爱好者的喜爱,如何将go和c、c++进行联合开发,拓展整个开发生态,不用重复造轮子,掌握cgo可以让你得心应手的在c和go之间传递信息,

    2024年02月16日
    浏览(39)
  • 鸿蒙实战多媒体运用:【音频组件】

    音频组件用于实现音频相关的功能,包括音频播放,录制,音量管理和设备管理。 图 1  音频组件架构图 基本概念 采样 采样是指将连续时域上的模拟信号按照一定的时间间隔采样,获取到离散时域上离散信号的过程。 采样率 采样率为每秒从连续信号中提取并组成离散信号

    2024年03月10日
    浏览(51)
  • 计算机网络——多媒体网络

    通俗易懂,风趣幽默,忍不住分享一下给大家, 跳转到网站 我的计算机网络专栏,是自己在计算机网络学习过程中的学习笔记与心得,在参考相关教材,网络搜素的前提下,结合自己过去一段时间笔记整理,而推出的该专栏,整体架构是根据计算机网络 自顶向下 方法而整理

    2024年02月20日
    浏览(28)
  • HTML5多媒体单元测试

    (单选题, 10.0分) 为元素指定多个视频源使用( )标签(元素)。 A select B datalist C source D src (单选题, 10.0分) 判断浏览器是否支持指定的媒体类型需用到audio或video对象的( )方法。 A load() B play() C pause() D canPlayType() (多选题, 10.0分) HTML5新增了强大的多媒体的功能,主要体现在

    2024年02月04日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包