中文连续视觉语音识别挑战赛

这篇具有很好参考价值的文章主要介绍了中文连续视觉语音识别挑战赛。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集,成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。

为推动这一研究方向的发展,由清华大学、北京邮电大学、海天瑞声、语音之家联合举办2023 NCMMSC特殊议题:中文连续视觉语音识别挑战赛(CNVSRC, Chinese Continuous Visual Speech Recognition Challenge)正式对外发布。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。比赛结果将在 NCMMSC 2023 会议上宣布并颁奖。

任务设置

CNVSRC 2023 共设有两个任务:

  • T1:特定说话人视觉语音识别 (Single-speaker VSR) 

  • T2:多个说话人视觉语音识别 (Multi-speaker VSR)

前者侧重于针对某一特定说话人进行大量数据调优后的性能,后者侧重于系统对非特定说话人的基础性能。每个任务根据训练数据不同,又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track)。

固定赛道仅允许使用 CN-CVS 数据集即各任务发布的开发集作为训练集,旨在验证算法的先进性。开放赛道则可以使用任何数据进行训练,旨在验证当前技术能够达到的性能上限。清华大学将提供固定赛道上的基线系统代码,供参赛者作为参考。

数据集

•  CN-CVS: CN-CVS包含2557名说话人超过300小时的音视频数据,覆盖新闻播报与公开演讲场景,是目前最大的开源中文音视频数据集。主办方为本次竞赛提供了该数据库的文本标注。更多关于CN-CVS的信息请访问数据库官网CN-Celeb。该数据集作为本次竞赛闭集任务的训练集。

•  CNVSRC-Single: CNVSRC2023单人大数据。包含一名说话人超过100小时的音视频数据,数据来源于网络视频,其中十分之九的数据构成开发集,剩余十分之一的数据作为测试集。

•  CNVSRC-Multi: CNVSRC2023多人限量数据。包含43名说话人的音视频数据,每人的数据量接近1小时,其中每个人的三分之二数据构成开发集,剩余数据构成测试集。其中23名说话人的数据来源于受控环境下朗读固定机位录制,且单条数据时长相对较短。另20名说话人的数据来源于网络的演讲视频,单条数据时长较长,环境和内容较为复杂。

对于训练集和开发集,主办方提供音频、视频和对应的转录文本;对于测试集,则仅提供视频数据。参赛者不得以任何方式使用测试集,包括但不限于使用测试集帮助模型训练或者微调等。

数据集 CNVSRC-Single CNVSRC-Multi
开发集 Dev 测试集 Eval 开发集 Dev 测试集 Eval
视频条数 25947 2881 20450 10269
视频时长(小时) 94.00 8.41 29.24  14.49

参赛方式

参赛者需在CNCeleb官网上注册CNVSRC账号

请访问如下网址进行注册:CN-Celeb

注册以后,用户可以依据提示下载数据资源(CN-CVS, CNVSRC-Single, CNVSRC-Multi)。

CNVSRC 2023 以字错误率(Character Error Rate, CER)为评测准则。结果提交时,参赛者需要登录CNVSRC账号,进入CNVSRC 2023结果提交页面,选择对应的任务和赛道,提交结果文件。结果文件中每一行对应一条测试视频,以该视频的ID开始,后接对应的转录文本。内容提交后,系统自动计算CER并显示给参赛者。对每个任务每个赛道,参赛者有5次提交机会。

基线系统

主办方提供了固定赛道条件下多说话人和特定说话人两个任务的基线系统供。该基线系统采用基于Conformer的结构,模型性能如下。

Task Single-speaker VSR Multi-speaker VSR
CER on Dev Set 48.57% 58.77%
CER on Eval Set 48.60% 58.37%

参赛者可以通过下面网址获得基线系统的代码:https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline

赛程安排

2023/09/20                    开启报名,训练数据集、开发数据集、基线系统发布

2023/10/10                    测试数据集发布

2023/11/01                    提交系统开放

2023/12/01 晚12点        提交结果截止

2023/12/09                    NCMMSC 2023 Workshop,公布成绩、优秀竞赛方案分享

组委会

· DONG WANG, Center for Speech and Language Technologies, Tsinghua University, China
· CHEN CHEN, Center for Speech and Language Technologies, Tsinghua University, China 
· LANTIAN LI, Beijing University of Posts and Telecommunications, China
· KE LI, Beijing Haitian Ruisheng Science Technology Ltd., China
· HUI BU, Beijing AIShell Technology Co. Ltd, China

中文连续视觉语音识别挑战赛,国际数据竞赛,语音识别,人工智能

报名传送门

2023 中文连续视觉语音识别挑战赛

Chinese Continuous Visual Speech Recognition Challenge 2023

Step1.  注册CNVSRC账号

CN-Celeb

*注册后可下载数据资源:CN-CVS, CNVSRC-Single, CNVSRC-Multi

Step2.  基线系统代码

https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline

CNVSRC 2023 Website

CN-Celeb文章来源地址https://www.toymoban.com/news/detail-734702.html

到了这里,关于中文连续视觉语音识别挑战赛的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 22年下数维杯国际大学生数学建模挑战赛C题与D题解析与思路

    关于2022.11月数维杯国际赛的赛题,首先从赛题类型和难度进行分析,为大家提供选题建议 其中 A (自动地震层位追踪) 属于 机理分析 赛题 、B (红蓝军团对抗) 属于 优化类 赛题 、C (阿尔茨海默病诊断) 属于 聚类 赛题 、D (拉尼娜事件) 属于 预测和评价类 赛题。 由于工作原因

    2024年02月13日
    浏览(61)
  • 科大讯飞-X光安检图像识别挑战赛2023-测试【1】

    引言: X光安检是目前在城市轨交、铁路、机场、物流业广泛使用的物检手段。使用人工智能技术,辅助一线安检员进行X光安检判图,可以有效降低因为安检员经验、能力或工作状态造成的错漏检问题。在实际场景中,因待检测物品的多样性、成像角度、重叠遮挡等问题,

    2024年02月15日
    浏览(45)
  • 全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64,组织单位:(大数据与决策实验室)

    NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等 专栏详细介绍:NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性

    2024年02月13日
    浏览(48)
  • 2023年MathorCup高校数学建模挑战赛大数据挑战赛赛题浅析

    比赛时长为期7天的妈杯大数据挑战赛如期开赛,为了帮助大家更好的选题,首先给大家带来赛题浅析,为了方便大家更好的选题。 赛道 A:基于计算机视觉的坑洼道路检测和识别 A题,图像处理类题目。这种题目的难度数模独一档,有图像处理经验的可以尝试。正常并不推荐

    2024年02月08日
    浏览(48)
  • CSDN编程挑战赛经历

    CSDN竞赛为鼓励各位开发者积极参与开发相关的技能评测,帮助开发者在练习与学习的过程中取长补短,提升个人专项能力。 本大赛面向所有开发同学,报名参与即可来挑战,并有CSDN周边精美礼品及荣誉激励。 主要题型为编程题,当然有时候还有其他题型,编程题可以用C语

    2024年02月12日
    浏览(35)
  • IAM风险CTF挑战赛

    wiz启动了一个名为“The Big IAM Challenge”云安全CTF挑战赛。旨在让白帽子识别和利用 IAM错误配置,并从现实场景中学习,从而更好的认识和了解IAM相关的风险。比赛包括6个场景,每个场景都专注于各种AWS服务中常见的IAM配置错误。 Challenge1: Buckets of Fun We all know that public bucket

    2024年02月11日
    浏览(37)
  • 家庭安全计划 挑战赛| 溺水预防

    溺水预防 从了解到行动 家庭安全计划 | 少年急救官 地震避险逃生该怎么做? 起火了该如何应对? 哪些行为容易导致溺水? 家庭风险隐患有哪些? 家庭逃生演练四步骤你会吗? 国际救助儿童会(英国)北京代表处 携手壹基金发起 #家庭安全计划社区活动包挑战赛# 济宁运河

    2024年02月05日
    浏览(35)
  • 科大讯飞-鸟类分类挑战赛-测试【1】

    背景: 随着生态环境的不断变化和人类对自然资源的过度开发,世界各地的鸟类数量和种类正在发生着巨大的变化。为了更好地保护鸟类资源,科学家们需要对鸟类进行详细的研究和记录。然而,传统的鸟类观察方法往往需要大量的人力、时间和物力,而且在观察过程中还可

    2024年02月14日
    浏览(36)
  • 通义千问AI挑战赛赛后反思

    个人理解: 初赛阶段主要聚焦在如何通过 SFT 提升基础模型的代码能力,需要选手基于最新开源的 Qwen 1.8 模型作为基础模型,上分的关键主要通过收集高质量的代码数据提升模型的在Python, JavaScript, Java, Go, C++, Rust六种编程语言的代码生成能力。 比赛要求采用通义千文模型,

    2024年01月21日
    浏览(43)
  • 智能算法挑战赛决赛题目——初中组

    从 m 个字符中选取字符,生成 n 个符号的序列,使得其中没有 2 个相邻的子序列相同。如从 1,2,3,生成长度为 5 的序列,序列“12321”是合格的,而“12323”和“12123”是不合格。问:已知 m 和 n 都是小于等于 10 的数字,求 m 个不同字符,组成长度n 的序列中,无 2 个相邻相

    2024年02月11日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包