阿里达摩院开源大型端到端语音识别工具包FunASR | 弥合学术与工业应用之间的差距

这篇具有很好参考价值的文章主要介绍了阿里达摩院开源大型端到端语音识别工具包FunASR | 弥合学术与工业应用之间的差距。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文首发于微信公众号 CVHub,严禁私自转载或售卖到其他平台,违者必究。

damo语音识别,大语言模型,语音识别,开源,人工智能

Title: FunASR: A Fundamental End-to-End Speech Recognition Toolkit
PDF: https://arxiv.org/pdf/2305.11013v1.pdf
Code: https://github.com/alibaba-damo-academy/FunASR

导读

本文介绍了一个开源语音识别工具包FunASR,旨在弥合学术研究和工业应用之间的差距。FunASR提供了在大规模工业语料库上训练的模型,并能够将其部署到应用程序中。工具包的核心模型是Paraformer,这是一个非自回归的端到端语音识别模型,经过手动注释的普通话语音识别数据集进行了训练,该数据集包含60,000小时的语音数据。为了提高Paraformer的性能,本文在标准的Paraformer基础上增加了时间戳预测和热词定制能力。此外,为了便于模型部署,本文还开源了基于前馈时序记忆网络FSMN-VAD的语音活动检测模型和基于可控时延Transformer(CT-Transformer)的文本后处理标点模型,这两个模型都是在工业语料库上训练的。这些功能模块为构建高精度的长音频语音识别服务提供了坚实的基础,与在公开数据集上训练的其它模型相比,Paraformer展现出了更卓越的性能。

引言

近年来,端到端E2E模型在自动语音识别ASR任务上的表现已经超过了传统的混合系统。目前有三种流行的E2E方法:

  1. 连结时序分类(CTC)
  2. 循环神经网络传递者(RNN-T)
  3. 基于注意力的编码器-解码器(AED)

其中,AED模型在ASR的seq2seq建模中占据主导地位,因为它们具有更高的识别准确性。为了促进端到端语音识别的研究,已经开发了包括ESPNET、WeNet、PaddleSpeech和K2等开源工具包。这些开源工具在降低构建端到端语音识别系统的难度方面发挥了重要作用。

damo语音识别,大语言模型,语音识别,开源,人工智能

本文介绍了FunASR,一个旨在弥合学术研究和工业应用之间差距的新型开源语音识别工具包。FunASR基于以前的工作,并提供了以下几个独特的功能:

  1. 模型范围:FunASR提供了基于工业数据的全面预训练模型。其中的核心模型Paraformer是一个非自回归的端到端语音识别模型,它经过手动注释的普通话语音识别数据集进行了训练,包含60,000小时的语音数据。与主流开源框架支持的Conformer和RNN-T相比,Paraformer在性能上具有可比性,同时更加高效。

  2. 训练和微调:FunASR是一个全面的语音工具包,提供了一系列工具示例,用于从头开始训练端到端语音识别模型,包括针对AISHELL、WenetSpeech和LibriSpeech等数据集的Transformer、Conformer和Paraformer模型。此外,FunASR还提供了一个方便的微调脚本,使用户能够快速在少量领域数据上微调ModelScope上的预训练模型,从而获得高性能的识别模型。这个功能对于只能访问有限数据和计算资源以从头开始训练模型的学术研究人员和开发人员尤其有益。

  3. 语音识别服务:FunASR使用户能够构建可在实际应用中部署的语音识别服务。为了方便模型部署,本项目还发布了基于前馈时序记忆网络FSMN-VAD的语音活动检测模型和基于可控时延Transformer(CT-Transformer)的文本后处理标点模型,这两个模型都是在工业语料库上训练的。为了提高Paraformer的性能,本项目在标准的Paraformer基础上增加了时间戳预测和热词定制能力。此外,FunASR还包括一个推理引擎,通过ONNX、libtorch和TensorRT支持CPU和GPU推理。这些功能模块简化了使用FunASR构建高精度、长音频语音识别服务的过程。

总体而言,FunASR是一个强大的语音识别工具包,提供了其它开源工具中没有的独特功能。需要注意的是,由于页面数的限制,本文仅报告了对普通话语料库的实验。事实上,FunASR支持多种语言,包括英语、法语、德语、西班牙语、俄语、日语、韩语等(有关更多详细信息,请参阅模型库)。

方法

damo语音识别,大语言模型,语音识别,开源,人工智能

FunASR的整体框架如上图2所示。ModelScope管理FunASR中使用的模型,并托管关键模型,如Paraformer、FSMN-VAD和CT-Transformer。使用FunASR的用户可以通过其基于Pytorch的流水线轻松进行实验,这些流水线分为学术和工业两类。学术流水线使用run.sh表示,允许用户从头开始训练模型。run.sh脚本遵循ESPNET的配方风格,包括数据准备(阶段0)、特征提取(阶段1)、字典生成(阶段2)、模型训练(阶段3和4)以及模型推断和评分(阶段5)。相比之下,工业流水线提供了两个独立的脚本:infer.sh用于推断,finetune.sh用于微调。这些流水线易于使用,用户只需指定模型名称和数据集即可。

FunASR还提供了一个易于使用的运行时环境,用于在应用程序中部署模型。为了支持CPU、GPU、Android和iOS等各种硬件平台,本文提供了不同的运行时后端,包括Libtorch、ONNX和TensorRT。此外,本项目还利用了AMP量化加速推断运行时,并确保最佳性能。有了这些功能,FunASR使得在各种应用中部署和使用语音识别模型变得简单易行。

Paraformer

如上图2(a)所示。Paraformer是一个单步非自回归NAR模型,它包含一个基于扫视语言模型的采样器模块,以增强NAR解码器捕捉标记之间的相互依赖关系的能力。

Paraformer由两个核心模块组成:预测器和采样器。预测器模块用于生成声学嵌入,捕捉输入语音信号的信息。在训练过程中,采样器模块通过将目标嵌入随机替换到声学嵌入中生成语义嵌入。这种方法使模型能够捕捉不同标记之间的相互依赖关系,提高模型的整体性能。然而,在推断过程中,采样器模块处于非活动状态,声学嵌入仅通过单次传递用于输出最终预测结果。这种方法确保了更快的推断时间和更低的延迟。

Timestamp Predictor

准确的时间戳预测是ASR系统的关键功能。然而,传统的工业ASR系统需要额外的混合模型来进行强制对齐(FA)以进行时间戳预测(TP),从而增加了计算和时间成本。FunASR通过重新设计Paraformer预测器的结构,在端到端的ASR模型中实现了准确的时间戳预测,如上图2(b)所示。本文引入了转置卷积层和LSTM层来上采样编码器的输出,时间戳由后处理CIF权重α2生成。本文将两个火炉之间的帧视为前一个标记的持续时间,并根据α2标记出静音部分。此外,FunASR还发布了一个名为TP-Aligner的类似于强制对齐的模型,它包括一个较小尺寸的编码器和一个时间戳预测器,并以语音和相应的转录作为输入来生成时间戳。

damo语音识别,大语言模型,语音识别,开源,人工智能

本文对AISHELL和60,000小时的工业数据进行了实验,以评估时间戳预测的质量。用于衡量时间戳质量的评估指标是累积平均偏移(AAS)。本文使用了一个包含5,549个话语的测试集,其中手动标记了时间戳,以比较所提供模型的时间戳预测性能与使用Kaldi训练的FA系统之间的差异。结果表明,Paraformer-TP在AISHELL上的性能优于FA系统。在工业实验中,本文发现所提出的时间戳预测方法在时间戳准确性方面与混合FA系统相当(差距小于10毫秒)。此外,单次传递的解决方案对于商业使用非常有价值,因为它有助于减少计算和时间开销。

Hotword Customization

Contextual Paraformer是一种可以通过利用命名实体来自定义热词的模型,这增强了激励并提高了回忆率和准确性。在基本的Paraformer模型上添加了两个附加模块:热词嵌入器和解码器最后一层的多头注意力,如上图2©所示。

本文使用热词作为输入到热词嵌入器。热词嵌入器由嵌入层和LSTM层组成,将上下文热词作为输入,并使用LSTM的最后状态生成嵌入向量Eh。具体来说,首先将热词输入到热词嵌入器中,生成一系列隐藏状态。然后使用最后一个隐藏状态作为热词的嵌入向量,捕捉输入序列的上下文信息。

为了捕捉热词嵌入向量Eh和FSMN记忆块的最后一层输出E_s’之间的关系,本文采用了多头注意力模块。然后将Es’和上下文注意力Ec进行拼接。这个操作可以用如下公式1来表示:

damo语音识别,大语言模型,语音识别,开源,人工智能

本文使用一维卷积层(Conv1d)来降低其维度,使其与隐藏状态Es’的维度相匹配,从而作为后续层的输入。值得注意的是,除了这个修改之外,本文的Contextual Paraformer的其他过程与标准Paraformer相同。

damo语音识别,大语言模型,语音识别,开源,人工智能

在训练过程中,热词是从目标中随机生成的,每个训练批次都会生成新的热词。在推理过程中,本文可以通过提供命名实体列表来指定热词。

为了评估Contextual Paraformer的热词定制效果,本文从AISHELL测试集中随机选择了235个包含实体词的音频片段,其中包含187个命名实体。该数据集已上传到ModelScope,并且测试配方已对FunASR开放。此外,本文将实验扩展到了工业任务的AI领域和通用领域,如上表2所示。

damo语音识别,大语言模型,语音识别,开源,人工智能

上表3展示了本文对热词对Contextual Paraformer性能影响的实验结果。本文使用CER和F1得分作为定制任务的评估指标。结果显示,在AISHELL-1的命名实体子测试集上,F1得分提高了约58%,这是令人印象深刻的改进。此外,在工业定制任务中,本文平均提升了约10%的性能。

Voice Activity Detection

语音活动检测VAD在语音识别系统中起着重要作用,它能够检测有效语音的起始和结束。FunASR提供了一种基于FSMN结构的高效VAD模型。为了提高模型的区分度,本文采用单音素作为建模单元,因为它们能够提供相对丰富的语音信息。在推理过程中,VAD系统需要进行后处理以提高鲁棒性,包括阈值设置和滑动窗口等操作。

damo语音识别,大语言模型,语音识别,开源,人工智能

上表4详细展示了VAD的评估结果。测试集包含两个领域的手动标注数据:2小时的会议数据和4小时的视频数据。本文报告了字符错误率CER和发送到ASR推理的语音百分比。结果表明,VAD能够有效过滤掉无效的声音,使识别系统能够专注于有效的语音,从而显著提高了CER。

Text Postprocessing

damo语音识别,大语言模型,语音识别,开源,人工智能

文本后处理是生成可读性高的ASR转录的关键步骤,包括添加标点符号和去除语音不流畅性。FunASR包含一个CT-Transformer模型,可以实时执行这两个任务,模型的整体框架如上图3所示。为了满足实时性要求,模型允许部分输出被冻结,并且可控制时间延迟。采用快速解码策略来最小化延迟,同时保持竞争力的性能。此外,为了降低计算复杂度,该策略根据已预测的标点符号动态地丢弃过长的历史信息。

damo语音识别,大语言模型,语音识别,开源,人工智能

上表6展示了文本后处理的结果,实验表明,CT-Transformer以更快的推理速度实现了与竞争模型相当的F1分数。

结论

本文介绍了FunASR,这是一个旨在填补学术研究和工业应用之间差距的系统,用于语音识别。FunASR提供了在大规模工业语料库上训练的模型,并且能够轻松地将它们部署到实际应用中。本项目提供了各种工业模型,包括Paraformer-large模型、FSMN-VAD模型和CT-Transformer模型等。通过公开提供这些模型,FunASR使研究人员能够轻松地在实际场景中部署它们。


CVHub是一家专注于计算机视觉领域的高质量知识分享平台,全站技术文章原创率达99%,每日为您呈献全方位、多领域、有深度的前沿AI论文解决及配套的行业级应用解决方案,提供科研 | 技术 | 就业一站式服务,涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿态/超分/重建等全栈领域以及最新的AIGC等生成式模型。关注微信公众号,欢迎参与实时的学术&技术互动交流,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!文章来源地址https://www.toymoban.com/news/detail-645624.html

到了这里,关于阿里达摩院开源大型端到端语音识别工具包FunASR | 弥合学术与工业应用之间的差距的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于ChatGPT的端到端语音聊天机器人项目实战(一)

    基于ChatGPT的端到端语音聊天机器人项目实战 本节主要是跟大家分享一个端到端的基于模型驱动的对话机器人,会有前端和后端,也会有一些具体模型的调用,读者需具有Python语言编程的基础,这是前置性的条件,有了这个基础,理论上讲本节所有的内容,读者都可以掌握,

    2024年02月10日
    浏览(41)
  • 端到端 RAG 解决方案 RAGFlow 正式开源

    继 AI 原生数据库 Infinity 于去年底正式开源之后,我们的端到端 RAG 解决方案 RAGFlow 也于今日正式开源。在回答 RAGFlow 是一款怎样的产品之前,我们先来谈谈为何要做这样一款产品。 RAG 发展到今日,已经成为 LLM 面向 B 端服务的共识,然而时至今日,针对它的疑问却从来没有

    2024年04月08日
    浏览(29)
  • DevOps-ChatBot:DevOps开源端到端智能AI助手

    随着ChatGPT等通用大模型以及各类垂直领域大模型的出现,各个领域的产品交互模式、用户信息获取模式都在逐步发生改变。但通用大模型自身存在的生成内容不可靠、信息内容不及时、领域任务不完善的问题始终存在,面向DevOps这个对于事实的准确性、信息的及时性、问题的

    2024年02月04日
    浏览(22)
  • 免费离线语音识别软件开发工具包(SDK):实现高效准确的语音识别

    语音识别技术在当今信息时代扮演着重要的角色,为用户提供了更加便捷和自然的交互方式。然而,传统的语音识别方案通常需要依赖云服务器进行语音数据的处理,这可能会涉及到隐私问题和网络延迟。为了解决这些问题,免费离线语音识别软件开发工具包(SDK)应运而生

    2024年02月04日
    浏览(33)
  • Humanoid-Gym 开源人形机器人端到端强化学习训练框架!星动纪元联合清华大学、上海期智研究院发布!

      Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer GitHub Repository: GitHub - roboterax/humanoid-gym: Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer   Humanoid-Gym是一个基于Nvidia Isaac Gym的易于使用的强化学习(RL)框架,旨在训练仿人机器人的运动

    2024年04月12日
    浏览(30)
  • 重估端到端原则

    评价技术迭代的旧的定势眼光来自于该技术诞生时。 1970/80/90 年代,相比传输带宽技术,处理器更强。网络协议倾向于字段多,字段小且紧凑,尽可能减少传输量,用 “算法技巧” 等价,如果 TCP 序列号 48 位,win 48 位,端口号 48 位,所有与 PAWS,win scale option,get unique tup

    2024年02月07日
    浏览(46)
  • 端到端自动驾驶

    自动驾驶主要流程:感知-预测-规划 预测是预测周围目标(车、行人、动物等)的轨迹,规划是规划自车的运动轨迹。 使用transformer架构, 统一自动驾驶流程 ,完成所有检测,跟踪,建图,轨迹预测,占据栅格预测与规划的端到端推理。 参考: CVPR 2023 Award Candidate | 自动驾

    2024年01月25日
    浏览(25)
  • 什么是端到端测试?

    端到端测试(End-To-End Testing, 简称E2E测试)是一种 从头到尾测试整个软件产品 以确保应用程序流程按预期运行的技术。它定义了产品的系统依赖性,并确保所有集成部分按预期协同工作。 端到端测试的主要目的是 通过模拟真实用户场景并验证被测系统及其组件的集成和数据

    2024年02月07日
    浏览(45)
  • 前端实现端到端测试(代码版)

    playwright 、 cypress 、 selenium 对比 个人初步使用后,推荐playwright 框架作为e2e test 下载 cypress npm install cypress --save-dev package.json npm run cypress:open 使用流程 入门官方文档 npm run cypress:open 左侧端测试,右侧组件测试,点击左侧 选择你需要的浏览器,点击开始 自动打开浏览器,点击左侧s

    2024年02月04日
    浏览(25)
  • 【端到端图像压缩】CompressAI运行记录

    目录 0 前言 1 代码来源 2 代码的运行 2.1 CompressAI下载与安装 2.2 运行示例程序 3 结果分析 4 结论 5 参考文献 0 前言 期末作业要求运行端到端的图像压缩代码,过程中学习了csdn上诸多教程。这里将运行的过程分享出来。 1 代码来源 目前大多数文献附带的代码是在Linux平台使用

    2024年02月12日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包