技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

这篇具有很好参考价值的文章主要介绍了技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这一篇内容将围绕语音识别与合成方向,继续为大家带来相关技术解析。

“风物长宜放眼量”。面向人机交互更加自然流畅的未来,智能语音技术进展如何?该走向何方?

以下内容根据讯飞研究院杰出科学家潘嘉在NCMMSC 2022上的主题演讲《科大讯飞语音技术前沿进展》整理。


技术专业度:⭐⭐⭐⭐⭐

目录

语音识别

1、主流框架均为自回归端到端建模

2、提出基于文本语音统一空间表达的非自回归ASR框架

3、进一步提出多元语义评价的多任务学习框架

语音合成

1、提出SMART-TTS

2、虚拟音色生成

语音识别

  • 主流框架均为自回归端到端建模

当前,基于自回归方式的端到端建模已经成为语音识别的主流框架。主要包含Attention-based Encoder-Decoder以及引入预测网络的Transducer结构。所谓自回归方式相当于在语音识别模型中引入了语言模型机制,其特点是预测当前识别结果需用等待先前历史的识别结果。

技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

但是在真正大规模部署时,自回归的性质会影响并行程度和推理效率,因此我们思考是否能建立一个高准确率的非自回归的框架,便很自然想到了CTC(Connectionist temporal classification,连接时序分类)——作为非自回归的框架,其特性会将输出表现为尖峰的形式。

  • 提出基于文本语音统一空间表达的非自回归ASR框架

如果做汉字的CTC建模,其隐层表征能抓到汉字级别上下文的关系,除了时长不一样以外,与自然语言里mask恢复或纠错任务是非常接近的。

技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

为了解决语音和文本长度不匹配问题,讯飞研究院设计了一种有效的方案,即在文本中增加blank等来实现帧级的扩展。最终实现的效果是加入海量的纯文本数据与语音字级CTC数据联合训练后,将文本数据里包含的上下文语言模型类似信息吸收到整个模型中,结果也证明并不逊色于自回归的ED和Transducer,甚至更好。

  • 进一步提出多元语义评价的多任务学习框架

技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

同时,讯飞研究院进一步提出了多元语义评价的多任务学习框架来提高语音识别的可懂度。看上图左边,虽然识别率达到了93%,但其中一些关键部分识别错误影响了理解。

我们在字级CTC后又接了一些层,将其收到句字级的表征之后去做意图分类、语法评价等目标,希望整句话除了识别结果高之外,还能在意图上等较好地分类,提高语音识别系统的可懂度。

语音合成

  • 提出SMART-TTS(Self-supervised Model Assisted pRosody learning for naTural Text To Speech)

近几年围绕语音合成通用框架所做的工作很丰富,例如VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)这种端到端建模,以及韵律表征等。

讯飞研究院提出了SMART-TTS框架,核心思路就是将语音合成的学习过程进行模块化拆解,通过预训练加强各个模块学习,而非一开始就直接学习文本与声学特征的映射。

技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

首先做文本编码预训练。通过将文本先和语音联合在一起做预训练,希望在文本的表征里就能包含一些跟发音韵律相关的信息,在此基础上再做韵律建模、提取韵律表征相对就容易一些。

技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

除了传统的基频能量或时长等一些人为设计的统计特征,我们用对比学习的方式提取韵律特征,使得对语音韵律的表征能力更强。

有了韵律特征之后,我们再去恢复最终的声学特征,声学特征用到了VAE等一些编码,在编码的基础上通过声码器最终去恢复它的语音。

目前,SMART-TTS已经上线讯飞开放平台,在学习强国、讯飞有声APP中都可以直接体验到其语音合成效果。

关于讯飞在线语音合成技术的更多应用信息点击查看:

在线语音合成_免费试用-讯飞开放平台

  • 虚拟音色生成

除了SMART-TTS之外,讯飞研究院还在语音合成领域做了另外一项工作:虚拟音声的生成。

元宇宙是当下很火的一个话题,元宇宙空间中NPC(non-player character,非玩家角色)可以说无处不在。如果NPC的语音跟自己的人设不符,会很明显影响我们的体验感受。而面对海量的NPC,想要为每个NPC都寻找合适的发音人是极为费时费力的一件事。

同样的情况也出现在有声小说中,繁多的角色如果用同一个声音朗读,会让我们感觉比较乏味。怎样才能贴合每个角色的性格去实现声音的“角色扮演”呢?

虚拟音色生成,就是将海量说话人的语音联合在一起训练语音合成模型首先通过音色编码模块提取说话人的相关表征,这些表征是为了说话人识别服务的,在音色空间构成上是区分性的表征,不像生成式模型在空间层面有很多内插等的属性。因此,我们通过流模型将音色表征进一步投影到新的隐层表征空间,将这个空间的表征和前面的文本表征、韵律表征联合做语音合成。

因为在训练时会有非常多说话人的数据,且训练时还会标出一些说话人的音色特征标签,例如年龄、性别、特点(甜美、浑厚等)等,有了这些标签引导后使得最后的音色空间表征Z具有很强的指示性,同时还具有很好的内插等属性。

有了相关模型后,使用就变得更加简单了。我们可以输入一些希望生成的语音,例如“青年 甜美的女声”等,然后通过语义编码模块训练一个和Z的映射关系,最后可以根据采样得到符合音色控制标签的音色。

技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成

目前我们已经用这一模型生成了500多个虚拟的合成音色,合成语音自然度超过了4.0MOS。文章来源地址https://www.toymoban.com/news/detail-465368.html

到了这里,关于技术解读 | 科大讯飞语音技术最新进展之二:语音识别与语音合成的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【人工智能】科大讯飞语音识别应用开发(第三集)

    这次需要对科大讯飞语音识别接口进行语音识别应用开发,前两次都是通过WebAPI调用接口,这次换一下,通过SDK调用接口 下面是开发的详细记录过程(基于前两次的基础上) 网址:https://www.xfyun.cn/services/voicedictation 不领服务量为500且该包免费( 貌似是不同应用都可以免费领

    2024年02月13日
    浏览(43)
  • 深度学习与语音识别:最新进展与挑战

    语音识别,也被称为语音转文本(Speech-to-Text),是人工智能领域的一个重要研究方向。它旨在将人类语音信号转换为文本格式,从而实现人机交互的自然语言处理。随着深度学习技术的发展,语音识别的性能得到了显著提升。本文将从深度学习的角度探讨语音识别的最新进展与

    2024年04月23日
    浏览(27)
  • vue3+vite+ts项目集成科大讯飞语音识别(项目搭建过程以及踩坑记录)

    🐱 个人主页: 不叫猫先生 🙋‍♂️ 作者简介:前端领域新星创作者、阿里云专家博主,专注于前端各领域技术,共同学习共同进步,一起加油呀! 💫系列专栏:vue3从入门到精通、TypeScript从入门到实践 📢 资料领取:前端进阶资料以及文中源码可以找我免费领取 🔥 前端

    2023年04月09日
    浏览(41)
  • Java中实现在线语音识别(科大讯飞免费的SKD)、SDK下载和IDEA项目搭建、成功运行【完整代码】

    科大讯飞官网:https://www.xfyun.cn/ 首先登陆讯飞开放平台:https://passport.xfyun.cn/login,微信扫码关注登录 注册新账号 登陆后界面后,进入产品服务–实时语音转写栏目 点击个人免费套餐,下面的立即领取,它会提醒我们去实名认证 实名认证一下 提交完认证之后 可以看到认证

    2023年04月21日
    浏览(38)
  • GEC6818开发板JPG图像显示,科大讯飞离线语音识别包Linux_aitalk_exp1227_1398d7c6运行demo程序,开发板实现录音

    体积小,使用到数据结构里面的 霍夫曼树(哈夫曼树) 对数据进行压缩 1.对jpegsrc.v8c.tar.gz进行arm移植 移植方式如下: 1.将jpegsrc.v8c.tar.gz解压缩到ubuntu ~ 2.进入~/jpeg-8c对jpeg库进行配置 3.编译 4.安装,将动态库存放到 /home/gec/armJPegLib 5.清空编译记录 6.自己查看下 /home/gec/armJPegLib目

    2024年01月17日
    浏览(44)
  • 科大讯飞语音SDK下载及测试

    一、SDK 下载 进入讯飞开发平台官网http://www.xfyun.cn/,右上角进行注册登录,登录后点击进入SDK下载。            2.创建新应用               3.填入相关信息         4.创建完后提交后回到SDK下载页面,刷新页面,应用选择前面创建的应用,平台选择Linux,SDK选择

    2024年02月08日
    浏览(60)
  • vue 利用科大讯飞实现实时语音转写

    1:新建js文件,该文件在科大讯飞api的demo种可以找到 2: 引入第一个文件在vue页面中 3:如果在引入的过程中有些关于worker的报错,可以参考以下方法  在vue.config.js中加入  

    2024年02月12日
    浏览(34)
  • 科大讯飞语音合成Java springboot集成

    科大讯飞语音合成 文本转语音 一、引入依赖: 二、下载响应的sdk,我这里是下载的java win版本的sdk SDK下载 - 科大讯飞api接口 - 讯飞开放平台 三、具体代码: 从下载的依赖里面找到对应文件,给代码里面替换成你的绝对路径,运行即可 备注:这个地方需要你自己的账号下载

    2024年02月15日
    浏览(43)
  • 微信小程序调用科大讯飞 在线合成语音接口(文字转语音)

    科大讯飞在线文档 https://www.xfyun.cn/doc/tts/online_tts/API.html 科大讯飞调用接口 地址 https://blog.csdn.net/jinxi1112/article/details/122835386 微信小程序base64转ArrayBuffer替代方案 https://www.homedt.net/43939.html 注意点 调用函数 参考大佬的实例 这里说一下注意的点 微信小程序 不支持在线的 base64

    2024年02月10日
    浏览(36)
  • C#调用科大讯飞离线语音合成实现文本转语音

    文本转语音(Text To Speech),简称TTS,在很多业务场景会用到,比如广播大厅,人机互动等。C#要实现TTS有不少选择,比如调用System.Speech,此处就不细说了,下面主要介绍一下C#调用科大讯飞的离线语音合成SDK来实现文本转语音。 地址:[https://www.xfyun.cn/service/offline_tts] 一、创建

    2024年02月12日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包