近日由IEEE主办、被誉为世界范围内最大规模、也是最全面的信号处理及其应用方面的顶级学术会议ICASSP2023于希腊召开,该会议具有权威、广泛的学界以及工业界影响力,备受AI领域多方关注。会上火山语音多篇论文被接收并发表,内容涵盖众多前沿领域的技术创新,并有效解决了字音转换、语种混淆等实践问题。
图片来源:https://2023.ieeeicassp.org/
LiteG2P:一种快速、轻量级、高精度的字音转换模型(LiteG2P: A Fast, Light and High Accuracy Model for Grapheme-to-Phoneme Conversion )
研究背景: 众所周知,字音转换(G2P)旨在将单词转换为其对应的发音表示,通常被广泛应用于语音识别(ASR)及语音合成(TTS)等语音任务中,但现有方法中基于规则的方法预测精度往往较差,还需要大量专家经验的辅助;其中基于数据驱动的深度模型方案虽然精度高,但模型尺寸往往较大且计算效率偏低。对此,火山语音团队提出了一种高效快速、轻量级、高精度的字音转换模型,可进一步适用于多类端侧设备。
方法分析: LiteG2P结合数据驱动和知识驱动的优势,得以在控制模型尺寸较小的同时取得较高精度,模型层面上不同于传统的基于注意力机制的序列到序列预测模型,而是采用CTC损失进行字音的对齐,同时使得模型具备了并行预测音素序列的优势;除此之外,火山语音团队还额外引入了语言知识词典,用以指导字母扩展长度以及缩小目标预测音素集合。
The architecture of LiteG2P文章来源:https://www.toymoban.com/news/detail-474937.html
效果呈现: 最终LiteG2P模型相较于主流基线模型具有高精度、并行化、轻量级、快速等优势,与主流基线模型在准确率相当的同时速度提升30倍以上,参数量小10倍以上;可一套模型架构同时部署在端云多种类型设备上,在端侧设备上单个单词的推理速度预测为5ms以内,云端设备2ms以内。文章来源地址https://www.toymoban.com/news/detail-474937.html
到了这里,关于多篇论文入选ICASSP 2023,火山语音有效解决多类实践问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!