语音识别学习笔记-Toy模板网

这篇具有很好参考价值的文章主要介绍了语音识别学习笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

开源的语音识别项目

端到端的多说话人语音识别序列化训练方法简介

新一代 Kaldi: Two-pass 实时语音识别

开源的语音识别项目

有哪些语音识别的开源项目？ - 知乎

端到端的多说话人语音识别序列化训练方法简介

端到端的多说话人语音识别序列化训练方法简介 - 知乎

2.2 基于排列不变性训练Permutation Invariant Training (PIT)的多说话人语音识别
所谓排列不变性训练是在AED的基础之上，添加多个output分支（通常支持几个人就有几个分支），文本序列和输出序列经过排列组合，两两计算损失，如图1（b）所示。

2.3 基于SOT的多说话人语音识别
SOT方法网络结构与AED完全相同，只有一个output分支，不同的是标签序列化方式。SOT引入了一个新标签speaker change<sc>，用于标记上下文中说话人的改变，如图1(c,d)所示，标签的生成可以简单的以说话人出现的顺序作为依据，依次序列化，碰到说话人切换就添加一个<sc>特殊标签，损失依然采用交叉熵。这样一个output就能输出多个说话人识别结果，实现简单，效果提升明显。