语音识别:基于HMM

这篇具有很好参考价值的文章主要介绍了语音识别:基于HMM。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

HMM语音识别的解码过程

从麦克风采集的输入音频波形被转换为固定尺寸的一组声学向量:

其中是维的语音特征向量(例如MFCC)。

解码器尝试去找到上述特征向量序列对应的单词(word)的序列:

单词序列的长度是。

也即是解码器尝试寻找模型产生的那个最有可能的单词序列:

经过贝叶斯公式:

似然概率是语音识别的声学模型,先验概率是语音模型。

是一个单词由基本音素组成的发音序列(也就是单词的音标),

是该句子的一个可能发音序列,由该句子的每个单词的基本音素拼接而成。

这里的求和是使用了全概率公式,因为一个单词可能由多个发音,所以句子的发音序列也是多个。

对于该句子的一个可能发音序列,可得

剩下就是计算了。

给定发音序列,对每一个可能的状态序列求句子HMM的概率。

语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练是特征序列对应的一个候选的状态序列。

语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练

解码过程不需要计算所有可能状态序列的似然概率,我们只需要使用维特比(Viterbi)算法获取概率最大的那个状态序列路径。

模型参数:

语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练

HMM语音识别声学模型的训练过程(单音素)

个语料片段,每个语料片段对应的特征向量序列为,序列的长度为,

HMM的训练(选择正确的参数)意味着:找到模型的参数(如转移概率和发射概率),使得给定的所有输入语料的概率最大:

关于,

E-step

前向概率:

即对的前个特征向量与时刻的状态为的联合概率;

后向概率:

语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练

给定时刻的状态为,模型生成+1到之间的特征向量序列的条件概率。

语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练

给定前向和向后的概率,对于任何给定的语料,模型在时间时占据状态的概率是

语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练

其中,可通过前向概率或者后向概率的递推公式获得,等于语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练时刻的前向概率,也等于时刻的后向概率。

M-step

对于所有的语料,给定初始的模型参数(均值,方差,转移概率),可通过如下的公式迭代参数

语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练

语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练

注意,这里使用的是单个高斯分布建模观察概率而不是GMM。

Kaldi中使用的HMM声学模型训练方法

因为转移概率对识别结果的影响很小,甚至有时候可以忽略。Kaldi中一般是将转移概率固定不变,不在训练中更新转移概率。声学模型包含的信息主要是状态定义和各个状态的观察概率(发射概率)分布。

使用从左到右的线性HMM模型结构(只有向右跳转和自跳转),训练过程中只更新每个状态的高斯混合模型(GMM)参数。

上面介绍的HMM训练方法是经典的训练HMM的方法(baum welch算法),该算法就是在给定一个初始的模型参数,通过不断的E-step,M-step迭代模型的参数。一种更加实际的方法是使用Viterbi训练方法:

1、给定初始的参数

2、使用维特比算法和当前的参数找到能够解释的最可能的状态序列,这样就得到了每一帧对应的状态。这个过程也叫做对齐(Align)或者强制对齐(Forced alignment),目的是获取每一帧对应的状态。

3、使用统计公式更新模型的参数语音识别:基于HMM,ASR,语音识别,人工智能,HMM,Kaldi,Viterbi训练,HMM训练,语音识别训练。因为此时已经有大量已知隐藏状态和特征(观察值)的帧,所以可以更新每个状态对应的发射概率分布(GMM)的均值和协方差以及权重等参数(可能会用到GMM的EM算法估计GMM的参数)

4、重复步骤2、3,直到状态序列不再更新(收敛)。

参考:文章来源地址https://www.toymoban.com/news/detail-847891.html

[1] Gales and Young (2007). “The Application of Hidden Markov Models in Speech Recognition”, Foundations and Trends in Signal Processing , 1 (3), 195–304: section 2.2.\
[2]《Kaldi语音识别实战》

到了这里,关于语音识别:基于HMM的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能-语音识别技术paddlespeech的搭建和使用

    PaddleSpeech是百度飞桨(PaddlePaddle)开源深度学习平台的其中一个项目,它基于飞桨的语音方向模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。PaddleSpeech支持语音识别、语音翻译(英译中)、语音合成、标点恢复等应用示例。

    2024年02月02日
    浏览(58)
  • 【人工智能】科大讯飞语音识别应用开发(第三集)

    这次需要对科大讯飞语音识别接口进行语音识别应用开发,前两次都是通过WebAPI调用接口,这次换一下,通过SDK调用接口 下面是开发的详细记录过程(基于前两次的基础上) 网址:https://www.xfyun.cn/services/voicedictation 不领服务量为500且该包免费( 貌似是不同应用都可以免费领

    2024年02月13日
    浏览(51)
  • 语音识别与VC维:改变人工智能的未来

    语音识别(Speech Recognition)是一种人工智能技术,它旨在将人类的语音信号转换为文本或其他形式的数据。这项技术在过去几年中得到了巨大的发展,并成为人工智能领域的一个关键技术。VC维(Vocabulary Coverage Dimension)是一种数学模型,用于描述语言模型的表达能力。在本文中,

    2024年02月19日
    浏览(57)
  • OpenAI的人工智能语音识别模型Whisper详解及使用

            拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。         Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁

    2024年02月09日
    浏览(58)
  • 极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践

    业界良心OpenAI开源的Whisper模型是开源语音转文字领域的执牛耳者,白璧微瑕之处在于无法通过苹果M芯片优化转录效率,Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本,它具有无依赖项、内存使用量低等特点,重要的是增加了 Core ML 支持,完美适配苹果M系列芯片。 Whisper.cpp的张量

    2024年02月02日
    浏览(65)
  • 语音识别:基于HMM

    从麦克风采集的输入音频波形被转换为固定尺寸的一组声学向量: 其中是维的语音特征向量(例如MFCC)。 解码器尝试去找到上述特征向量序列对应的单词(word)的序列: 单词序列的长度是。 也即是解码器尝试寻找模型产生的那个最有可能的单词序列: 经过贝叶斯公式:

    2024年04月11日
    浏览(33)
  • 基于Solr的智能化人工智能与智能图像识别

    作者:禅与计算机程序设计艺术 引言 1.1. 背景介绍 随着人工智能技术的快速发展,人工智能与图像识别应用越来越广泛。在实际应用中,基于Solr的智能化人工智能与智能图像识别技术具有很高的实用价值和可行性。 1.2. 文章目的 本文旨在讲解如何基于Solr实现智能化人工智

    2024年02月07日
    浏览(63)
  • 【人工智能124种任务大集合】-集齐了自然语言处理(NLP),计算机视觉(CV),语音识别,多模态等任务

    大家好,我是微学AI,今天给大家介绍一下人工智能124种任务大集合,任务集合主要包括4大类:自然语言处理(NLP)、计算机视觉(CV)、语音识别、多模态任务。 我这里整理了124种应用场景任务大集合,每个任务目录如下: 句子嵌入(Sentence Embedding):将句子映射到固定维

    2024年02月13日
    浏览(69)
  • 【Elsevier旗下】1区SCI,5天见刊!稳定检索36年,大数据、人工智能、机器学习、语音、语言、会话、情绪识别等领域

    近日 国自然预计将在下周8月20日之前公布 ,想必申请过国自然基金作者都知道,需要有研究基础,说白了就是需要有文章支持。那么稿子写好了,选择一本靠谱优质期刊也是一门学问。 本期小编推荐2本Elsevier 旗下审稿快刊,各项指标优秀,实为评职晋升、申报基金之首选

    2024年02月13日
    浏览(49)
  • AI人工智能课题:图像识别红酒识别系统的设计与实现(基于百度智能云AI接口)

     博主介绍 :黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,免费 项目配有对应开发文档、开题报告、任务书、

    2024年02月04日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包