人工智能技术基础系列之：语音识别与语音处理

这篇具有很好参考价值的文章主要介绍了人工智能技术基础系列之：语音识别与语音处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

作者：禅与计算机程序设计艺术

1.简介

语音识别（英语：Speech recognition）是一个广义上的概念，泛指在不同场景、不同的条件下通过语言或口头获取信息并转换成文字的能力。具体来说，语音识别就是把人类的声音或者说话转化成计算机可以理解的文字、数字信号。语音识别技术应用于很多领域，如自动驾驶、智能助手、虚拟个人助理等。

相对于图片识别、文本识别、对象检测等任务，语音识别的特点是环境复杂、模糊、噪声、音量小、变化多，而且需要对音频进行特征提取、分类、建模、计算，才能最终实现“听到即识别”的效果。而对于语音识别技术本身，它是一门十分重要的学科，涉及统计学、数学、工程技术、语音学、语言学等多个学科，它的技术发展历史也非常悠久。因此，掌握语音识别技术对各行各业都至关重要。

随着人类社会的不断发展，智能设备越来越普及，人的生活越来越富裕。由于人们的日益聪明，他们更加关注自己的生活，希望可以通过自己携带的各种语音输入信息。因此，语音识别技术的研究和应用日渐成为热点。语音识别技术主要由以下几个部分组成：

1.语音处理单元：包括语音采集、音频预处理、信号变换、加窗、分帧、编码、解码等过程。 2.信号分析算法：包括特征提取、频谱聚类、DNN、HMM等。 3.语言模型及相关工具：包括语言模型、词性标注、解码器、评测工具等。

基于以上三个部分，总体上可将语音识别技术分为如下几个阶段：文章来源地址https://www.toymoban.com/news/detail-743741.html