语音识别入门第一节:语音识别概述

这篇具有很好参考价值的文章主要介绍了语音识别入门第一节:语音识别概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

语音识别的定义

语音识别的重要性

语音交互

语音识别的挑战性

语音识别的发展历史

语音识别的深度学习时代

现代语音识别框架

语料库与工具包


语音识别的定义

语音识别:Automatic Speech Recognition(ASR)或Speech to Text(STT),将语音转换为文本的任务。

语音识别主要解决以下问题:

  • 将语音转换成文本。
  • 解决机器“听清”问题。
  • 处理声学和(部分)语言上的混淆。
  • 解决共性问题:每个人的语音都能识别出正确的文本。

狭义上的语音识别不解决以下问题:

  • 说话人识别。
  • 副语言信息的分析与识别。
  • 语言理解。

语音识别的常用评估标准:

  • Accuracy(准确率)
  1. 音素错误率(Phone Error Rate)
  2. 词错误率(Word Error Rate,WER)
  3. 字错误率(Character Error Rate,CER)
  4. 句错误率(Sentence Error Rate,SER)
  • Efficiency(效率)
  1. 实时率(Real-time Factor,RTF)

错误率计算实例:

Ref: THE CAT IN THE HAT
Hyp: CAT IS ON THE GREEN HAT
DEL SUB INS INS

该实例中,第一行为正确抄本,第二行为识别结果,第二列为一个删除错误,第四列为一个替换错误,第五列、第七列为插入错误,错误率:语音识别入门第一节:语音识别概述

在错误率计算过程中,一般关注插入错误、替换错误和删除错误三种错误,实际计算过程中的错误率有可能大于100%。

语音识别系统常见分类:

  • 说话人:特定人、非特定人
  • 语种:单一语种、多语种
  • 词汇量:大、中、小
  • 设备:云侧、端侧
  • 距离:近讲、远讲

语音识别的重要性

语音识别是极具挑战性的任务,被誉为“镶嵌在人工智能皇冠上的明珠”。

语音识别具有快、易、Hands-Free的优点。

文字转写是音频内容分析与理解的第一步。

语音识别是AIoT、只能服务的入口。

语音识别的技术与应用及其广泛,可满足自然人机交互和内容理解与生成的需求。

语音交互

语音交互中存在一个链条,叫Speech Chain,至少涉及两个人,具体如图所示。

语音识别入门第一节:语音识别概述

涉及三个Level:

语音生成

Speech Production:大脑神经肌肉命令发音器官运动。

发音由声门的快速打开与关闭产生不同的声音。

  • 声门震动快慢决定声音的基本频率。
  • 口腔、鼻腔、舌头的位置、嘴型等决定声音的内容。
  • 肺部压缩空气力量的大小决定音量。

浊音是由声带震动引起的,其波形具有明显周期性,人们可以感受到稳定的高音存在。

清音产生时声带不会震动,其波形类似白噪声,人们无法感受到稳定的高音存在。

音素(Phonemes)时一种语言中语音的“最小”单元。音素可以分为辅音(consonants)音素和元音(vowels)音素,不同的语言中音素的数量不完全相同。

音素的声学实现受到上下文的影响,一个音素往往会有不同的实现,这种现象叫做同位异音(Allophone)

词\语素(morpheme):一种语言中最小的具有语义的结构单元。

共振峰(formant)指在声音的频谱中能量相对集中的一些区域。

  • 共振峰不但是音质的决定因素,也反映了声道的物理特征。
  • 共振峰是被声道特别放大的频带,不同元音会产生不同种类的放大或共振。

协同发音(Coarticulation),人的发音过程中,受类似惯性的影响,每一个发音都会受到前面发音和后面发音的影响,这种影响被称为协同发音。音素在声学上的实现和上下文是强相关的,所以在语音识别的建模中常常会建立上下文相关模型。

音素抄本(Phonetic Transcription):一段语音对应的音素列表。音素抄本可以带或不带边界,其中的时间信息可以有人工标注或自动对齐获得。音素抄本是非常重要的,可服务于语音识别的声学建模。

音节是一个更大颗粒度的单位,元音和辅音结合构成一个音节。

  • 元音之前的辅音叫音节头或声母。
  • 音节头之后的元音及随后的子音叫韵母。
  • 韵母里的元音叫音节核。
  • 随后的子音叫音节尾。

在中文中,一个汉字读音为一个带调音节,普通话约1300多个带调音节,如果去掉声调,即基础音节,普通话约400个基础音节。

语音感知

Speech Perception:人耳大脑。

人耳由外耳、中耳、内耳构成:

  • 外耳:声源定位,对声音进行放大。
  • 中耳:进行声阻抗变换,放大声压,保护内耳。
  • 内耳:向神经发放信号转换,把声压刺激变成神经冲动。

语音感知的物理特性与人耳的听觉特性:

Phyisical Quantity物理量 Perceptual Quantity感知量
Intensity声强 Loundness响度
Fundamental Frequency基频 Pitch音高或音调
Spectral Shape频谱形状 Timbre音色或音品
Onset/offset time Timing
Phase difference in binaural hearing双耳听觉上的相位差 Location定位

其中,Loundness响度Pitch音高或音调Timbre音色或音品为声音三要素(主观心理量)。

响度人主观感受不同频率成分声音的物理量。

  • 人耳对不同频率声音的响应是不平坦的。
  • 闻阈:人耳刚好能听见的声音响度。
  • 痛阈:声音使人耳疼痛时的响度。

音色又称音品,由声音波形的谐波频谱和包络决定。

  • 声音波形的基频产生的能听得最清楚的音称为基音,各次谐波的微小震动所产生的音称为泛音。
  • 单一频率的音称为纯音,具有谐波的音称为复音。
  • 每个基音都有固有的频率和不同响度的泛音。
  • 声音波形各次谐波的比例和随时间的衰减大小决定了各种声源的音色特征。

音调人耳对于频率的感知,是非线性的,近似对数函数。

音调和频率之间的近似关系:语音识别入门第一节:语音识别概述

为物理频率,为音调,单位是美(Mel)。

掩蔽效应(Masking):一种心理声学现象,是由人耳对声音频率分辨机制决定的。是指一个较强声音的附近,相对较弱的声音使不易被人耳察觉,即被强音所掩蔽。

  • 同时掩蔽:一个强纯音会掩蔽其附近频率同时发生的弱纯音。
  • 异时掩蔽:在时间上相邻的声音之间也有掩蔽现象。
  • 掩蔽阈值是时间、频率和声压级上的函数。

语音识别的挑战性

语音识别是一个非常具有挑战性的任务,在众多方面具有很强的可变性。如下表所示。

因素 可变性
规模 词表大小,复杂/困惑度,书面化或口语化?
说话人 倾向于特定说话人?适应到某个(群)说话人的特性
声学环境 噪声,干扰人声,信道条件(麦克风、传输空间、空间声学)
讲话风格 连续或孤立词?有计划有准备?即兴对话?大声或轻声细语?
口音/方言 识别各种口音?
语种 中文,英文,5000+语种,混杂等

说话人之内和之间的可变性,说话人之内由讲话方式、状态等可变性,说话人之间有口音、说话风格等可变性。

信道存在不同特性麦克风、不同采样率、传输编码等可变性。

环境存在距离衰减、噪声、混响、干扰人声等可变性。

此外还有更加具有挑战性的场景,以CHiME-5为例,该场景具有多说话人完全自由对话、实际家具声学场景、远讲、说话人移动、语音交叠等特点。

语音识别的发展历史

早期:1950-1960年代,该阶段处于语音识别的研究早期。研究人员提出了一些个别方法,引入了许多重要的思想和概念。受限于方法、计算能力、数据等因素,该阶段主要针对小词表语音识别进行研究,且缺乏大规模测试。

现代语音识别的诞生:1970-1980年代,这个阶段将语音识别做成了统计学习的任务,几乎忽略了所有有关于语音学和语言学的专家知识。这个阶段提出了许多语音识别的关键技术,如EM算法、N-gram等等。此阶段,语音识别开始尝试中大词表的系统。

平稳发展期:1990-2000年代,GMM-HMM框架成为语音识别的主导框架,声学建模开始考虑基于上下文相关的模型,语言模型使用n-gram从大量文本中统计概率关系,数据量逐步增大,任务复杂程度逐步增大。此外,判别式学习/区分性训练技术也推动了语音识别的进步。

在平稳发展期及平稳发展期之后的一段时间,技术一直在进步,但语音识别的准确率鲜有提升,一直到2006年,语音识别进入深度学习时代。

语音识别的深度学习时代

2006年,多伦多大学Geoffrey Hinton教授在Nature上发表论文,为神经网络提供了有效的预训练算法,标志着语音识别进入深度学习时代。

这个阶段,声学架构从GMM-HMM转变为DNN-HMM,语言模型也转变为ngram+NNLM。

在深度学习时代,语音识别错误率在众多Benchmark上取得新低,目前在IBM,Switchboard数据集上词错误率已达到5.0%,此外,语音系统开始逐步从混合系统(Hybrid)发展到端到端系统。

现代语音识别框架

统计模型

如果是指声学特征向量(观测向量)的序列,表示一个单词序列,则最有可能的单词序列由以下公式计算而来:

应用贝叶斯定理推导:

其中,为声学模型,为语言模型。

现代的统计模型使用声学模型、语言模型、发音词典,通过给定的声学特征向量X,获取最有可能的词序列

端到端系统:用一个神经网络直接讲输入声学特征向量X映射为词序列。 

语料库与工具包

英文数据:

  • TIMIT:音素识别,LDC版权
  • WSJ:新闻播报,LDC版权
  • Switchboard:电话对话,LDC版权
  • Librispeech:有声读物,1000小时,开源(http://openslr.org/12/)
  • AMI:会议,开源(http://openslr.org/16/)
  • TED-LIUM:演讲,开源(http://openslr.org/19/)
  • CHiME-4:平板远讲,需申请
  • CHiME-5/6:聚会聊天,需申请

中文数据:

  • THCHS-30,30小时,开源(http://openslr.org/18/)
  • HKUST,150小时,电话对话,LDC版权
  • AIShell-1,178小时,开源(http://openslr.org/33/)
  • AIShell-2,1000小时,开源需申请(http://www.aishelltech.com/aishell_2)
  • aidatatang_200zh,200小时,开源(http://openslr.org/62/)
  • MAGICDATA,755小时,开源(http://openslr.org/68/)

工具包:

  • HTK:http://htk.eng.cam.ac.uk/(C)
  • Kaldi:http://kaldi-asr.org/(C++,Python)(目前使用最广泛的工具包)
  • ESPNet:https://github.com/espnet/(Pytorch based)(主要针对端到端系统)
  • Lingvo:https://github.com/tensorflow/lingvo.git(Tensorflow based)

另附:语音识别入门第一节:思维导图-深度学习文档类资源-CSDN下载

如需转载敬请声明。文章来源地址https://www.toymoban.com/news/detail-444097.html

到了这里,关于语音识别入门第一节:语音识别概述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《语音识别模式、算法设计与实践》——第一章 语音识别概述

    本专栏仅为本人学习研读体会分享,以及实际完成的测试代码。更加详细内容详见该书。 定义: 语音识别是让机器具备自动接收和分析人类的语音,并最终输出对应文本的过程。 目标: 将输入语音转化为文字的输出                  目标实现条件: 提前规定好该系

    2024年04月12日
    浏览(44)
  • 【STM32单片机】基于语音识别的智能分类垃圾桶,ld3320语音识别模块如何使用,mp3播放模块如何使用

    对于“可回收物”“有害垃圾”“厨余垃圾”“其它垃圾”,不能分清扔到哪个垃圾桶怎么办? 基于语音识别的智能分类垃圾桶,识别到就打开对应的垃圾桶,完全没有分不清的烦恼。 //可回收物:塑料瓶、玻璃瓶、铝罐、纸张、纸板、报纸、纸质包装盒、金属罐头等

    2024年02月10日
    浏览(54)
  • 第一章:AI大模型概述1.3 AI大模型的典型应用1.3.3 语音识别

    语音识别,也被称为语音转文本(Speech-to-Text),是人工智能领域中的一个重要技术。它旨在将人类的语音信号转换为文本形式,从而实现人机交互的自然语言处理。在过去的几年里,语音识别技术的发展取得了显著的进展,这主要归功于深度学习和大规模数据集的应用。 在

    2024年02月01日
    浏览(43)
  • 第一节——单片机概述

    1.MCD-51单片机  与8051(80C51) 兼容的主要产品 ATMEL公司生产的兼容51单片机的具体型号 2.AVR系列单片机 AVR系列是1997年ATMEL公司挪威设计中心的A先生与V先生共同研发出的精简指令集(RISC—Reduced Instruction Set Computer)的高速8位单片机,简称AVR。  AVR单片机系列全,3个档次,适于各

    2024年01月24日
    浏览(49)
  • 语音特征提取:语音识别的关键技术

    语音特征提取是语音识别系统中的关键技术,它的目的是从语音信号中提取出与语言相关的特征信息,以便于后续的语音识别和语音处理任务。在这篇文章中,我们将从以下几个方面进行深入探讨: 背景介绍 核心概念与联系 核心算法原理和具体操作步骤以及数学模型公式详

    2024年04月12日
    浏览(32)
  • 基于语音识别的自然语言生成技术

    作者:禅与计算机程序设计艺术 1.1. 背景介绍 随着人工智能技术的快速发展,自然语言处理(NLP)领域也取得了显著的进步。在语音识别技术方面,语音识别率、识别速度等指标不断提高,使得语音技术在人们的生活中扮演越来越重要的角色。为了更好地利用这些技术,将自

    2024年02月06日
    浏览(57)
  • 语音识别的挑战:如何提高准确率

    语音识别,也被称为语音转文本(Speech-to-Text),是一种将语音信号转换为文本信息的技术。随着人工智能和大数据技术的发展,语音识别技术在各个领域得到了广泛应用,如智能家居、智能汽车、语音助手、语音搜索等。然而,语音识别技术仍然面临着许多挑战,其中最大

    2024年02月02日
    浏览(45)
  • “智能语音指令解析“ 基于NLP与语音识别的工单关键信息提取

    本文将介绍如何利用 PaddleSpeech 的语音识别技术与 PaddleNLP 的通用信息抽取技术,实现基于智能语音指令解析的关键工单信息提取。我们将通过语音交互的方式,在交通报销场景下实现智能信息抽取,以提高工作效率与质量。 智能语音指令解析集成了语音识别(ASR)与信息抽

    2024年04月12日
    浏览(30)
  • 自主系统与服务:如何实现语音识别的关键技术

    语音识别技术是人工智能领域的一个重要分支,它涉及到自然语言处理、机器学习、深度学习、信号处理等多个领域的知识和技术。在过去的几年里,语音识别技术的发展取得了显著的进展,这主要是由于深度学习和大数据技术的不断发展和进步。 语音识别技术的核心是将人

    2024年02月20日
    浏览(40)
  • 用语音合成技术构建智能交通系统:基于语音识别的智能交通系统实现

    作者:禅与计算机程序设计艺术 引言 智能交通系统是当前交通领域的一个重要研究方向,它通过利用先进的信息技术、通信技术和计算机技术,实现智能化的交通管理,从而提高道路通行效率、降低交通事故率、减少空气污染等。其中,语音合成技术作为人工智能领域的一

    2024年02月08日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包