语音识别入门第二节:语音信号处理及特征提取

这篇具有很好参考价值的文章主要介绍了语音识别入门第二节:语音信号处理及特征提取。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

数字信号处理基础

基础知识

傅里叶分析

常用特征提取

特征提取流程

Fbank

MFCC


数字信号处理基础

基础知识

模拟信号到数字信号转化(ADC):在科学和工程中,遇到的大多数信号都是连续的模拟信号,而计算机只能处理离散的信号,因此,必须对这些连续的模拟信号进行转化,通过采样和量化,转化成数字信号。

以正弦波为例:有,为信号本身的频率,为时间,对该正弦波进行采样时,每隔秒进行一次采样,可以得到采样后的离散信号为,为采样周期,为采样率,n为离散证书序列。

频率混叠:不同频率的正弦波经过采样后可能出现完全相同的离散信号,这种现象就是频率混叠。

奈奎斯特采样定律:采样频率大于信号中最大频率的两倍,即在原始信号的一个周期内,至少要次采样两个点,才能有效杜绝频率混叠问题。

傅里叶分析

为什么要进行离散傅里叶变换(DFT)?

DFT的作用是将时域信号变换到频域,并分析信号中的频率成分。以时域为横轴时,可以看到信号随时间变化的规律,若果将多个频率的信号叠加到一起,此时将无法分析该信号中有哪些频率成分,若以频域为横轴时,可以很容易的看到信号中有哪些频率成分。

什么信号可以进行DFT?

时域离散且周期的信号。

非周期离散信号能否进行DFT?

非周期离散信号需要进行周期延拓才可以进行DFT。即将当前信号看做整个信号的一个周期,进而进行DFT。

什么是DFT?

对一个给定长度为的时域离散信号,对应的离散频域序列为:,

其中,为自然对数底,为DFT的第m个输出。

根据欧拉公式,DFT的公式还可以为:

DFT的性质

性质1:对称性,对于实数信号,有

性质2:实际上表示的是“谱密度”,如果对一个幅度为A的正弦波进行N点DFT,则DFT之后,对应频率上的幅度M和A之间的关系为:

性质2:线性,如果语音识别入门第二节:语音信号处理及特征提取,则对应的频域上有语音识别入门第二节:语音信号处理及特征提取

性质3:时移性,对左移k个采样点,得到的,对进行DFT,有。

DFT的频率轴

频率分辨率:,标识最小的频率间隔。当N越大时,频率分辨率越高,在频域上,第m个点所表示的分析频率为

快速傅里叶变换(FFT)

FFT的基本思想是把原始的N点序列,依次分解成一系列的短序列。充分利用DFT计算式中指数因子所具有的对称性质和周期性质,进而求出这些短序列相应的DFT并进行适当组合,达到删除重复计算,减少乘法和简化结构的目的。(推荐教材:Understanding DSP,第四章数字信号处理,理论、算法与实现,第二版,清华大学出版社

常用特征提取

Fband和MFCC特征提取流程

语音识别入门第二节:语音信号处理及特征提取
特征提取流程

 Fbank和MFCC特征目前仍是主要使用的特征,虽然有工作尝试直接使用波形建模,但是效果并没有超越基于频域的特征。

预加重

预加重是为了提高信号高频部分的能量,高频信号在传递过程中,衰减较快,但高频部分又蕴含很多对语音识别有利的特征,因此,在特征提取部分,需要提高高频部分能量。

预加重滤波器是一个一阶高通滤波器,给定时域输入信号,预加重之后的信号为:,其中的取值一般为。

加窗分帧

语音信号是一种非平稳的信号,但语音信号又有一个短时平稳的属性,在进行语音识别的时候,对于一句话,识别的过程也是以比较小的发音单元为单位进行识别,因此用滑动窗来提取短时片段。

对于采样率为16KHz的信号,帧长、帧移一般为25ms、10ms,即400和160个采样点。

分帧的过程即在时域上,用一个窗函数和原始信号进行相乘,称为窗函数,常用的窗函数有矩形窗、汉明窗。

加窗的过程实际是在时域上将信号截断,窗函数与信号在时域相乘,等于对于的频域表示进行卷积,矩形窗主瓣窄,但是旁瓣大,将其与原始信号的频域标识进行卷积,就会导致频率泄露。

傅里叶变换

将上一步分帧的语音帧,由时域变换到频域,去DFT系数的模,得到谱特征。

梅尔滤波器组合对数操作

梅尔滤波器组是一种符合人耳听觉的一种滤波器组。DFT得到了每个频带上信号的能量,但是人耳对频率的感知不是等间隔的,近似与对于函数。

将线性频率转变到梅尔频率,梅尔频率和线性频率的转换关系:语音识别入门第二节:语音信号处理及特征提取

梅尔三角滤波器组可以根据起始频率、中间频率和截止频率确定各滤波器的系数。

梅尔滤波器组设计:

  • 确定滤波器组个数P
  • 根据采样率,DFT点数N,滤波器个数P,在梅尔域上等间隔的产生每个滤波器的起始频率、中间频率和截止频率。上一个滤波器的中间品率为下一个滤波器的起始频率。
  • 将梅尔域上每个三角滤波器的起始、中间、截止频率转换线性频率域,并对DFT之后的谱特征进行滤波,得到P个滤波器组能量,进行log操作,得到Fbank特征。

MFCC特征在Fbank特征基础上继续进行IDFT变换等操作。

Fbank滤波器组公式:语音识别入门第二节:语音信号处理及特征提取

m表示第m个滤波器组,k表示第k个频率点,f(m)表示第m个滤波器组的起始频率对应的索引值。

倒谱分析

动态特征计算

一阶差分,类比速度,最简单的为语音识别入门第二节:语音信号处理及特征提取

二阶差分,类比加速度,最简单的为语音识别入门第二节:语音信号处理及特征提取

能量计算

最简单的为:

Fbank

Fbank特征一般用于DNN训练。

MFCC

一般常用的MFCC特征为39维,包括:

  • 12维原始MFCC
  • 12维
  • 12维
  • 1维能量
  • 1维能量
  • 1维能量

 MFCC特征一般用于对角GMM训练,各维度之间相关性小。

本节实践见:语音识别入门第二节:语音信号处理及特征提取(实战篇)_安静_xju的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-498108.html

到了这里,关于语音识别入门第二节:语音信号处理及特征提取的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于matlab的语音信号处理

    摘要 利用所学习的数字信号处理知识,设计了一个有趣的音效处理系统,首先设计了几种不同的滤波器对声音进行滤波处理,分析了时域和频域的变化,比较了经过滤波处理后的声音与原来的声音有何变化。同时设计实现了语音的倒放,变速播放,回响,音调转换等处理效果

    2024年02月08日
    浏览(31)
  • c++通过自然语言处理技术分析语音信号音高

            对于语音信号的音高分析,可以使用基频提取技术。基频是指一个声音周期的重复率,也就是一个声音波形中最长的周期。 通常情况下,人的声音基频范围是85Hz到255Hz。根据语音信号的基频可以推断出其音高。         C++中可以使用数字信号处理库或语音处理

    2024年02月14日
    浏览(47)
  • 利用matlab时频域语音信号的分析与处理

    鱼弦:CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者(go-zero源码二次开发、游戏后端架构 https://github.com/Peakchen) 利用Matlab进行时频域语音信号的分析与处理:原理详解 时频域分析是对信号在时间和频率两个维度上进行分析的方法。在语音信号处理

    2024年02月06日
    浏览(34)
  • 脑电信号处理与特征提取——5.频谱分析和时频分析(张治国)

    目录 五、频谱分析和时频分析 5.1 频谱估计 5.1.1 基本概念 5.1.2 频谱估计方法:周期图 5.1.3 频谱估计方法:Welch法 5.1.4 频谱估计方法的比较 5.1.5 频谱特征提取  5.2 时频分析 5.2.1 短时傅里叶变换 5.2.2 连续小波变换 5.3 事件相关同步化/去同步化 静息态脑电: 没有刺激的情况下

    2024年02月15日
    浏览(36)
  • 毕业设计-基于MATLAB的含噪语音信号降噪处理系统

    目录 前言 课题背景和意义 实现技术思路 一、设计思路 二、IIR 数字滤波器的设计原理 三、语音信号的采集、 含噪语音信号的分析处理 四、总结 实现效果图样例 最后     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边

    2024年02月07日
    浏览(44)
  • 脑电信号处理与特征提取——6.运用机器学习技术和脑电进行大脑解码(涂毅恒)

    目录 六、运用机器学习技术和脑电进行大脑解码 6.1 前言 6.2 基于脑电数据的机器学习基础分析 6.3 基于脑电数据的机器学习进阶分析 6.4 代码解读  

    2024年02月14日
    浏览(31)
  • 语音信号处理基础知识之频谱、相位谱、幅度谱、功率谱及语谱图

    一段音频信号在时域上,可以用一个实数向量来表示。这个数组的大小=采样率*音频时长。举个例子:一段采样率为8000,长15.6s的音频在matlab中表示为: 15.6x8000=124800大小的实数向量 下面是利用matlab读取.wav文件和.pcm文件的两种方法 从上图可以看出,音频信号在matlab中就是用一

    2024年02月05日
    浏览(84)
  • 【信号处理】基于CNN自编码器的心电信号异常检测识别(tensorflow)

    本项目主要实现卷积自编码器对于异常心电ECG信号的检测和识别,属于无监督学习中的生理信号检测的典型方法之一。   读取心电信号 信号可视化    信号均值计算及可视化  训练/测试数据划分 搭建自编码器 模型训练 训练可视化   信号重建可视化 计算重建MAE误差  异常

    2024年04月23日
    浏览(33)
  • LIN总线协议详解9(信号处理、配置、识别和诊断)

    目录 一、传输层  1、PDU 结构 1.1、NAD(node address) 1.2、PCI(Protocol Control Information) 1.3、SID与RSID 1.4、消息字节段 2、传输层通信  二、LIN应用层 1、概述         2、信号处理能力         3、配置功能 3.1、节点存储模型 3.2 从机节点 NAD 配置 3.3、从机节点 PID 配置 3.4 其它

    2023年04月08日
    浏览(22)
  • 【语音识别】BP神经网络语音特征信号分类【含Matlab源码 2338期】

    获取代码方式1: 完整代码已上传我的资源:【语音识别】基于matlab BP神经网络语音特征信号分类【含Matlab源码 2338期】 点击上面蓝色字体,直接付费下载,即可。 获取代码方式2: 付费专栏Matlab语音处理(初级版) 备注: 点击上面蓝色字体 付费专栏Matlab语音处理(初级版

    2024年02月21日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包