语音识别入门第二节：语音信号处理及特征提取

这篇具有很好参考价值的文章主要介绍了语音识别入门第二节：语音信号处理及特征提取。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

数字信号处理基础

基础知识

傅里叶分析

常用特征提取

特征提取流程

Fbank

MFCC

数字信号处理基础

基础知识

模拟信号到数字信号转化（ADC）：在科学和工程中，遇到的大多数信号都是连续的模拟信号，而计算机只能处理离散的信号，因此，必须对这些连续的模拟信号进行转化，通过采样和量化，转化成数字信号。

以正弦波为例：有，为信号本身的频率，为时间，对该正弦波进行采样时，每隔秒进行一次采样，可以得到采样后的离散信号为，为采样周期，为采样率，n为离散证书序列。

频率混叠：不同频率的正弦波经过采样后可能出现完全相同的离散信号，这种现象就是频率混叠。

奈奎斯特采样定律：采样频率大于信号中最大频率的两倍，即在原始信号的一个周期内，至少要次采样两个点，才能有效杜绝频率混叠问题。

傅里叶分析

为什么要进行离散傅里叶变换（DFT）？

DFT的作用是将时域信号变换到频域，并分析信号中的频率成分。以时域为横轴时，可以看到信号随时间变化的规律，若果将多个频率的信号叠加到一起，此时将无法分析该信号中有哪些频率成分，若以频域为横轴时，可以很容易的看到信号中有哪些频率成分。

什么信号可以进行DFT？

时域离散且周期的信号。

非周期离散信号能否进行DFT？

非周期离散信号需要进行周期延拓才可以进行DFT。即将当前信号看做整个信号的一个周期，进而进行DFT。

什么是DFT？

对一个给定长度为的时域离散信号，对应的离散频域序列为：，

其中，为自然对数底，为DFT的第m个输出。

根据欧拉公式，DFT的公式还可以为：

DFT的性质

性质1：对称性，对于实数信号，有

性质2：实际上表示的是“谱密度”，如果对一个幅度为A的正弦波进行N点DFT，则DFT之后，对应频率上的幅度M和A之间的关系为：

性质2：线性，如果 $语音识别入门第二节：语音信号处理及特征提取$ ，则对应的频域上有 $语音识别入门第二节：语音信号处理及特征提取$ 。

性质3：时移性，对左移k个采样点，得到的，对进行DFT，有。

DFT的频率轴

频率分辨率：，标识最小的频率间隔。当N越大时，频率分辨率越高，在频域上，第m个点所表示的分析频率为

快速傅里叶变换（FFT）

FFT的基本思想是把原始的N点序列，依次分解成一系列的短序列。充分利用DFT计算式中指数因子所具有的对称性质和周期性质，进而求出这些短序列相应的DFT并进行适当组合，达到删除重复计算，减少乘法和简化结构的目的。（推荐教材：Understanding DSP，第四章；数字信号处理，理论、算法与实现，第二版，清华大学出版社）