MFCC特征提取

这篇具有很好参考价值的文章主要介绍了MFCC特征提取。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

         在语音识别方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。

        MFCC的提取过程包括预处理、快速傅里叶变换、Mei滤波器组、对数运算、离散余弦变换、动态特征提取等步骤。

MFCC特征提取

MFCC特征提取

1.预处理

        对原始音频数据进行数字化、预滤波、预加重、端点检测、分帧、加窗等操作,使其信号特征更加明显,去除冗余数据。

2.快速傅里叶变换

        快速傅里叶变换即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称,简称FFT。

        将音频从时域转换为频域。

3.Mel滤波器组

MFCC特征提取

        研究表明,人类对频率的感知并不是线性的,并且对低频信号的感知要比高频信号敏感。对1kHz以下,与频率成线性关系,对1kHz以上,与频率成对数关系。频率越高,感知能力就越差。

        为了模拟人耳的听觉机制。从而研制出来了Mel滤波器组。

        所以,Mel滤波器组的在低频密集,高频稀疏。

梅尔刻度定义:

        它是Hz的非线性变换,对于以mel scale为单位的信号,可以做到人们对于相同频率差别的信号的感知能力几乎相同。

        HZ 与 mel scale 的相互转换关系如下:

        MFCC特征提取

        

MFCC特征提取

        如果对数以 e  为底,则系数的取值为 1125。

 梅尔滤波器组的设计步骤:

        1)确定最低频率(0HZ)、最高频率(fs / 2)、Mel滤波器个数M(一般为24)

        2)在Mel频率下,这些滤波器的中心频率是等间距的,则:

        MFCC特征提取

        3)每个滤波器的中心频率

MFCC特征提取

                其中: ,N为DFT的频率长度,fs 为频率采样频率。

        4)每个滤波器的函数如下:

MFCC特征提取

         综上4个步骤既可以生成如下等高梅尔滤波器:

MFCC特征提取

         这与开篇的梅尔滤波器略有不同,此处为各个滤波器等高,而开篇的滤波器不等高,这有什么影响吗?

        如开篇所示的不等高滤波器形式叫等面积梅尔滤波器。其在低频处密集高耸,高频处稀疏低矮。恰好对应了频率越高人耳越迟钝这一规律,在人声等领域有广泛应用。但是如果在非人声领域就会丢掉很多高频信息,此时常用等高梅尔滤波器。

        三角带通滤波器有两个主要目的:

        1)对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。频谱有包络和精细结构,分别对应音色与音高。对于语音识别来讲,音色是主要的有用信息,音高一般没有用。在每个三角形内积分,就可以消除精细结构,只保留音色的信息。

        2)傅里叶变换得到的序列很长(一般为几百到几千个点),把它变换成每个三角形下的能量,可以减少数据量。

生成Mel语谱图:

        能量谱,也称为能量谱密度。是指用密度的概念表示信号能量在各频率点的分布情况。也即是说,对能量谱在频域上积分就可以得到信号的能量。能量谱是信号幅度谱的模的平方,其量纲是焦/赫。

        (补充:能量信号和功率信号的分别 - 知乎)

        将能量谱通过一组Mel尺度的三角形滤波器组,其公式为:

        文章来源地址https://www.toymoban.com/news/detail-402177.html

        得到梅尔语谱图:

MFCC特征提取

        其中横轴为时间,纵轴为频率,颜色深浅为能量。 

4.对数运算

        对数运算包括取模和log运算。

        将原始语音信号经过傅里叶变换得到频谱:

        

        取模是仅使用幅度值,忽略相位的影响,因为相位信息在语音识别中作用不大。

        

        log 运算是为了分别包络和细节,包络代表音色,细节代表音高。显然语音识别是为了识别音色。另外,人的感知与频域的对数成成本,正好使用log运算对上述梅尔语谱图的纵轴进行对数缩放,可以放大低频率处的能量差异。

        MFCC特征提取

MFCC特征提取

5.离散余弦变换(DCT)

        在上一步中,我们通过对数运算成功地把基音信息与声道信息变成了加性的。那么如何分离呢?它们有如下性质:  

频谱图中(注意是一帧原始语音信号FFT变换内)

        (1)基音信息在频域是快速变化的。

        (2)声道信息在频域是缓慢变化的。

倒谱的概念:

        定义:倒谱定义为信号短时振幅谱(功率谱)的对数傅里叶反变换

        特点:具有可近似地分离并能提取出频谱包络信息和细微结构信息的特点。

MFCC特征提取

        可见我们只需要求出梅尔频谱的对数傅里叶反变换即可分离基音信息和声道信息。

        MFCC特征提取

        在对数频谱上面做IFFT就相当于在一个伪频率(pseudo-frequency)坐标轴上面描述信号。所以虽然是时域序列,但它们所处的离散时域显然不同,此时称为倒谱频域。

        x[k]实际上就是倒谱Cepstrum。(这个是一个新造出来的词,把频谱的单词spectrum的前面四个字母顺序倒过来就是倒谱的单词了)。而我们所关心的h[k]就是倒谱的低频部分。h[k]描述了频谱的包络,它在语音识别中被广泛用于描述特征。

        在Mel频谱上面获得的倒谱系数h[k]就称为Mel频率倒谱系数,简称MFCC。

MFCC特征提取

但是:MFCC特征使用的是DCT,而不是IDFT

        由于许多要处理的信号都是实信号,在使用DFT时由于傅里叶变换时由于实信号傅立叶变换的共轭对称性导致DFT后在频域中有一半的负数部分,但这里复数系数并不太需要。DCT可以看作是IDFT的简化版,DCT得到的是实值系数。

        mel滤波器组有很多重叠部分,DCT可以在不同的mel频带上去相关性,因为在机器学习中,希望输入的特征之间的相关性越小越好。而且DCT相当于是对log mel谱的降维。

需要选择多少个系数 h[k]?

        因为一般只关注声道信息,即谱包络成分(低频),因为声道信息包涵了我们感兴趣的成分,如音素信息、共振峰等,所有一般选前12-13个系数。

        由此得到的12维的MFCC特征如下: 

MFCC特征提取

6.动态特征提取

        标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式:

MFCC特征提取

         其中,dt 表示第 t 个一阶差分,Ct 表示第 t 个倒谱系数,Q表示倒谱系数的阶数,K表示一阶导数的时间差,可取1或2。将上式的结果再代入就可以得到二阶差分的参数。

        因此,MFCC的全部组成其实是由: N维MFCC参数(N/3个MFCC系数+ N/3个一阶差分参数+ N/3个二阶差分参数)+帧能量(此项可根据需求替换)。这里的帧能量是指一帧的音量(即能量),也是语音的重要特征。

        最终得到36维MFCC图(3*12):

MFCC特征提取

         (注:图为39(3*13)维MFCC图)

        

到了这里,关于MFCC特征提取的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MFCC特征提取

             在语音识别方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。         MFCC的提取过程包括预处理、快速傅里叶变换、Mei滤波器组、对数运算、离散余弦变换、动态特征提取等步骤。 1.预处理         对原始音频数据进

    2023年04月08日
    浏览(25)
  • 【语音识别】DTW MFCC 0-9数字语音识别(带面板)【含GUI Matlab源码 385期】

    💥💥💞💞欢迎来到Matlab研究室博客之家💞💞💥💥 ✅博主简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,Matlab项目合作可私信。 🍎个人主页:Matlab研究室 🏆代码获取方式: Matlab研究室学习之路—代码获取方式(包运行) ⛳️座右铭:行百里者,半于九十;

    2024年03月09日
    浏览(42)
  • 语音特征提取:语音识别的关键技术

    语音特征提取是语音识别系统中的关键技术,它的目的是从语音信号中提取出与语言相关的特征信息,以便于后续的语音识别和语音处理任务。在这篇文章中,我们将从以下几个方面进行深入探讨: 背景介绍 核心概念与联系 核心算法原理和具体操作步骤以及数学模型公式详

    2024年04月12日
    浏览(33)
  • 避免踩坑,教给你VSCode中最常用到的6项功能

    这里为程序员介绍VSCode中包含的许多令人兴奋的Tips。 1. 插件市场中免费下载使用CodeGeeX插件 AI辅助编程工具 CodeGeeX ,是完全免费,开源开放给所有开发者使用。程序员普遍反应使用这个插件后,代码编写效率提升2倍以上。 CodeGeeX 插件拥有代码生成功能:可以根据自然语言注

    2023年04月14日
    浏览(33)
  • 深度学习在语音识别方面的应用

    语音识别是一项非常重要的技术,它可以将人类的语音转化为计算机可以理解的形式。深度学习是一种非常强大的机器学习技术,它在语音识别方面也有广泛的应用。本文将详细介绍深度学习在语音识别方面的应用。 语音识别的基本步骤包括信号预处理、特征提取和模型训练

    2024年02月05日
    浏览(38)
  • 语音特征提取与预处理

    导入相关包  语音读取与显示  端点检测(去除前后静音段) 原理:将每帧均方根能量与全局最大均方根能量进行比较。  端点检测(包含语音内部)  频域分析 预加重  高通滤波,弥补高频部分的损耗,保护了声道信息:y[n] - y[n] - coef * y[n-1]。 Filter Bank:梅尔谱特征 梅尔滤

    2024年02月10日
    浏览(33)
  • 指纹识别综述(3): 特征提取

    本文主要基于《Handbook of Fingerprint Recognition》第三版第三章“Fingerprint Analysis and Representation”的内容。本文会不定期更新,以反映一些新的进展和思考。 利用指纹采集技术获取的指纹图像通常为二维灰度图像,其中脊线是暗的,而谷线是亮的。虽然指纹图像并不是深度图像,

    2024年02月05日
    浏览(66)
  • OpenCV 入门教程:人脸识别和特征提取

    人脸识别是计算机视觉中的热门研究领域,通过对人脸图像或视频进行分析和比对,实现对个体身份的自动识别。人脸特征提取是人脸识别中的重要步骤,它用于从人脸图像中

    2024年02月13日
    浏览(90)
  • 模式识别 第7、8章 特征的选择和提取

    目录 一、基本概念 1.问题的提出 2.基本概念 3.特征选择 4.特征的评价准则 二、类别可分离性判据 1.常用的特征判据 1. 基于类内类间距离的可分性判据  2. 基于概率分布的可分性判据  3. 基于熵的可分性判据 三、特征选择的最优和次优算法 1.特征选择的最优算法 1. 最优算法

    2024年02月03日
    浏览(39)
  • 特征向量与语音识别:捕捉音频数据的特点

    语音识别(Speech Recognition)是一种自然语言处理技术,它旨在将人类语音信号转换为文本。在过去的几十年里,语音识别技术发展迅速,从早期的简单命令识别到现代的复杂语言理解系统。语音识别系统的核心技术是提取语音信号中的有用特征,以便于后续的语言处理和理解。

    2024年03月09日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包