【python】基于librosa库提取音频特征

这篇具有很好参考价值的文章主要介绍了【python】基于librosa库提取音频特征。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、源码

import librosa
audio_path = './audio.mp3'
audio, sr = librosa.load(audio_path)
# 提取音频信号的时域特征
amplitude = librosa.amplitude_to_db(librosa.stft(audio), ref=np.max)
# 提取音频信号的频域特征
mfccs = librosa.feature.mfcc(audio, sr=sr)
# 提取音频信号的节奏特征
tempo, beat_frames = librosa.beat.beat_track(audio, sr=sr)

二、介绍

1、librosa.amplitude_to_db

librosa.amplitude_to_db是一个音频处理库librosa中的一个函数，用于将音频信号的幅度转换为分贝（dB）单位的值。在音频处理中，分贝是一种常用的单位，用于表示信号的相对强度。

该函数的输入参数是音频信号的幅度值，可以是单个值或者一个数组。它会将输入的幅度值转换为分贝单位，并返回相应的结果。

该函数的转换公式如下：
dB = 20 * log10(amplitude / ref)

其中，amplitude是输入的幅度值，ref是参考值，默认为1。通过这个公式，函数将输入的幅度值转换为相对于参考值的分贝值。

使用librosa.amplitude_to_db函数可以帮助我们在音频处理中更好地理解和分析音频信号的强度。例如，可以将音频信号转换为分贝单位后，可以更直观地比较不同音频片段的相对强度，或者进行音频特征提取等操作。

2、librosa.feature.mfcc

librosa.feature.mfcc是一个音频特征提取函数，用于计算音频信号的梅尔频率倒谱系数（MFCC）。MFCC是一种常用的音频特征表示方法，广泛应用于语音识别、音乐信息检索等领域。

MFCC的计算过程主要包括以下几个步骤：
1. 预加重：对音频信号进行预处理，通过高通滤波器强调高频部分，减小低频部分的能量损失。
2. 分帧：将音频信号分成短时帧，通常每帧持续时间为20-40毫秒。
3. 加窗：对每一帧的信号应用窗函数，常用的窗函数有汉明窗、哈宁窗等。
4. 傅里叶变换：对每一帧的信号进行快速傅里叶变换（FFT），将时域信号转换为频域信号。
5. 梅尔滤波器组：将频域信号通过一组梅尔滤波器进行滤波，得到每个滤波器通道的能量。
6. 对数压缩：对每个滤波器通道的能量取对数，得到对数能量谱。
7. 离散余弦变换：对对数能量谱进行离散余弦变换（DCT），得到MFCC系数。