Librosa库——语音识别,语音音色识别训练及应用

这篇具有很好参考价值的文章主要介绍了Librosa库——语音识别,语音音色识别训练及应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

很多同学以为语音识别是非常难的,其实并不然,起初我也是这么认为,但后来发现语音识别是最简单的,因为同学们可能不知道Python有一个音频处理库Librosa,这个库非常的强大,可以进行音频处理、频谱表示、幅度转换、时频转换、特征提取(音色、音高提取)等等,关于Librosa的更多介绍或者应用需要大家去官网或者查看其他博客资料,这里我就简单安装,然后进行语音识别的讲解。

第一步:在终端安装Librosa库

方法一:使用pip命令

pip install librosa

Librosa库——语音识别,语音音色识别训练及应用

方法二:使用conda命令

conda install -c conda-forge librosa

Librosa库——语音识别,语音音色识别训练及应用

第二步:打开jupyter,导入该导的库

import librosa
import numpy as np
from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import IPython.display as ipd

第三步:制作语音数据,这里的意思就是自己录制不同人声音的音频录音,每个录音长短不做要求,当然个人认为录音时间在20-30秒就可以,至少3个录音音频,因为下面我使用的方法是多分类训练方法,必须3个音频,而且Librosa音频格式一般是WAV、MP3(这里要注意的是如果你录制的音频文件原本不是MP3或者WAV格式,不要重命名改文件后缀,要用专门工具改后缀,要不然报错,我试过了),下面是我用我3个录音来进行训练的音频文件分别是tbb-01.mp3(我直接说话的声音),这3个音频换成你们自己录的音,如果还不理解的咱们评论区见。

# 加载数据集
def load_data():
    # 加载tbb、aichen、xsc三种乐器的音频数据
    tbb, sr1 = librosa.load('tbb-01.mp3')
    aichen, sr2 = librosa.load('aichen-01.mp3')
    xsc, sr3 = librosa.load('xsc-01.mp3')

    # 提取MFCC特征,这里也就是不同人声音音色提取
    tbb_mfcc = librosa.feature.mfcc(y=tbb, sr=sr1)
    aichen_mfcc = librosa.feature.mfcc(y=aichen, sr=sr2)
    xsc_mfcc = librosa.feature.mfcc(y=xsc, sr=sr3)

    # 将不同人声音色的MFCC特征合并成一个数据集
    X = np.concatenate((tbb_mfcc.T, aichen_mfcc.T, xsc_mfcc.T), axis=0)

    # 生成标签向量
    y = np.concatenate((np.zeros(len(tbb_mfcc.T)), np.ones(len(aichen_mfcc.T)), 2*np.ones(len(xsc_mfcc.T))))

    return X, y

执行函数并且输出

# 加载数据集
X, y = load_data()
y

Librosa库——语音识别,语音音色识别训练及应用 这个结果为什么是0开始到2呢,因为这里有3个音频,可以说是生成的数据集的默认标签,第一个音频的标签是0,第二个音频标签是1,第三个音频标签是2,以此类推,有多少个就有多少个,那为什么有多个0、1、2呢,因为在制作这个数据集时会将音频分成一段一段来打上标签,这样做数据集的数量就多了,训练效果就更好

第四步:利用上面处理的数据集进行训练

# 训练模型
def train(X, y):
    # 将数据集分成训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # 使用逻辑回归算法进行多类别分类
    model = LogisticRegression(multi_class='ovr')

    # 训练模型
    model.fit(X_train, y_train)

    return model

执行函数

# 训练模型
model = train(X, y)

第五步:进行模型测试

# 测试模型
def predict(model, audio_file):
    # 加载音频文件并提取MFCC特征
    y, sr = librosa.load(audio_file)
    mfcc = librosa.feature.mfcc(y=y, sr=sr)

    # 进行多类别分类预测
    label = model.predict(mfcc.T)
    proba = model.predict_proba(mfcc.T)

    # 获取概率最大的类别标签
    max_prob_idx = np.argmax(proba[0])
    max_prob_label = label[max_prob_idx]

    return max_prob_label

执行函数,这里我重新录制了一个我自己的声音来进行测试

# 测试模型
label = predict(model, 'tbb-02.mp3')

print('音色为:', label)

 结果如下:

Librosa库——语音识别,语音音色识别训练及应用

识别的标签是0,确实是正确的

那么语音识别其实到这里就结束了,当然我这里只做了音色识别,就是识别不同人说话的声音,Librosa库还可以进行其他的识别,等待大家去了解

这里再说一个库就是IPython.display,如下

import IPython.display as ipd

这个可以直接在jupyter进行音频播放 

audio_data = 'nideyangzi.mp3'
ipd.Audio(audio_data)

结果如下:

Librosa库——语音识别,语音音色识别训练及应用好了,本次语音识别就到此结束,再次感谢大家的支持! 文章来源地址https://www.toymoban.com/news/detail-475260.html

到了这里,关于Librosa库——语音识别,语音音色识别训练及应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python | 语音处理 | 用 librosa / AudioSegment / soundfile 读取音频文件的对比

    本文对比用 Python 读取音频文件 (.wav, .mp3) 的三种方式: soundfile.read librosa.load pydub.AudioSegment.from_file 使用总结如下: soundfile.read : 只能读 .wav ,不能读 .mp3; 默认 dtype = \\\'float64\\\' ,输出为 (-1, 1) 之间的数据 (做了 32768 归一化);修改为 dtype = \\\'int16\\\' ,输出为 (-2**15, 2**15-1) 之间;

    2024年02月14日
    浏览(52)
  • 【基于存内计算芯片开发板验证语音识别】训练手册

    模块⼀:软件包下载及环境搭建 步骤一:搭建docker、mappper环境: ①Linux下通过Docker直接下载,获取指令: docker pull witin/toolchain:v001.000.034 ②Window环境,可以通过docker desktop来使用docker: 下载安装Docker desktop(win10或以上): 通常需要更新WSL,下载链接如下,更新后需要重启生效

    2024年02月04日
    浏览(43)
  • 克隆你的音色!!使用你自己的声音做语音合成

    代码在文章最后!!! 目录 1.音频数据集(自制) 2.更改设置  3.换自己的数据集 4.依次运行接下来的代码, 5.合成句子 6.成功试听/下载音频 7.代码源码 提前准备好 6段以上 音频文件 音频不要太长,也不要太短,建议 2s~10s 之间 音频尽量是干净人声,不要有BGM声音 保存为

    2024年02月10日
    浏览(50)
  • 实时语音克隆,准确复制音色:OpenVoice | 开源日报 No.150

    Stars: 9.6k License: NOASSERTION OpenVoice 是一个通过 MyShell 进行即时语音克隆的开源项目。 OpenVoice 可以准确地克隆参考音色,并生成多种语言和口音的语音。 OpenVoice 允许对声音风格进行细粒度控制,如情感、口音以及节奏、停顿和抑扬等其他风格参数。 无需在大规模说话者多语言

    2024年01月22日
    浏览(73)
  • 语音识别:ChatGPT在语音识别中的应用

    语音识别是计算机科学领域的一个重要研究方向,它涉及将人类的语音信号转换为文本信息的过程。随着人工智能技术的发展,语音识别技术也得到了很大的提升。本文将讨论ChatGPT在语音识别中的应用,并深入探讨其核心算法原理、最佳实践、实际应用场景和未来发展趋势。

    2024年02月19日
    浏览(42)
  • [语音识别] 基于Python构建简易的音频录制与语音识别应用

    语音识别技术的快速发展为实现更多智能化应用提供了无限可能。本文旨在介绍一个基于Python实现的简易音频录制与语音识别应用。文章简要介绍相关技术的应用,重点放在音频录制方面,而语音识别则关注于调用相关的语音识别库。本文将首先概述一些音频基础概念,然后

    2024年02月12日
    浏览(48)
  • GPT-SoVITS开源音色克隆框架的训练与调试

    GPT-SoVITS是一款创新的跨语言音色克隆工具,同时也是一个非常棒的少样本中文声音克隆项目。 它是是一个开源的TTS项目,只需要1分钟的音频文件就可以克隆声音,支持将汉语、英语、日语三种语言的文本转为克隆声音,作者已测试,部署很方便,训练速度很快,效果很好。

    2024年03月16日
    浏览(44)
  • 语音识别与语音合成:机器学习在音频处理领域的应用

    语音识别和语音合成是人工智能领域的两个重要应用,它们在日常生活和工作中发挥着越来越重要的作用。语音识别(Speech Recognition)是将语音信号转换为文本信息的技术,而语音合成(Text-to-Speech Synthesis)是将文本信息转换为语音信号的技术。这两个技术的发展与机器学习紧密相

    2024年02月21日
    浏览(48)
  • 实战案例:AI在语音识别与语音合成领域的应用

    语音识别(Speech Recognition)和语音合成(Text-to-Speech, TTS)是人工智能领域中两个非常重要的技术,它们在现代社会中的应用非常广泛。语音识别技术可以将人类的语音信号转换为文本,而语音合成技术则可以将文本转换为人类可以理解的语音。这篇文章将从以下几个方面进行深入

    2024年02月22日
    浏览(45)
  • 深度学习在语音识别方面的应用

    语音识别是一项非常重要的技术,它可以将人类的语音转化为计算机可以理解的形式。深度学习是一种非常强大的机器学习技术,它在语音识别方面也有广泛的应用。本文将详细介绍深度学习在语音识别方面的应用。 语音识别的基本步骤包括信号预处理、特征提取和模型训练

    2024年02月05日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包