Speech | 语音处理,分割一段音频(python)

这篇具有很好参考价值的文章主要介绍了Speech | 语音处理,分割一段音频(python)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文主要是关于语音数据在处理过程中的一些脚本文件以及实例,所有代码只需要更改所需处理的文件路径,输出路径等,全部可运行。

目录

所需环境

方法1:将一整段音频按时间批量切成一个一个音频

方法2:将一整段音频按语句停顿批量切成一个一个音频

方法3:将一个文件夹内的几整段音频批量切成一个一个音频

3.1.数据格式:一个文件夹下的长几分多的音频(wav文件)按固定秒数切割

3.2.数据格式:一个文件夹下的长几分多的音频(mp3文件)按固定秒数切割

3.3.数据格式:一个文件夹下的长几分多的音频(wav文件)按语句停顿切割

扩展

将pcm文件批量处理成wav文件

Linux下查询文件夹中文件数量的方法

使用ls命令和wc命令

WAV格式文件详解


所需环境

本文环境:Linux

pydub(安装:pip3 install pydub)

ffmpeg(apt install ffmpeg)

方法1:将一整段音频按时间批量切成一个一个音频

数据格式:一个长三分五十秒的音频

python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

# split_wav_time.py
from pydub import AudioSegment
from pydub.utils import make_chunks

audio = AudioSegment.from_file("his_one/1.wav", "wav")

#size = 10000  #切割的毫秒数 10s=10000
size = 60000  #切割的毫秒数 60s=60000

chunks = make_chunks(audio, size)  #将文件切割为60s一个

for i, chunk in enumerate(chunks):
    chunk_name = "new-{0}.wav".format(i)
    print(chunk_name)
    chunk.export(chunk_name, format="wav")

运行命令:

python split_wav_time.py

 结果:

python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

方法2:将一整段音频按语句停顿批量切成一个一个音频

数据格式:一个长几分多的音频

python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

利用split_on_silence(sound,min_silence_len,   silence_thresh,    keep_silence=400)函数

第一个参数为待分割音频,第二个为多少秒“没声”代表沉默,第三个为分贝小于多少dBFS时代表沉默,第四个为为截出的每个音频添加多少ms无声

from pydub import AudioSegment
from pydub.silence import split_on_silence
 
sound = AudioSegment.from_mp3("his_one/1.wav")
loudness = sound.dBFS
#print(loudness)
 
chunks = split_on_silence(sound,
    # must be silent for at least half a second,沉默半秒
    min_silence_len=430,
 
    # consider it silent if quieter than -16 dBFS
    silence_thresh=-45,
    keep_silence=400
 
)
print('Len:', len(chunks))
 
# 放弃长度小于2秒的录音片段
for i in list(range(len(chunks)))[::-1]:
    if len(chunks[i]) <= 2000 or len(chunks[i]) >= 10000:
        chunks.pop(i)
print('取有效分段(大于2s小于10s):', len(chunks))
 
'''
for x in range(0,int(len(sound)/1000)):
    print(x,sound[x*1000:(x+1)*1000].max_dBFS)
'''
 
for i, chunk in enumerate(chunks):
    chunk.export("cutwav_{0}.wav".format(i), format="wav")
    #print(i)

  结果:

python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

方法3:将一个文件夹内的几整段音频批量切成一个一个音频

3.1.数据格式:一个文件夹下的长几分多的音频(wav文件)按固定秒数切割

python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re

# # 循环目录下所有文件
for each in os.listdir("/workspace/tts/PolyLangVITS/history"): #循环目录
    
    filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后缀的文件名
    print(each)
    if each:
        # filename[0] += '.wav'
        # print(filename[0])

        mp3 = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav") # 打开mp3文件
#         # # mp3[17*1000+500:].export(filename[0], format="mp3") #
        size = 15000  # 切割的毫秒数 10s=10000

        chunks = make_chunks(mp3, size)  # 将文件切割为15s一块

        for i, chunk in enumerate(chunks):

            chunk_name = "{}-{}.wav".format(each.split(".")[0],i)
            print(chunk_name)
            chunk.export('/workspace/tts/PolyLangVITS/preprodata/his_out/{}'.format(chunk_name), format="wav")



 

 结果

python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

3.2.数据格式:一个文件夹下的长几分多的音频(mp3文件)按固定秒数切割

from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re
# #
# # 循环目录下所有文件
for each in os.listdir("D:/纯音乐"): #循环目录
    
    filename = re.findall(r"(.*?)\.mp3", each) # 取出.mp3后缀的文件名
    print(each)
    if each:
        # filename[0] += '.wav'
        # print(filename[0])

        mp3 = AudioSegment.from_file('D:/纯音乐/{}'.format(each), "mp3") # 打开mp3文件
#         # # mp3[17*1000+500:].export(filename[0], format="mp3") #
        size = 15000  # 切割的毫秒数 10s=10000

        chunks = make_chunks(mp3, size)  # 将文件切割为15s一块

        for i, chunk in enumerate(chunks):

            chunk_name = "{}-{}.mp3".format(each.split(".")[0],i)
            print(chunk_name)
            chunk.export('D:/纯音乐分解/{}'.format(chunk_name), format="mp3")```



 

 3.3.数据格式:一个文件夹下的长几分多的音频(wav文件)按语句停顿切割

 python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

# @ Elena
# @ Date : 23.9.4


import os, re
from pydub import AudioSegment
from pydub.silence import split_on_silence

# # 循环目录下所有文件
for each in os.listdir("/workspace/tts/PolyLangVITS/history"): 
    filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后缀的文件名
    print(each)
    if each:
        sound = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav")
        loudness = sound.dBFS
    #print(loudness)
 
    chunks = split_on_silence(sound,
        # must be silent for at least half a second,沉默半秒
        min_silence_len=430,
    
        # consider it silent if quieter than -16 dBFS
        silence_thresh=-45,
        keep_silence=400
    
    )
    print('Len:', len(chunks))
    
    # 放弃长度小于1秒的录音片段
    for i in list(range(len(chunks)))[::-1]:
        if len(chunks[i]) <= 1000 or len(chunks[i]) >= 10000:
            chunks.pop(i)
    print('Len (1s~10s wav file):', len(chunks))
    
    '''
    for x in range(0,int(len(sound)/1000)):
        print(x,sound[x*1000:(x+1)*1000].max_dBFS)
    '''
    
    for i, chunk in enumerate(chunks):
        chunk_name = "{}-{}.wav".format(each.split(".")[0],i) 
        chunk.export("/workspace/tts/PolyLangVITS/preprodata/his_out/{}".format(chunk_name), format="wav")
        #print(i)

结果

python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

使用 file 查询  wav

(WAV文件格式是Microsoft的RIFF规范的一个子集,用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成,分别为: RIFF WAVE Chunk,Format Chunk,Fact Chunk(可选),Data Chunk。具体格式如下:)

python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

扩展

将pcm文件批量处理成wav文件

import wave
import os
 
filepath = "data/"  # 添加路径
filename = os.listdir(filepath)  # 得到文件夹下的所有文件名称
#f = wave.open(filepath + filename[1], 'rb')
#print(filename)
for i in range(len(filename)):
    with open("data/"+failename[i], 'rb') as pcmfile:
        pcmdata = pcmfile.read()
    with wave.open("data/"+filename[i][:-3] + '.wav', 'wb') as wavfile:
        wavfile.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))
        wavfile.writeframes(pcmdata)

Linux下查询文件夹中文件数量的方法

使用ls命令和wc命令

使用ls命令的-l选项和管道操作符|结合wc命令来统计文件数量:

查询当前文件夹下带有“wav”的文件数量

ls -l | grep "wav" | wc -l

 python 音频分割,- Speech -,# - Python,音视频,python,开发语言,音频处理,1024程序员节

WAV格式文件详解

WAV文件格式是Microsoft的RIFF规范的一个子集,用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成,分别为: RIFF WAVE Chunk,Format Chunk,Fact Chunk(可选),Data Chunk。具体格式如下:

音频文件参数简介
对于形如44100HZ 16bit stereo 或者 22050HZ 8bit mono参数描述的音频文件,其蕴含的文件参数包括:

采样率:声音信号在“模→数”转换过程中单位时间内采样的次数。
采样值(采样精度):每一次采样周期内声音模拟信号的积分值。
同时,每个采样数据记录的是振幅, 而采样精度取决于储存空间的大小。
对于单声道(mono)文件,采样数据为8位的短整数,同时其采样精度有:

1 字节(8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
2 字节(16bit) 可以细到 65536 个数, 即为 CD 标准;
4 字节(32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了。
对于双声道立体声(stereo)文件,每次采样数据为一个16位的整数(int),且采样是双份的,也为单声道文件的两倍。采样数据中高八位(左声道)和低八位(右声道)分别代表两个声道。

由于wav格式文件本质上为音频文件,即可根据文件的大小、采样频率和采样大小估算文件的播放长度。
更多可查看Microsoft WAVE soundfile format (sapp.org)文章来源地址https://www.toymoban.com/news/detail-715669.html

到了这里,关于Speech | 语音处理,分割一段音频(python)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python加上ffmpeg实现音频分割

    前言: 这是一个系列的文章,主要是使用python加上ffmpeg来对音视频文件进行处理,包括音频播放、音频格式转换、音频文件分割、视频播放等。 系列文章链接: 链接1: python使用ffmpeg来制作音频格式转换工具(优化版) 链接2:<Python>PyQt5+ffmpeg,简单视频播放器的编写(解

    2024年02月04日
    浏览(38)
  • (Python) 在Python中对WAV音频文件进行分割与拼接

    在本文中,我们将介绍如何使用Python来处理音频文件,主要集中在wav文件的分割和拼接方面。 1. 分割WAV文件 对于音频处理来说,分割文件是一项基本任务。在Python中,我们可以使用wave模块来读取.wav文件,并使用SciPy中的signal模块来进行分割。 1.1. 读取WAV文件 使用wave.open()函

    2024年02月21日
    浏览(45)
  • [语音识别] 基于Python构建简易的音频录制与语音识别应用

    语音识别技术的快速发展为实现更多智能化应用提供了无限可能。本文旨在介绍一个基于Python实现的简易音频录制与语音识别应用。文章简要介绍相关技术的应用,重点放在音频录制方面,而语音识别则关注于调用相关的语音识别库。本文将首先概述一些音频基础概念,然后

    2024年02月12日
    浏览(48)
  • 语音识别系列︱用python进行音频解析(一)

    笔者最近在挑选开源的语音识别模型,首要测试的是百度的paddlepaddle; 测试之前,肯定需要了解一下音频解析的一些基本技术点,于是有此篇先导文章。 笔者看到的音频解析主要有几个: soundfile ffmpy librosa 安装代码: 参考文档:librosa 文档位置:https://librosa.org/doc/latest/co

    2024年02月02日
    浏览(50)
  • 使用Python进行语音识别:将音频转为文字

    语音识别是一项将语音信号转换为可理解的文本的技术。在Python中,我们可以使用一些库和工具来实现语音识别,并将音频转换为文本。本文将介绍如何使用Python进行语音识别的过程,并提供相应的源代码。 步骤1:安装所需的库 首先,我们需要安装一些Python库来支持语音识

    2024年02月03日
    浏览(59)
  • 当音乐遇上Python:用Pydub自动分割音频

    🎵 🎵 🎵 当音乐遇上Python:用Pydub自动分割音频 随着短视频应用的普及,越来越多人开始了解并尝试制作自己的短视频作品。而在制作短视频时,背景音乐的选择和使用也是非常重要的一步。很多人喜欢选择一首长音乐,再通过剪辑软件将其剪成多段来使用,这种做法虽然

    2024年02月02日
    浏览(39)
  • Python的音视频文件处理

    ffmpeg-python 是 ffmpeg 的一个包装,通过 python 调用 ffmpeg 的 API ,实现高效的音视频文件处理 开始之前 安装 ffmpeg 安装 ffmpeg-python 参考 ffmpeg官方网站 ffmpeg-python的代码库与技术文档 技术背景 音视频文件处理流程 输入文件 ⟹ 解封装 已编码的数据包 ⟹ 解码 被编码的帧 ( 可进行

    2024年02月03日
    浏览(55)
  • Android音视频处理技术:音频混音与播放

    作者:禅与计算机程序设计艺术 在现代生活中,我们都会听到各种各样的声音。但是有的声音会相互抵消影响我们的正常生活,而有的声音则会增加我们的情绪快乐。人类为了能够真正体验到声音带来的快感,需要将不同类型的声音合并,再将它们再传达给大脑。音频混音与

    2024年02月08日
    浏览(44)
  • 如何使用Python进行可视化/音视频处理?

    要使用Python进行可视化和音视频处理,可以使用以下库: matplotlib:用于绘制各种类型的图表和图形,包括折线图、柱状图、散点图等。 seaborn:基于matplotlib的可视化库,提供更高级别的图表和样式,用于创建各种吸引人的统计图表。 plotly:用于创建交互式图表和数据可视化

    2024年02月09日
    浏览(67)
  • python+moviepy音视频处理(一):基本操作

    目录 视频处理 视频加载和输出 视频转换gif 视频裁剪 视频音量调节 去掉视频声音 视频中的音频提取与替换 获取视频属性 倍数播放视频 截取视频某帧为封面 多视频拼接 音频处理 替换视频文件的音频 多个音频文件拼接 安装:pip install moviepy 中文官网:moviepy-cn 文档 \\\'\\\'\\\' movie

    2023年04月23日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包