Python音频处理利器:pydub详解

这篇具有很好参考价值的文章主要介绍了Python音频处理利器:pydub详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Pydub 是一个用 Python 编写的音频处理库,它可以方便地处理许多音频文件,诸如分割、合并、格式转换、音量调节等。它具有以下特点:

  • 主要使用 ffmpeg 和 libav 模块来实现音频的读取、处理和输出。
  • 支持的音频格式非常广泛,包括 MP3、WAV、FLAC、MP4 等。
  • API 简单易用,可以方便地进行常用的音频处理操作。

Pydub 是一个轻量级、快速且易于使用的库。silence库是pydub的一个扩展库,可以在音频文件中根据静默部分进行分割,非常方便。

1 pydub安装

安装 Pydub 的最简单方法是使用 pip,只需在命令行下运行以下命令即可:

pip install pydub

依赖:需安装ffmpeg或者libav 

如果 ffmpeg 或 libav 未安装,则还需要在系统中安装相关依赖库。

2  pydub模块使用

读取音频文件非常简单,只需使用 AudioSegment.from_file() 函数即可。以下示例演示了如何读取名为 "soundfile.mp3" 的 MP3 文件:

2.1 打开音频文件

from pydub import AudioSegment

# 打开wav格式音频文件
sound = AudioSegment.from_wav('./soundfile.wav')

# 打开mp3音频文件,AudioSegment原生只支持wav,raw文件,安装ffmpeg可支持其所有格式
sound = AudioSegment.from_mp3('./soundfile.mp3')

# 打开音频文件,生成AudioSegment对象
sound = AudioSegment.from_file('./soundfile.mp3')	# format默认值为"mp3"
sound = AudioSegment.from_file('./soundfile.wav', format='wav')

# 打开raw文件需要额外参数,sample_width(采样位数),frame_rate(采样频率),channels(声通道)
# sample_width: 1、8bit,2、16bit,3、32bit
# frame_rate: 44100(44.1kHz CD audio), 48000(48kHz DVD audio)
# channels: 1、单声道,2、立体声
sound = AudioSegment.from_file('./soundfile.raw', format='raw', frame_rate=44100, channels=2, sample_width=2)

2.2 导出音频文件

要将 AudioSegment 对象保存为音频文件,可以使用 export() 函数。以下示例将上述读取的音频输出为名为 "outputsoundfile.mp3" 的 mp3文件:

sound = AudioSegment.from_file('./soundfile.wav', format='wav')

# 导出音频文件
sound.export('./outputsoundfile.mp3', format='mp3')

2.3 创建音频文件

# 生成一个时间长度为0秒的AudioSegment对象,一般用于多个音频合并
sound = AudioSegment.empty()

# 生成一个时间长度为5秒的无声AduioSegment对象
# 参数duration:时间长度(毫秒),frame_rate:频率,默认为11025Hz
sound = AudioSegment.silent(duration=50000)

2.4 合并音频文件

# 两个单声道音频合并为一个多声道音频
left_channel = AudioSegment.from_wav('sound_left.wav')
right_channel = AudioSegment.from_wav('sound_right.wav')
stereo_sound = AudioSegment.from_mono_auidosegments(left_channel,right_channel)
# 将多声道音频分解成两个单声道
sound = AudioSegment.from_wav('sound.wav')
sound.split_to_mono()


# 两个音频文件合并为一个音频文件
sound1 = AudioSegment.from_file('sound1.wav', format='wav')
sound2 = AudioSegment.from_file('sound2.wav', format='wav')
# 无交叉淡入淡出
sound = sound1 + sound2
# OR
sound = sound1.append(sound2, crossfade=0)
# 淡入淡出,参数crossfade:效果持续时间,默认100毫秒
sound = sound1.append(sound2, crossfade=100) 


# 两个音频文件叠加为一个音频文件
# 例,长音频sound1,30s
sound1 = AudioSegment.from_file('sound1.wav', format='wav')
# 例,短音频sound2,10s
sound2 = AudioSegment.from_file('sound2.wav', format='wav')
# 将sound2叠加至sound1上,参数postions:从sound1音频10秒处开始叠加,默认为0,得到的音频文件,会从10秒处开始出现sound2音频,20秒处sound2音频结束,只余sound1音频
sound = sound1.overlay(sound2, postions=10000)
# 将sound2叠加至sound1上,参数loop:开启循环,默认为Fasle,得到的音频文件sound2将会循环播放至sound1结束
sound = sound1.overlay(sound2, loop=true)
# 将sound2叠加至sound1上,参数times:重复次数,默认为1,得到的音频文件sound2将会重复两次,在两个sound2的时间结束sound2音频
sound = sound1.overlay(sound2, times=2)
# 将sound1叠加至sound2上,10秒后sound2音频结束,sound1音频截断至10s结束,最终该音频长度只有10s,即
sound = sound2.overlay(sound1)
len(sound) == sound2

2.5 音频文件信息

sound = AudioSegment.from_file('soundfile.wav', format='wav')

# 声道数
schannel = sound.channels

# 采样位数,也称位深度,是指每个采样样本所包含的位数(字节数),通常有8 bit、16 bit
sbytes = sound.sample_width

# 采样频率,也称采样率,是指在单位时间内对声音信号的采样数或样本数,采样频率越能高表现的频率范围越大(电话:8kHZ,无线电广播:22.05kHz,CD:44.1kHz,DVD:48kHZ,蓝光:96kHz,192kHz)
srate = sound.frame_rate

# 帧位数, 帧包含每个声道的采样位数frame_width = channels * sample_width
sframebytes = sound.frame_width

# 音频文件帧数, 可选参数ms:时间长度,默认None
sframe = sound.frame_count()

# 音频文件时长,单位秒
stime = sound.duration_seconds
# OR
stime = (len(sound) / 1000)

2.6 处理音频文件

sound = AudioSegment.from_file('soundfile.wav', format='wav')

# 音频前5秒,pydub中时间以毫秒(ms)为单位
audio_begin = sound[:5000]
# 音频后5秒,pydub中时间以毫秒(ms)为单位
audio_end = sound[-5000:]

# 改变音频幅度,以分贝(dB)为单位
# 调高幅度
raise_via = sound.apply_gain(+5)
raise_via = sound + 5
# 调低音量
lower_via = sound.apply_gain(-5)
lower_via = sound - 5

# 淡入淡出效果
# 淡入,参数duration:持续时间
sound.fade_in(duration=5000)
# 淡出,参数duration:持续时间
sound.fade_out(duration=5000)

# 倒放音频文件
newsound = sound.reverse()

2.7 播放音频文件

from pydub import playback
from pydub import AduioSegment
from pydub.playback import play

sound = AduioSegment.from_wav('sound.wav')

# 播放音频
play(sound)

2.8 分割音频

from pydub import utils
from pydub import AudioSegment
from pydub.utils import make_chanks

sound = AduioSegment.from_wav('sound.wav')

# 分割音频, 参数chunk_length:一段音频多长时间
make_chanks(sound, chunk_length=5000)

3 使用pydub根据静音分割音频

3.1 静音检测原理

静音检测原理是通过分析音频信号的能量,判断其是否为静音状态。具体的原理如下:

  • 音频信号通常可以用时域或频域来表示。对于时域表示,可以将音频信号分成一段一段的小块,每个小块称为帧。对于频域表示,可以将音频信号变换为频谱图。

  • 静音的特点是信号的能量较低,通常处于接近零的水平。因此,静音检测可以通过计算每个帧或频谱图的能量来判断是否为静音。

  • 计算能量的方法可以使用绝对能量或相对能量。绝对能量是指计算信号的平方和,即将信号的每个样本取平方后相加。相对能量是指计算信号的功率谱密度,即将信号的功率谱密度求和。

  • 静音检测的阈值是根据实际应用来确定的。通常可以根据经验设置一个合适的阈值,当帧的能量或频谱图的能量低于阈值时,被判断为静音。

  • 静音检测也可以结合其他特征进行判断,例如零交叉率、短时过零率等。这些特征可以提供更准确的静音检测结果。

静音检测原理是通过计算音频信号的能量来判断是否为静音状态,通常通过设置一个阈值来判断。此外,还可以结合其他特征进行判断,提高检测的准确性。

Python音频处理利器:pydub详解,音视频处理,音视频,pydub

语音和噪声的区别可以体现在他们的能量上,语音段的能量比噪声段的能量大,如果环境噪声和系统输入的噪声比较小,只要计算输入信号的短时能量就能够把语音段和噪声背景区分开,除此之外,用基于能量的算法来检测浊音通常效果也是比较理想的,因为浊音的能量值比清音大得多,可以判断浊音和清音之间过渡的时刻,但对清音来说,效果不是很好,因此还需要借助短时过零率来表征。
短时能量可以近似为互补的情况,短时能量大的地方过零率小,短时能量小的地方过零率较大。
基于短时能量和过零率的检测方法 尽管基于短时能量和过零率的检测方法各有其优缺点,但是若将这两种基本方法相结合起来使用也可以实现对语音信号可靠的端点检测。无声段的短时能量为零,清音段的短时能量又比浊音段的短时能量大,而在过零率方面,理想的情况是无声段的过零率为零,浊音段的过零率比清音段的过零率要大的多,假设有一段语音,

  • 如果某部分短时能量和过零率都为零或者为很小的值,就可以认为这部分为无声段。
  • 如果该部分语音短时能量很大但是过零率很小,则认为该部分语音为浊音段。
  • 如果该部分短时能量很小但是过零率很大,则认为该部分语音为清音段。

正如前面提到,语音信号具有短时性,因此在对语音信号进行分析时,需要将语音信号以30ms为一段分为若干帧来进行分析,则两帧起始点之间的间隔为10ms。

  • 短时能量,无声<浊音<清音
  • 过零率,无声<清音<浊音
     

3.2 使用pydub进行静音检测

代码首先使用AudioSegment类从audio.mp3文件中读取音频数据,然后设置了分割参数min_silence_len、silence_thresh和keep_silence。min_silence_len是最小静音长度,silence_thresh是静音阈值,keep_silence是保留静音长度。这些参数的具体含义可以根据实际情况进行调整。最后,根据分割参数使用split_on_silence函数对音频文件进行分割。

from pydub import AudioSegment
from pydub.silence import split_on_silence

# 读取音频文件
audio = AudioSegment.from_file("D:/dataset/lyb01.wav", format="wav")

# 设置分割参数
min_silence_len = 300  # 最小静音长度
silence_thresh = -50  # 静音阈值,越小越严格
keep_silence = 200  # 保留静音长度

# 分割音频文件
segments = split_on_silence(audio, min_silence_len=min_silence_len, silence_thresh=silence_thresh,
                            keep_silence=keep_silence)

for idx in range(len(segments)):
    segments[idx].export(f'wav_{idx:04}.wav')

运行结果显示:

[<pydub.audio_segment.AudioSegment object at 0x00000263D65E1D60>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E3D0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E370>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E340>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E0A0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E310>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E8E0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E910>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E940>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E9A0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660E970>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EC10>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EC40>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EC70>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ECA0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ECD0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ED00>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ED30>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ED60>, <pydub.audio_segment.AudioSegment object at 0x00000263D660ED90>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EDC0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EDF0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EE20>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EE50>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EE80>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EEB0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EEE0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EF10>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EF40>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EF70>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EFA0>, <pydub.audio_segment.AudioSegment object at 0x00000263D660EFD0>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622040>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622070>, <pydub.audio_segment.AudioSegment object at 0x00000263D66220A0>, <pydub.audio_segment.AudioSegment object at 0x00000263D66220D0>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622100>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622130>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622160>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622190>, <pydub.audio_segment.AudioSegment object at 0x00000263D66221C0>, <pydub.audio_segment.AudioSegment object at 0x00000263D66221F0>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622220>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622250>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622280>, <pydub.audio_segment.AudioSegment object at 0x00000263D66222B0>, <pydub.audio_segment.AudioSegment object at 0x00000263D66222E0>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622310>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622340>, <pydub.audio_segment.AudioSegment object at 0x00000263D6622370>]

Python音频处理利器:pydub详解,音视频处理,音视频,pydub

4 总结

通过pydub,我们可以方便地进行音频编解码、混音、重采样等操作,进一步扩展了pydub的应用场景。需要注意的是,在进行音频混音操作时,需要保证两个音频文件的采样率、采样位数和声道数相同。

pydub优点:

  • 轻量级:pydub是一个轻量级的音频处理库,安装方便,使用简单。
  • 功能丰富:pydub提供了丰富的音频处理功能,包括切割、合并、转换、调整音量、编解码、混音、重采样等。
  • 应用广泛:pydub的应用场景非常广泛,包括音频处理、铃声制作、音频格式转换、语音识别等等。

pydub缺点:

  • 对格式的兼容性有限:pydub对音频格式的兼容性有限,不支持所有的音频格式,需要先将音频转换为支持的格式后才能进行处理。
  • 性能一般:pydub在处理大文件时,性能可能会比较一般,需要耗费一定的时间和计算资源。
  • 不支持流式处理:pydub不支持流式处理,需要将整个音频文件读取到内存中,导致内存占用较大。

pydub是一个功能丰富、应用广泛的音频处理库。在使用pydub时,需要注意音频格式的兼容性问题,并注意处理大文件时的性能和内存占用。如果需要处理更复杂的音频任务,可以考虑使用其他更专业的音频处理库。文章来源地址https://www.toymoban.com/news/detail-807203.html

到了这里,关于Python音频处理利器:pydub详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python的音视频文件处理

    ffmpeg-python 是 ffmpeg 的一个包装,通过 python 调用 ffmpeg 的 API ,实现高效的音视频文件处理 开始之前 安装 ffmpeg 安装 ffmpeg-python 参考 ffmpeg官方网站 ffmpeg-python的代码库与技术文档 技术背景 音视频文件处理流程 输入文件 ⟹ 解封装 已编码的数据包 ⟹ 解码 被编码的帧 ( 可进行

    2024年02月03日
    浏览(38)
  • 【音视频 | wav】wav音频文件格式详解——包含RIFF规范、完整的各个块解析、PCM转wav代码

    😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C++、数据结构、音视频🍭 🤣本文内容🤣:🍭介绍wav音频格式🍭 😎金句分享😎:🍭子曰:父母在,不远游,游必有方。 ——《论语·里仁篇》。意思是,父母还健在时,就不要

    2024年02月06日
    浏览(39)
  • 不止工具:音视频开发「利器」的新机遇

    Boxing的制胜关键是快、准、稳,与“音视频开发”有异曲同工之妙。 数字化浪潮席卷、视频化形态加速、终端性能挑战加剧、端侧算力遭遇瓶颈...... 是否存在一种可能性,让所有企业从复杂的音视频开发工程中抽身,重新回归业务本身? 一站式音视频服务如何获取?冗长繁

    2024年02月16日
    浏览(29)
  • python+moviepy音视频处理(一):基本操作

    目录 视频处理 视频加载和输出 视频转换gif 视频裁剪 视频音量调节 去掉视频声音 视频中的音频提取与替换 获取视频属性 倍数播放视频 截取视频某帧为封面 多视频拼接 音频处理 替换视频文件的音频 多个音频文件拼接 安装:pip install moviepy 中文官网:moviepy-cn 文档 \\\'\\\'\\\' movie

    2023年04月23日
    浏览(35)
  • python moviepy 自动化音视频处理实践

    MoviePy是一个用于视频编辑的Python库。它提供了一种简单且直观的方式来处理视频文件,包括剪辑、合并、裁剪、添加文本、添加音频等操作。使用MoviePy,你可以通过编写Python代码来创建和编辑视频,而无需使用复杂的视频编辑软件。 MoviePy建立在另一个库Pygame和软件MoviePy

    2024年02月14日
    浏览(27)
  • 如何使用Python进行可视化/音视频处理?

    要使用Python进行可视化和音视频处理,可以使用以下库: matplotlib:用于绘制各种类型的图表和图形,包括折线图、柱状图、散点图等。 seaborn:基于matplotlib的可视化库,提供更高级别的图表和样式,用于创建各种吸引人的统计图表。 plotly:用于创建交互式图表和数据可视化

    2024年02月09日
    浏览(44)
  • python+moviepy音视频处理(二):视频添加文字(字幕)、视频添加汉字不显示问题

    目录 添加文字报错处理 中文不显示处理 代码实例 给视频添加滚动文字(一) 给视频添加滚动文字(二) 报错内容 :OSError: MoviePy Error: creation of None failed because of the following error: [WinError 2] 系统找不到指定的文件。. .This error can be due to the fact that ImageMagick is not installed on your comput

    2024年02月09日
    浏览(67)
  • Python音视频剪辑:大小调整的视频变换函数详解

    Python音视频剪辑:大小调整的视频变换函数详解 在音视频编辑中,常常需要对视频文件进行大小调整以适配不同的设备或场景。MoviePy是一款强大的Python库,提供了多种视频变换函数,可以方便地对视频进行大小调整。本文将介绍MoviePy中与大小相关的视频变换函数,并附上相

    2024年02月06日
    浏览(39)
  • Python音频处理——pydub

    Pydub是Python音频处理库,可以对音频进行切割、合并、转换、调整音量等操作。以下是对pydub各个知识点的介绍和案例。 使用pip安装即可(还需安装ffmpeg依赖,建议使用conda命令安装,则不需要配置环境): 下面是一段完整的代码,用于对音频进行前后切割,并将音频分割成

    2023年04月11日
    浏览(38)
  • 【FFmpeg】音视频录制 ① ( 查询系统中 ffmpeg 可录制的音视频输入设备 | 使用 ffmpeg 命令录制音视频数据 | 录制视频数据命令 |录制音频数据| 同时录制音频和视频数据命令 )

    在 Windows 系统中 , 使用 ffmpeg 命令 录制 音视频 , 需要先获取 系统的 音视频设备 信息 , 录制 音视频 本质上是从 系统音视频设备 中获取数据 ; 执行 命令 , 可以获取 系统中 ffmpeg 可用的 DirectShow 音视频输入设备 ; 命令参数解析 : -list_devices true : 列出所有 ffmpeg 的 指定类型的可

    2024年04月25日
    浏览(71)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包