「Python｜场景案例」如何获取音视频中声音片段的起止时间？

这篇具有很好参考价值的文章主要介绍了「Python｜场景案例」如何获取音视频中声音片段的起止时间？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文主要介绍如何使用python的第三方库moviepy找出音视频中声音开始出现的位置以及声音结束的位置。

场景描述

假设我们有一段音频，音频开始有一段无声片段，音频结束也有一段无声片段，我们需要知道开头无声片段的结束位置和结束无声片段的开始位置，或者换句话说，我们需要知道在第几秒开始第一次出现声音，在第几秒位置是最后一次声音，这样就可以去除首末的无声部分。
更进一步，假设我们有一段单词发音音频，整个音频读了多个单词，我们希望得到各个片段的起始时间和结束时间（之后可以根据时间将音频切分为单个单词的发音音频）

我们使用音视频软件打开一段音频，可以看到音频声音结构如下，分为4个有声部分，开头和结束都有一小段无声部分。
「Python｜场景案例」如何获取音视频中声音片段的起止时间？

各个音频片段的开始时间和结束时间如下：

音频片段	目测开始时间	目测结束时间
第一段	0.18s	4.06s
第二段	5.20s	5.27s
第三段	8.21s	9.00s
第四段	10.16s	18.6s

接下来我们就尝试编写一段程序找出上述四个片段的起止时间。

准备工作

处理音视频的时候，可以使用强大的ffmpeg工具完成各种各样的操作
python中可以使用底层封装了ffmpeg的第三方库moviepy来快速完成一些常见的音视频处理

所以，我们需要安装ffmpeg（moviepy需要使用），moviepy两个库，

ffmpeg 具体安装可以参考：如何在Windows系统安装ffmpeg
moviepy可以通过pip命令安装：pip install moviepy

解决方案

想要找出一段音频中在第几秒开始出现声音，我们可以从音频开始以很小的时间间隔检查每一个时间点上的音频音量，如果音频音量等于0（或者小于某个音量值），则认为这个时间点是无声的，检查到第一个不是无声的时间点，就是音频开始出现声音的位置。
同理，如果我们要找出单词带读音频中各个单词的起止时间，则找到第一次出现声音的位置和声音出现后第一次消失的位置就是这个单词音频的起止时间。

我们查找moviepy中是否已经有现成的查看音频音量的方法，可以找到.max_volume()方法可以得到一段音频中的最大音量，使用这个方法，如果一段极短的音频的最大音量是0（或者小于某个值）就认为这个时间段的音频是无声的，则可以设计如下操作：

(导入我们要用的moviepy)：from moviepy.editor import *
读取音频数据：
- audio = AudioFileClip("D:/45.mp3")
- 如果是视频文件, 则使用audio = VideoFileClip("D:/视频文件名.mp4").audio获取视频的音频数据
音频都是从0s开始的，结束时间可以通过audio.end得到
假设我们检查的时间间隔是0.1s，则可以分成audio.end / 0.1个需要检查的时间片段
截取某一个片段的音频可以使用audio_clip = audio.subclip(0, 0.1)
检查获取最大音量：audio_clip.max_volume()

源代码

import math
from typing import List
from moviepy.editor import *


def mark_each_duration_sound_or_silent(audio_clip, window_size=0.1, volume_threshold=0.01) -> List[bool]:
    """标记每一个检查区间的音频片段是有声还是无声"""

    window_amount = math.floor(audio_clip.end / window_size)
    window_is_silent = []
    for i in range(window_amount):
        s = audio_clip.subclip(i * window_size, (i + 1) * window_size)
        v = s.max_volume()
        window_is_silent.append(v < volume_threshold)
    return window_is_silent


def find_sound_appear_and_disappear_position(window_is_silent, window_size=0.1, ease_in=0.25):
    """找出每一个「无声到有声」和「有声到无声」的时间点作为声音片段的起止时间"""
    
    speaking_start = 0
    speaking_end = 0
    sound_intervals = []
    for window_num in range(1, len(window_is_silent)):
        last_point = window_is_silent[window_num - 1]
        current_point = window_is_silent[window_num]

        # 出现上一个时间点无声, 当前时间点有声, 当前时间点就是声音开始位置
        if last_point and not current_point:
            speaking_start = window_num * window_size

        # 出现上一个时间点有声, 当前时间点无声, 当前时间点就是声音结束位置
        # 有了声音的开始位置和结束位置，就有了一个声音片段的起止区间
        if not last_point and current_point:
            speaking_end = window_num * window_size
            new_speaking_interval = [speaking_start - ease_in, speaking_end + ease_in]
            if new_speaking_interval[0] < 0:
                new_speaking_interval[0] = 0

            # 当时间间隔(window_size)过小而声音渐入区间(ease in)过大时, 会出现时间片段重叠的问题，这种情况需要合并两个区间
            need_to_merge = len(sound_intervals) > 0 and sound_intervals[-1][1] > new_speaking_interval[0]
            if need_to_merge:
                merged_interval = [sound_intervals[-1][0], new_speaking_interval[1]]
                sound_intervals[-1] = merged_interval
            else:
                sound_intervals.append(new_speaking_interval)

    return sound_intervals


def find_sound_intervals(audio_clip, window_size=0.1, volume_threshold=0.01, ease_in=0.25):
    # First, iterate over audio to find all silent windows.
    window_is_silent = mark_each_duration_sound_or_silent(audio_clip, window_size, volume_threshold)
    return find_sound_appear_and_disappear_position(window_is_silent, window_size, ease_in)


audio = AudioFileClip("D:/45.mp3")
print(f"Check With Default Options: {find_sound_intervals(audio)}")
"""输出结果:
Check With Default Options: [[0.25, 4.3500000000000005], [5.3500000000000005, 6.15], [8.450000000000001, 9.25], [10.25, 18.55]]
"""