用Python+OpenCV截取视频中所有含有字幕的画面

这篇具有很好参考价值的文章主要介绍了用Python+OpenCV截取视频中所有含有字幕的画面。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、需求背景

有的视频文件的字幕已经压制到了视频的图像中,不能单独提取出字幕文件。网上的 “提取视频字幕” 网站多为提取视频中的字幕文件,而非识别视频图像中的字幕。少数通过OCR技术识别画面中字幕的工具需要在线运行、运行速度较慢,或者需要收费,使用不够灵活。

我希望实现在视频中提取字幕截图的程序,需要解决两个关键问题:一是如何判断视频中是否出现了字幕,二是如何确定字幕何时发生变化。然后在有字幕且字幕刚刚发生变化时,截取并保存字幕图片。

为了解决这两个问题,我的主要思路是利用视频中字幕的固定位置和特殊颜色进行提取。通常情况下,字幕会出现在视频的特定区域,并且其颜色与周围背景颜色不同、并使用固定颜色。我们可以通过指定字幕所在的区域坐标和颜色来提取字幕图像。

然后通过判断在指定区域内符合指定颜色的像素值是否超过阈值,来判断是否存在字幕。而通过判断两帧画面之间的像素差异数是否超过阈值,来判断字幕是否变化

通过这种方式,并根据实际情况调整参数,可以达到比较合适的漏检率和误检率,从而实现较好的字幕提取效果。

2、设计思路

2.1 读取视频的迭代器函数 VideoIter

函数实现从视频中迭代获取指定时间范围内的帧图像,它接受4个参数:file表示视频文件路径,start_time表示开始时间(单位秒,后同),end_time表示结束时间,step_time表示迭代步长。其中start_timeend_time可以设置为负数,表示为相对于总时长的倒数时间位置,step_time设置为负数时表示为倒序迭代视频中的图像。

函数从视频的start_time开始时间开始截取图像,每间隔step_time步长时间捕获一张图像,将帧图像作为生成器(yield)的输出,直到达到end_time结束时间停止。

2.2 图像预处理函数 ProcessImage

函数实现从传入图像中裁剪指定区域、并根据给定的颜色和浮动值进行颜色分割,它接受4个参数:img表示输入的图像,area表示要裁取的区域边界坐标(格式为 (x1, y1, x2, y2)),color表示要分割的颜色(格式为 (r, g, b)),float表示颜色分割时的容差范围值。

函数设计从视频画面中裁取字幕出现位置的区域,然后根据设定的字幕颜色和允许容差匹配出文字区域的蒙版。最后,使用OpenCV的方法根据颜色阈值对图像进行转换,并将函数处理过的图像返回。

2.3 提取视频中字幕图像的主函数 ExtractSubtitle

函数实现从视频中提取字幕图像,它接受7个参数:file表示视频文件路径,area表示字幕所在区域的边界坐标(格式为 (x1, y1, x2, y2)),color表示字幕的颜色(格式为 (r, g, b)),float表示颜色判断时的容差范围值,count_thresh表示像素计数阈值,diff_thresh表示像素差异阈值,delay表示显示图像的延迟时间。

函数通过循环调用VideoIter函数迭代读取视频中的帧图像,并使用ProcessImage函数处理图像,将字幕部分提取出来。在处理过程中,函数统计处理后图像中非零像素的数量,并计算当前图像与上一帧图像的像素差异。如果像素数量和像素差异数值均超过了各自设定的阈值,就将当前帧图像显示输出(作为调试)、并将视频帧图像保存到视频文件同名的文件夹中。文件命名包含帧序号、像素数量、和像素差异数(用于调试参考)。

3、实现代码

import os
import cv2
import numpy as np

def imshow(img, delay=1, title=''):
    cv2.imshow('', img)
    cv2.setWindowTitle('', title)
    cv2.waitKey(delay)

def imwrite(file, im):
    cv2.imencode('.jpg', im)[1].tofile(file)

def VideoIter(file, start_time, end_time, step_time):
    cap = cv2.VideoCapture(file)
    fps = cap.get(cv2.CAP_PROP_FPS)
    total_time = int(cap.get(cv2.CAP_PROP_FRAME_COUNT)) / fps
    if np.signbit(start_time):
        start_time += total_time
    if np.signbit(end_time):
        end_time += total_time
    for current_time in np.arange(start_time, end_time, step_time):
        cap.set(cv2.CAP_PROP_POS_FRAMES, int(fps * current_time))
        ret, img = cap.read()
        if not ret:
            break
        yield img
    cap.release()

def ProcessImage(img, area, color, float):
    x1, y1, x2, y2 = area
    img = img[y1:y2, x1:x2]
    r, g, b = color
    rgb1 = (r - float, g - float, b - float)
    rgb2 = (r + float, g + float, b + float)
    img = cv2.inRange(img, rgb1, rgb2)
    return img

def ExtractSubtitle(file, area, color, float, count_thresh, diff_thresh, delay):
    folder = os.path.splitext(file)[0]
    os.makedirs(folder, exist_ok=True)

    img1 = None
    diff = 0
    for id, img in enumerate(VideoIter(file, 0, -1, 1), 1):
        img2 = ProcessImage(img, area, color, float)
        count = cv2.countNonZero(img2)
        if img1 is not None:
            diff = cv2.countNonZero(img1 ^ img2)
        img1 = img2
        if count > count_thresh and diff > diff_thresh:
            imshow(img2, delay=delay, title=f'count={count}, diff={diff}')
            save_path = f'{folder}/img_{id:06}@count={count}@diff={diff}.jpg'
            imwrite(save_path, img)

if __name__ == '__main__':
    video_path = '三体.S01E01.HD1080P.mp4'

    area_xyxy = (564, 722, 1328, 784)
    subtitle_rgb = (250, 250, 250)
    floating_range = 10

    count_thresh = 1000
    diff_thresh = 400
    delay = 1

    ExtractSubtitle(video_path, area_xyxy, subtitle_rgb, floating_range, count_thresh, diff_thresh, delay)

函数运行前有若干参数需要确定,首先是字幕出现的位置字幕的颜色

截取若干典型的视频中包含字幕的图像,然后通过图画板确定字幕出现的位置,用取色器获得字幕的RGB值。

读取字幕位置坐标:

用Python+OpenCV截取视频中所有含有字幕的画面,Python,python,opencv,音视频

字幕颜色取色:

用Python+OpenCV截取视频中所有含有字幕的画面,Python,python,opencv,音视频

另外两个需要设定的参数,是判断图像中存在字幕的阈值、和字幕发生变化的阈值。很显然,这两个数值都应大于0。

其中,存在字幕的阈值设置得越低,则会有越多的本不包含字幕,但是由于背景色中存在和字幕相同颜色而被误判断成为含有字幕的图片。

发生变化的阈值设置得越低,则会有越多的相同的字幕画面由于图片压缩或背景差异,有少量像素存在区别,被误判断成字幕已经发生变化,导致截取出多余的字幕画面图像

在具体调试时,可以先将这两个参数设定为0,然后运行程序。在弹出的可视化窗口中,在标题中可以看到我设置的这两个参数的计算数值。

结合实际裁取出的图像,我们可以适当地设计这两个门限参数的数值,通过调整参数并观察提取结果,以获得较好的字幕图像截取效果。

4、运行效果

测试运行60分钟的网飞《三体》第一集,一共提取出了600张截图,有比较良好的漏检率和误检率。如果按照1秒钟看5张图的话,2分钟就可以看完60分钟的第一集。

程序运行结果:

用Python+OpenCV截取视频中所有含有字幕的画面,Python,python,opencv,音视频

拼合字幕图片:

import glob
import cv2
import numpy as np

imread = lambda file: cv2.imdecode(np.fromfile(file, np.uint8), -1)
imwrite = lambda file, img: cv2.imencode('.jpg', img)[1].tofile(file)

def MergeSubtitles(folder, h1, h2):
    imgs = []
    for path in glob.glob(f'{folder}/*.jpg'):
        img = imread(path)
        imgs.append(img[h1:h2])
    final_image = cv2.vconcat(imgs)
    imwrite(f'{folder}.jpg', final_image)

if __name__ == '__main__':
    MergeSubtitles('三体.S01E01.HD1080P', 722, 784)

最终图片效果:

用Python+OpenCV截取视频中所有含有字幕的画面,Python,python,opencv,音视频文章来源地址https://www.toymoban.com/news/detail-846249.html

到了这里,关于用Python+OpenCV截取视频中所有含有字幕的画面的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Js使用ffmpeg进行视频剪辑和画面截取

    使用场景是需要在web端进行视频的裁剪,包括使用 在线视频url 或 本地视频文件 的裁剪,以及对视频内容的截取等功能。 前端进行视频操作可能会导致性能下降,最好通过后端使用java,c++进行处理,本文的案例是备选方案。 注意: 以下所有的使用案例均基于vue3 setup。 同时

    2024年02月07日
    浏览(37)
  • canvas截取多个视频的第一帧,第n秒画面

    业务涉及视频预览,不点击视频则不播放而是先展示视频的画面给到用户 “因为本人特别喜欢梅艳芳,所以也留存了很多她的视频,这里就以她的视频做测试了” 截取多个视频的第一帧,使用:Promise+loadeddata事件+canvas Promise来帮助我们顺序地拿到多个视频的第一帧画面 loa

    2023年04月08日
    浏览(43)
  • Python视频处理(3)——提取视频字幕

    目录 一、安装tesseract-ocr 1、下载安装 2、设置环境变量: ​ ​ 3、测试安装是否成功  二、视频字幕识提取

    2023年04月12日
    浏览(37)
  • python给视频增加字幕

    python给视频增加字幕 安装所需库 在开始之前,我们需要安装一些Python库。主要使用到的库如下: moviepy:用于处理视频和音频的库。 pydub:用于处理音频的库。 speech_recognition:用于语音识别的库。 首先,我们需要使用pip来安装这些库。打开命令行窗口并运行以下命令: pi

    2024年02月02日
    浏览(77)
  • python 视频硬字幕去除 内嵌字幕去除工具 vsr

    开源地址:https://github.com/YaoFANGUK/video-subtitle-remover Video-subtitle-remover (VSR) 是一款基于AI技术,将视频中的硬字幕去除的软件。 主要实现了以下功能: 无损分辨率 将视频中的硬字幕去除,生成去除字幕后的文件 通过超强AI算法模型,对去除字幕文本的区域进行填充(非相邻像

    2024年02月05日
    浏览(34)
  • python实战之去除视频水印&字幕

    获取资源链接:https://null119.lanzoul.com/b050jscbg         结果如下图所示:         python软件在官网下载即可,这里我们仅对如何批量安装包进行介绍,如下所示         注意:要求文件的分辨率一致,水印位置相同,否则无法进行批量操作。         打开命令行,

    2024年02月07日
    浏览(48)
  • 利用python对视频字幕进行识别

    大家运行程序注意一下几点: 1.更改视频地址,选择你需要进行字幕识别的视频地址 2.对所截取的视频字幕图片进行二值化,其中阈值可以自己更改 3.相邻图片的相似值的阈值可以进行更改。  总体来说,识别还是有一些问题的,大家将这个代码跑完之后就会发现问题所在,

    2023年04月20日
    浏览(45)
  • Python实现视频字幕时间轴格式转换

    自己喜欢收藏电影,有时网上能找到的中文字幕文件都不满足自己电影版本。在自己下载的压制版电影中已内封非中文srt字幕时,可以选择自己将srt的时间轴转为ass并替换ass中的时间轴。自己在频繁 复制粘贴改格式的时候想起可以用Python代码完成转换这一操作,借助ChatGPT并

    2024年01月23日
    浏览(39)
  • Python - 利用 OCR 技术提取视频台词、字幕

    目录 一.引言 二.视频处理 1.视频样式 2.视频截取 ◆ 裁切降帧 ◆ 处理效果 3.视频分段 三.OCR 处理 1.视频帧处理 2.文本识别结果 3.后续工作与优化 ◆ 识别去重 ◆ 多线程提效 ◆ 片头片尾优化 四.总结 视频经常会配套对应的台词或者字幕,通过文本与字幕可以更好地理解视频

    2024年02月03日
    浏览(68)
  • Python 结合opencv实现图片截取和拼接

    python 3.6.2 scikit-build-0.16.7 win10 opencv_python-4.5.4.60-cp36-cp36m-win_amd64.whl 下载地址: https://pypi.org/project/opencv-python/4.5.4.60/#files https://files.pythonhosted.org/packages/57/6c/7f4f56b2555d5c25dd4f41fc72a16dc6402cb2b4f967da11d8d26c669b55/opencv_python-4.5.4.60-cp36-cp36m-win_amd64.whl 注意:下载时不用下abi版的,比如 o

    2024年02月08日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包