基于whisper模型的在线添加视频字幕网站(持续更新)

这篇具有很好参考价值的文章主要介绍了基于whisper模型的在线添加视频字幕网站(持续更新)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.什么是whisper

Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。
本文主要拿该模型做一个音频识别的任务,将视频中的音频转化为文字。

2.项目介绍

主要实现了一个基于Whisper的视频字幕生成工具,具体来说,采用Flask轻量级WEB应用框架实现一个以python为后端,以html为前端的WEB项目,功能比较简单,即为为无字幕的视频添加字幕(仅支持中文、英文、中英文混杂)
网站如图:
whisper网站,音视频,python,开发语言,docker,flask
操作起来比较简单,点击上传文件按钮上传本地视频文件(mp4或者avi),然后点击提交文件按钮,后端就开始处理。(暂时还未实现前端可视化处理过程)
实现效果:
中文:
whisper网站,音视频,python,开发语言,docker,flask
英文:
whisper网站,音视频,python,开发语言,docker,flask
中英文混杂:
whisper网站,音视频,python,开发语言,docker,flask
这样看效果还可以吧。

3.项目安装

安装项目所需要的python环境

首先python版本必须要3.9以上,否则会报错,其余python的依赖包在项目中的requirements.txt中都有涉及,直接在python3.9的环境下执行:

pip install git+https://github.com/openai/whisper.git 
pip install -r requirements.txt

安装imagemagick

  • windows
    https://www.imagemagick.org/script/download.php#windows
    安装时选择Install development headers and libraries for C and C++。
    安装好之后打开python虚拟环境的moviepy模块下的config_defaults.py文件,修改其中的IMAGEMAGICK_BINARY为imagemagick安装文件夹处的magick.exe地址,如:

IMAGEMAGICK_BINARY = r"D:\python_study_tools\ImageMagick-7.0.9-Q16\magick.exe"

若忘记了安装位置,使用everything来找到相应的位置,其中moviepy一定要是你的虚拟环境的moviepy。

  • ubuntu
    使用指令安装:
apt-get install imagemagick

若报错,更新一下:

apt-get update

然后输入指令:

vim /etc/ImageMagick-6/policy.xml

<policy domain="path" rights="none" pattern="@*" />

改成

<!-- <policy domain="path" rights="none" pattern="@*" /> -->

保存退出即可

修改addSubtitles.py中的font格式

在line68

txt = (TextClip(sentences, fontsize=32,
                font='SimHei', size=(w-20, 40),
                align='center', color='white')
       .set_position((10, h - 80))
       .set_duration(span)
       .set_start(start))

其中的font,该代码在windows正常能执行,没问题。
在ubuntu下报错,因为ubuntu下缺少很多中文类的字节编码,如果这个地方不改,最后出来的视频字幕全是乱码和问号,解决方法:

apt-get install ttf-mscorefonts-installer
apt-get install fontconfig
cd /usr/share/fonts

然后从你的windows中选一个中文字体格式放在这个文件夹下
windows字体文件所在处:C:\Windows\Fonts
然后执行指令:

mkfontscale
mkfontdir
fc-cache -fv

最后将上面addSubtitles.py中的font改成字体的路径就行了。

4.运行项目

在windows或者ubuntu下,打开项目文件,执行app.py文件就行了。在windows上,直接点击那个链接即可;
在服务器上,需要在main函数的app.run()里定义地址与端口,ip地址设为’0.0.0.0’,
在宿主机上运行,需要在浏览器中输入公网ip(关掉梯子)才能访问,自动生成的链接是私网。
若在服务器的docker中运行,在创建docker的时候就要设置好端口映射,若为租的网络服务器,还要去看你的网络服务器开放了哪些tcp端口,随意设置端口还是无法访问。

5.目前存在的问题

  • 项目在服务器运行,总是运行一段时间后,该进程会被自动kill,因此通过那个ip地址访问并上传文件后,点击提交文件会报错
  • 这个项目并没有实现多线程并发,因此同时有多个用户访问的时候,后端一定会无法得到正确的文件名而报错
  • 租的华为云的服务器是最小规格的一核服务器,处理速度很慢,承载力很差,很容易崩溃
  • whisper模型还有很多其他的功能,比如直接语音识别、识别视频中的音频并生成文本文件、语音翻译等功能,网站的功能量还可以继续拓展
  • 前端的下载功能存在缺陷,对于不同的文件下载没有设置不同的链接
  • 字幕和视频合成完全依靠CPU,因此如果视频时长比较长,要跑很久的时候,有时候还没跑完网页就崩溃了,因此不仅是后端的处理和前端的设计都有优化的地方

github项目地址:https://github.com/jiangduwang/addSubtitles.git
网页地址:http://124.70.200.133/
这个网页不保证正在运行,就算运行了也很有可能提交文件的时候出错。

为什么说是持续更新呢,因为完成了眼前的课程任务,我会继续解决这些问题。

2024.1.3更新
目前忙于毕业小论文和找工作,预计在25年这个时间开始更新工作。文章来源地址https://www.toymoban.com/news/detail-779568.html

到了这里,关于基于whisper模型的在线添加视频字幕网站(持续更新)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于whisper的语音转文字(视频字幕)

    由于之前在学习油管的视频的时候,发现没有字幕,自己的口语听力又不太好,所以,打算开发一个能够语音或者视频里面,提取出字幕的软件。 在寻找了很多的开源仓库,发现了openai早期发布的whisper 原仓库链接如下 openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervis

    2024年02月08日
    浏览(50)
  • 基于whisper和whisperx的语音视频和字幕对齐

    创建py310虚拟环境,需要安装Anaconda的Python环境。 Python初学者在不同系统上安装Python的保姆级指引 Win10+Python3.9+GPU版pytorch环境搭建最简流程 Python虚拟环境的安装和使用 还需要提前安装FFmpeg用于音频操作,并添加到环境变量中。 创建一个名称为 whisper 的虚拟环境。 激活虚拟环

    2024年02月16日
    浏览(39)
  • 基于Whisper语音识别的实时视频字幕生成 (一): 流式显示视频帧和音频帧

    Whistream(微流)是基于Whisper语音识别的的在线字幕生成工具,支持rtsp/rtmp/mp4等视频流在线语音识别 whishow(微秀)是python实现的在线音视频流播放器,支持rtsp/rtmp/mp4等流式输入,也是whistream的前端。python实现原理如下: (1) SPROCESS.run() 的三个子线程负责:缓存流数据,处理音

    2024年04月13日
    浏览(42)
  • 基于ffmpeg给视频添加时间字幕

    FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序,我们可以基于ffmpeg对视频进行各种操作。本文主要介绍基于ffmpeg给视频添加字幕,字幕的内容为视频所播放的时间(故需要安装ffmpeg,具体可以参考链接中的1.1进行安装配置)。所涉及到

    2024年02月07日
    浏览(32)
  • 【开源工具】使用Whisper提取视频、语音的字幕

    运行 WhisperDesktop.exe , 启动后加载模型“load model,please wait…”,等待其将模型加载到内存。 2.1 下载模型 刚开始是没有模型的,需要到Hugging Face 2 的仓库里面下载模型并配置相关路径 2.1.1 进入Hugging Face 2 的仓库 点击 ggerganov/whisper.cpp 进入Hugging Face仓库 2.1.2 选择需要下载的模型

    2024年02月09日
    浏览(32)
  • 不到百行代码,使用Whisper进行视频字幕生成。

      最近在学习视频剪辑的时候,希望找一款软件进行翻译;发现大多数是调用某云的Api进行翻译。通过查询资料,打算使用Whisper进行本地视频语音的识别,然后进行字幕文件的编辑(srt),最后通过ffmpeg添加到视频中。   Whisper 是 OpenAI 构建的通用语音识别模型。它于 2

    2024年03月19日
    浏览(39)
  • 音频提取字幕开源模型-whisper

    Whisper 是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 地址:openai/whisper whisper-webui OpenAI 的 Whisper AI 模型的 HTML WebUI,可以转录和翻译音频。用户界面支持转录音频文件、麦克

    2024年02月10日
    浏览(34)
  • 【开源工具】使用Whisper将提取视频、语音的字幕

    运行 WhisperDesktop.exe , 启动后加载模型“load model,please wait…”,等待其将模型加载到内存。 2.1 下载模型 刚开始是没有模型的,需要到Hugging Face 2 的仓库里面下载模型并配置相关路径 2.1.1 进入Hugging Face 2 的仓库 点击 ggerganov/whisper.cpp 进入Hugging Face仓库 2.1.2 选择需要下载的模型

    2024年02月08日
    浏览(36)
  • whisper实践--基于whisper+pyqt5开发的语音识别翻译生成字幕工具

    大家新年快乐,事业生活蒸蒸日上,解封的第一个年,想必大家都回家过年,好好陪陪家人了吧,这篇文章也是我在老家码的,还记得上篇我带大家基本了解了whisper,相信大家对whisper是什么,怎么安装whisper,以及使用都有了一个认识,这次作为新年第一篇文章,我将介绍一

    2024年02月01日
    浏览(38)
  • github开源推荐,基于whisper的字幕生成和字幕翻译工具——再也没有看不懂的片啦

    GitHub - qinL-cdy/auto_ai_subtitle github上开源的一款字幕生成和字幕翻译的整合工具,可以根据视频中提取到的音频来转换成字幕,再根据需要将字幕进行翻译,基于whisper 1)安装ffmpeg 安装ffmpeg的教程比较多,就不详细介绍了,Windows上安装完成后记得添加环境变量,最后在cmd中输入

    2024年02月13日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包