faster-whisper-webui

这篇具有很好参考价值的文章主要介绍了faster-whisper-webui。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要

whisper开源之后,很多相关的衍生产品也开源了,比如faster-whisper,它是一个比whisper转录更快的技术实现,转录速度是whisper的4倍,并且占用的显存更少,占用显存是whisper的1/2。而我们这次要讲的是faster-whisper-webui是内置了VAD的支持,可以很精准的定位到每一句话的开始和结束,对于转录长音视频很有意义,可以防止转录长音视频出现幻听的情况。

1、安装faster-whisper-webui

1.1、faster-whisper-webui简介

faster-whisper-webui顾名思义是faster-whisper的web网页版本,当然它不单有网页版本,也可以通过像whisper的命令行方式启动,最关键的是项目内部已经整合了VAD(VAD是一种音频活动检测的算法,简单来说可以准确的把音频中的每一句话分离开来,这很好的解决了whisper在转录长音频时出现幻听的问题),如果想要了解VAD算法可以点击这里。在faster-whisper-webui中还提供了API接口的方式,我们可以通过任何编程语言调用faster-whisper-webui提供的接口。

该项目原始地址是aadnk/whisper-webui。

2、克隆源码

git clone https://github.com/ycyy/faster-whisper-webui.git

3、安装依赖

pip install -r requirements.txt

这里推荐的使用python版本是3.8~3.11,如果你使用的python版本过低或太高,安装以些依赖会发生错误。具体如何升级python版本,大家可以去我的博客中阅读,这里我也给了链接。

4、下载模型

先要在项目路径下创建models目录。

mkdir models
cd models

模型里的目录结构如下所示:

├─faster-whisper
│  ├─base
│  ├─large
│  ├─large-v2
│  ├─medium
│  ├─small
│  └─tiny
└─silero-vad
    ├─examples
    │  ├─cpp
    │  ├─microphone_and_webRTC_integration
    │  └─pyaudio-streaming
    ├─files
    └─__pycache__

4.1、下载faster-whisper模型

faster-whisper-webui的项目是基于faster-whisper的,所以我们需要去下载faster-whisper模型,点击这里跳转到模型下载处。

这里我以下载large-v2模型为例。

apt install git-lfs
git lfs install
git clone https://huggingface.co/guillaumekln/faster-whisper-large-v2

4.2、下载silero-vad依赖

git clone https://github.com/snakers4/silero-vad.git

5、运行

5.1、命令行方式运行

python cli.py --model large --vad silero-vad --language Chinese audio.mp3

--model:指定使用的模型,可选的模型有:tiny、base、small、medium、large、large-v2

--vad:指定使用的vad类型,常见的vad类型有:silero-vad、silero-vad-skip-gaps、silero-vad-expand-into-gaps、periodic-vad

--language:指定音频中使用的语言

我们还可以指定其它的参数,例如:

python cli.py \
[--vad {none,silero-vad,silero-vad-skip-gaps,silero-vad-expand-into-gaps,periodic-vad}] \
[--vad_merge_window VAD_MERGE_WINDOW] \
[--vad_max_merge_size VAD_MAX_MERGE_SIZE] \
[--vad_padding VAD_PADDING] \
[--vad_prompt_window VAD_PROMPT_WINDOW]
[--vad_cpu_cores NUMBER_OF_CORES]
[--vad_parallel_devices COMMA_DELIMITED_DEVICES]
[--auto_parallel BOOLEAN]

如果你有多张显卡,那么你可以使用--vad_parallel_devices来指定,例如:指定使用两张显卡--vad_parallel_devices 0,1

你也可以使用这个参数--auto_parallel True会自动根据你有多少张显卡,CPU是多少核心的来自动分配(最多支持8个)。

python cli.py --model large --vad silero-vad --language Chinese --auto_parallel True audio.mp3

5.2、网页方式运行

python app.py --input_audio_max_duration -1 --server_name 127.0.0.1 --auto_parallel True

转录之后的结果有三种格式:SRT/VTT/Transcript。

5.3、切换实现方式

有两种实现可以切换,一种是whisper,还有一种是faster-whisper。这里推荐使用faster-whisper,因为速度更快,faster-whisper速度是whisper的4倍,并且占用显存要比whisper少2倍。

如果我们想要用faster-whisper,那么我们需要执行下面的命令来安装faster-whisper依赖。

pip install -r requirements-fasterWhisper.txt

如果我们想要使用whisper,那么我们需要执行下面的命令来安装whisper依赖。

pip install -r requirements-whisper.txt

我们如何切换呢?很简单添加参数即可。

python app.py --whisper_implementation faster-whisper --input_audio_max_duration -1 --server_name 127.0.0.1 --auto_parallel True

当然如果我们嫌弃这种方式太麻烦了,每次启动都要写这么多参数。那么你可以在配置文件中写。找到配置文件config.json5,然后添加你要使用的实现方式即可。

{
    "whisper_implementation": "faster-whisper"
}

6、在Google Colab中运行

具体可以参考这篇文章。

7、参考文献

[1] faster-whisper-webui文档

[2] 更换pip源

[3] CentOS安装Whisper

[4] VAD算法详解文章来源地址https://www.toymoban.com/news/detail-508984.html

到了这里,关于faster-whisper-webui的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)

    Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的 Whisper 模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等,从而减少了计算量和内存消耗,提高了推理速度,与此同时,Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等

    2024年02月06日
    浏览(67)
  • 目标检测——Faster RCNN

    Faster RCNN是由 R-CNN、Fast R-CNN 改进而来,是非常经典的目标检测的两阶段网络。 此篇博客是我通过学习以下优秀博客归纳整理而得: 一文读懂Faster RCNN - 知乎 Faster R-CNN详解和网络模型搭建 - 知乎 Faster R-CNN:详解目标检测的实现过程 - 郭耀华 - 博客园 yolov5与Faster-RCNN 训练过程

    2024年02月06日
    浏览(50)
  • Faster R-CNN

    目录 1. Fast R-CNN的不足 2. Faster R-CNN 3. RPN(Region Proposal Network) 3.1 anchor 3.2 RPN 网络 3.3 RPN 网络的损失 4. Faster R-CNN 损失 5. Faster R-CNN 训练 6. 对比 Fast R-CNN 的算法流程 Fast R-CNN网络运行速度慢的最主要原因,SS生成候选框的效率较低 所以Faster R-CNN主要对生成候选框进行了优化 Faste

    2023年04月13日
    浏览(32)
  • Faster-git/lecture 01

    1.1.1 什么是版本控制系统? 版本系统能够帮助我们记录代码的变化,并且可以直接恢复到某个版本的代码,不需要一直操作ctrl+z,我们可以比较文件的变化细节,查出最后是谁修改了哪个地方,从而找出导致怪异问题出现的原因,又是谁在何时报告了某个功能缺陷等等。 1

    2024年01月23日
    浏览(51)
  • Faster RCNN在pycharm中运行

    参考B站up主:霹雳吧啦Wz git clone https://github.com/WZMIAOMIAO/deep-learning-for-image-processing 首先找到faster_rcnn ├── backbone: 特征提取网络,可以根据自己的要求选择 ├── network_files: Faster R-CNN网络(包括Fast R-CNN以及RPN等模块) ├── train_utils: 训练验证相关模块(包括cocotools) ├

    2024年02月03日
    浏览(38)
  • Faster RCNN模型如何自定义损失函数

    /lib/model/faster_rcnn/faster_rcnn.py /lib/model/faster_rcnn/resnet.py 与1.2同理 1.4.1 模型代码:/lib/model/faster_rcnn/faster_rcnn.py,/lib/model/faster_rcnn/resnet.py,/lib/model/faster_rcnn/vgg16.py 1.4.2 训练代码:trainval_net.py 1.4.3 测试代码:test_net.py 1.4.4 运行参数代码:libmodelutilsparser_func.py 修改/lib/model/fa

    2023年04月17日
    浏览(31)
  • 目标检测算法:Faster-RCNN论文解读

    前言 ​ 其实网上已经有很多很好的解读各种论文的文章了,但是我决定自己也写一写,当然,我的主要目的就是帮助自己梳理、深入理解论文,因为写文章,你必须把你所写的东西表达清楚而正确,我认为这是一种很好的锻炼,当然如果可以帮助到网友,也是很开心的事情

    2024年02月08日
    浏览(37)
  • [论文阅读]YOLO9000:Better,Faster,Stronger

    我们引入了YOLO9000,一个可以检测超过9000种类别的先进的实时目标检测系统。首先我们提出了多种yolo检测方法的提升方式,既新颖又参考了 之前的工作。改进后的模型,YOLOV2在标准检测任务例如PASCAL VO 和COCO 上都取得了领先。使用一个新颖的多尺度的训练方法,同一个YOLO

    2024年02月02日
    浏览(51)
  • 基于Faster rcnn pytorch的遥感图像检测

    代码:https://github.com/jwyang/faster-rcnn.pytorch/tree/pytorch-1.0 使用RSOD遥感数据集,VOC的数据格式如下: RSOD是一个开放的目标检测数据集,用于遥感图像中的目标检测。数据集包含飞机,油箱,运动场和立交桥,以PASCAL VOC数据集的格式进行标注。 数据集包括4个文件夹,每个文件夹

    2024年02月06日
    浏览(33)
  • docker(一):Develop faster. Run anywhere.

    在进行微服务部署时,首先需要进行部署环境的搭建。目前,Docker 已经成为了微服务部署的主流解决方案之一。Docker 可以帮助我们更快地打包、测试以及部署应用程序,从而缩短从编写到部署运行代码的周期。 在本文中,我们将对 Docker 进行初步的讲解,并介绍如何将映像

    2024年02月03日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包