学习实践-Whisper语音识别模型实战(部署+运行)

这篇具有很好参考价值的文章主要介绍了学习实践-Whisper语音识别模型实战(部署+运行)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、Whisper内容简单介绍

OpenAI的语音识别模型Whisper,Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。Open AI 强调 Whisper 的语音识别能力已达到人类水准。

学习实践-Whisper语音识别模型实战(部署+运行)
左:输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图,然后传递到编码器。

右:解码器经过训练以预测相应的文字说明,并与特殊的标记进行混合,这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。

2、Whisper模型实战

Whisper模型GitHub代码地址
部署步骤如下:(注意使用的是Windows系统)

# 新建chatglm环境
conda create -n whisper python==3.8
# 激活chatglm环境
conda activate chatglm
# 安装PyTorch环境
pip --trusted-host pypi.tuna.tsinghua.edu.cn install torch==1.10.1+cu102 torchvision==0.11.2+cu102 torchaudio==0.10.1 -f https://download.pytorch.org/whl/torch_stable.html
# 一键安装依赖包
pip install -U openai-whisper
#执行tiny demo
whisper D:/11.mp4 --model tiny  --language Chinese

model tiny运行结果
学习实践-Whisper语音识别模型实战(部署+运行)
model base运行结果
学习实践-Whisper语音识别模型实战(部署+运行)
可以看出base model识别效果还是挺不错的,但由于追求速度,某些音相近的会被识别错误。
例如:
应供–因公
乘凯–陈凯
试验–誓言
逛该意目–灌溉亿亩文章来源地址https://www.toymoban.com/news/detail-460246.html

到了这里,关于学习实践-Whisper语音识别模型实战(部署+运行)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • whisper实践--基于whisper+pyqt5开发的语音识别翻译生成字幕工具

    大家新年快乐,事业生活蒸蒸日上,解封的第一个年,想必大家都回家过年,好好陪陪家人了吧,这篇文章也是我在老家码的,还记得上篇我带大家基本了解了whisper,相信大家对whisper是什么,怎么安装whisper,以及使用都有了一个认识,这次作为新年第一篇文章,我将介绍一

    2024年02月01日
    浏览(44)
  • Whisper 语音识别模型

    Whisper 语音识别模型 Whisper 是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 开源项目地址:https://github.com/openai/whisper Whisper 语音识别模型 Transformer 序列到序列模型针对各种语音

    2024年02月16日
    浏览(34)
  • Whisper JAX 语音识别本地部署

    https://nlpcloud.com/zh/how-to-install-and-deploy-whisper-the-best-open-source-alternative-to-google-speech-to-text.html whisper-jax最详细的安装教程 | 一个号称比whisper快70倍的语音识别项目 | 免费开源的语音识别项目 whisperX 语音识别本地部署_JoeManba的博客-CSDN博客 GitHub - sanchit-gandhi/whisper-jax: JAX implement

    2024年02月08日
    浏览(37)
  • OpenAI Whisper 语音识别 API 模型使用 | python 语音识别

    OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外,又推出了一个 Whisper 的语音识别模型。支持96种语言。 Python 安装 openai 库后,把需要翻译的音频目录放进去,运行程序即可生成音频对应的文字。 以上。

    2024年02月16日
    浏览(60)
  • Whisper OpenAI开源语音识别模型

    Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除

    2024年02月16日
    浏览(55)
  • 语音识别模型whisper的参数说明

    一、whisper简介: Whisper是一种通用的语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 二、whisper的参数 1、-h, --help 查看whisper的参数 2、--model {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1

    2024年02月12日
    浏览(38)
  • 本地部署_语音识别工具_Whisper

    1 简介 Whisper 是 OpenAI 的语音识别系统(几乎是最先进),它是免费的开源模型,可供本地部署。 2 docker https://hub.docker.com/r/onerahmet/openai-whisper-asr-webservice 3 github https://github.com/ahmetoner/whisper-asr-webservice 4 运行 image 大小:11.5G 运行后,即可在9000端口通过swagger调用,我先用手机录

    2024年02月05日
    浏览(40)
  • whisper语音识别部署及WER评价

    1.whisper部署 详细过程可以参照:🏠 创建项目文件夹 conda创建虚拟环境 安装pytorch 下载whisper 安装相关包 测试一下whispet是否安装成功(默认识别为中文) whisper识别中文的时候经常会输出繁体,加入一下参数可以避免: 2.脚本批量测试 创建test.sh脚本,输入一下内容,可以实

    2024年02月10日
    浏览(47)
  • 微调Whisper语音识别模型和加速推理

    OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目

    2024年02月07日
    浏览(44)
  • OpenAI-whisper语音识别模型

    Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求

    2024年02月09日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包