Whisper实现语音识别转文本

这篇具有很好参考价值的文章主要介绍了Whisper实现语音识别转文本。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

#教程

主要参考开源免费离线语音识别神器whisper如何安装,
OpenAI开源模型Whisper——音频转文字

Whisper是一个开源的自动语音识别系统,它在网络上收集了680,000小时的多语种和多任务监督数据进行训练,使得它可以将多种语言的音频转文字。

Whisper的好处是开源免费、支持多语种(包括中文),有不同模型可供选择,最终的效果比市面上很多音频转文字的效果都要好

Whisper目前有5个模型,随着参数的变多,转文字的理解性和准确性会提高,但相应速度会变慢:

openwhisper 实现同步转义,whisper,语音识别,人工智能

这篇文章会介绍怎样安装和使用Whisper进行音频转文字。

系统环境

官方说他们使用的是Python 3.9.9 and PyTorch 1.10.1来训练和检验的程序,但预计兼容python 3.7以后的版本和pytorch近期更新版本。 大家在安装whisper的时候请尽量保证python版本与官方一致或更新版本,或者至少是3.7版本以后,这样可以避免一些版本不同导致的莫名奇妙的错误。 本文测试系统为windows1064位、python版本3.9.13和windows10 64位、python3.7.5版本.

安装步骤

它还需要一些依赖。比如ffmpeg、pytorch等。本文没涉及python的安装,默认读者是已经安装好python的,如果你不会安装python的话,建议去视频平台搜索安装教程,安装好后再来进行下面的步骤。

1、安装chocolatey

安装chocolatey是为了后面方便在Windows中安装ffmpeg

chocolatey安装
以管理员身份打开Powershell,运行:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

2、安装ffmpeg

安装好chocolatey后,以管理员身份打开Powershell,输入:

choco install ffmpeg

3.pytorch的安装

这里我们使用pip安装。

打开pytorch.org,下拉页面。

按照下图选择要安装的版本。我选择的是稳定版,windows系统,pip安装方式,python语言、cpu版本的软件。

openwhisper 实现同步转义,whisper,语音识别,人工智能

选择好后上图中框选的那行代码就是使用pip安装pytorch的命令。 在命令行界面运行

pip3 install torch torchvision torchaudio

安装pytorch,安装好后这一步也就完成了。

4.whisper的安装

以上步骤都完成后。 按照官方文档,先运行

pip install git+https://github.com/openai/whisper.git

然后再运行

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

完成whisper的安装。

whisper的简单使用

我们准备一段音频,使用whisper将其转换成文字。 以此音频为例:

  • https://wwvx.lanzoul.com/i2lvw0jrippa

音频所在文件夹中右键打开cmd窗口。 (如果是win10的话就在文件夹的空白处按住shift,然后鼠标右键单击,打开powershell窗口)

输入whisper audio.mp3,回车运行。在命令行窗口中显示的是转写结果,同时在当前文件夹下生成三个字幕文件。以下是三种格式的对比。

更换转写模型

以上whisper audio.mp3的命令形式是最简单的一种,它默认使用的是small模式的模型转写,我们还可以使用更高等级的模型来提高正确率。 比如

whisper audio.mp3 --model medium

medium模型耗费时间更长,但也更精准。一般而言,综合权衡速度与精准度,选择small也够用了,如果你对语言识别的精准度高可以使用medium,medium的精准度已经相当高了,如我文章开头所说,我用medium模式识别了我读的一段5min的音频,400多字。正确率基本百分百,只错了2个英文单词,还是因为我发音不准,尴尬。

当然还有其他的模型可供选择,可以在命令行运行whisper --help查看帮助。 有以下11种模式可供选择。

[--model {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large}]

结语

本文简单介绍了whisper的用途、在windows系统下安装部署whisper的方法以及whisper的简单用法。

关于whisper的使用部分仅介绍了命令行模式的使用方法,如果你会使用python,也可以使用以下代码来运行whisper。

import whisper
model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

了解更多请参考官方文档。

  • https://github.com/openai/whisper

或者如果你想要在网页上运行whisper,可以安装Whisper Webui。 可以参考:文章来源地址https://www.toymoban.com/news/detail-841460.html

  • https://www.bilibili.com/read/cv19254244

到了这里,关于Whisper实现语音识别转文本的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【小沐学Python】Python实现语音识别(Whisper)

    https://github.com/openai/whisper Whisper 是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支

    2024年02月04日
    浏览(190)
  • OpenAI开源!!Whisper语音识别实战!!【环境配置+代码实现】

    目录 环境配置 代码实现 ******  实现 .mp4转换为 .wav文件,识别后进行匹配并输出出现的次数 ******  完整代码实现请私信 安装 ffmpeg 打开网址   https://github.com/BtbN/FFmpeg-Builds/releases 下载如下图所示的文件 下载后解压  我的路径是G:ffmpeg-master-latest-win64-gpl-shared

    2024年02月13日
    浏览(54)
  • 免费的语音识别 API:简单实现语音转文本功能

    语音识别技术在现代信息处理和人机交互中扮演着重要角色。如果您正在寻找免费的语音识别 API,那么您来对地方了!本文将向您介绍一个简单的方法来实现语音转文本的功能,并提供相应的源代码供参考。 首先,您需要使用 Python 编程语言来实现这个功能。Python 提供了许

    2024年02月03日
    浏览(56)
  • 【Python实用API】语音转文本-whisper

    (1)起因 :最近在油管上下载视频,但是下载后发现两个问题,一是下载的视频无字幕;二是找了半天油管的字幕下载途径,结果发现下载的字幕的提取效果不太好。于是乎发现OpenAI发布的 字幕提取 开源库Whisper可解决我的问题,因此写此博文只是为了记录我学习的过程,

    2024年04月13日
    浏览(36)
  • 小程序中使用微信同声传译插件实现语音识别、语音合成、文本翻译功能----语音识别(一)

    官方文档链接:https://mp.weixin.qq.com/wxopen/plugindevdoc?appid=wx069ba97219f66d99token=370941954lang=zh_CN#- 要使用插件需要先在小程序管理后台的 设置-第三方设置-插件管理 中添加插件,目前该插件仅认证后的小程序。 提供语音的实时流式识别能力,通过获取全局唯一的语音识别管理器rec

    2024年01月19日
    浏览(149)
  • OpenAI Whisper 语音识别 API 模型使用 | python 语音识别

    OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外,又推出了一个 Whisper 的语音识别模型。支持96种语言。 Python 安装 openai 库后,把需要翻译的音频目录放进去,运行程序即可生成音频对应的文字。 以上。

    2024年02月16日
    浏览(59)
  • whisper 语音识别项目部署

    1.安装anaconda软件 在如下网盘免费获取软件: 链接:https://pan.baidu.com/s/1zOZCQOeiDhx6ebHh5zNasA 提取码:hfnd 2.使用conda命令创建python3.8环境 3.进入whisper虚拟环境 4.安装cuda10.0的PyTorch环境 5.使用命令安装whisper库包 6.简单使用命令识别一段语音: 6.安装和配置ffmpeg软件 在如下网盘免费

    2024年02月11日
    浏览(41)
  • 【语音识别】OpenAI whisper

    目录 1. 简单介绍 2. 代码调用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的开源自动语音识别神经网络 whisper 安装 Python 调用

    2024年02月13日
    浏览(53)
  • 语音识别 - ASR whisper

    目录 1. 简单介绍 2. 代码调用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的开源自动语音识别神经网络 whisper 安装 Python 调用

    2024年02月12日
    浏览(43)
  • Whisper 语音识别模型

    Whisper 语音识别模型 Whisper 是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 开源项目地址:https://github.com/openai/whisper Whisper 语音识别模型 Transformer 序列到序列模型针对各种语音

    2024年02月16日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包