Linux 中的机器学习:Whisper——自动语音识别系统

这篇具有很好参考价值的文章主要介绍了Linux 中的机器学习:Whisper——自动语音识别系统。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Whisper 是一种自动语音识别 (ASR) 系统,使用从网络收集的 680000 小时多语言和多任务数据进行训练,Whisper 由深度学习和神经网络提供支持,是一种基于 PyTorch 构建的自然语言处理系统,这是免费的开源软件。

安装Whisper

我们用 Ubuntu 22.04 LTS 测试了 Whisper,为避免污染您的系统,我们建议使用 Anaconda 或 Miniconda 安装 Whisper。

使用 wget 下载并安装 Anaconda。

$ wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh

下载中的截图:

Linux 中的机器学习:Whisper——自动语音识别系统,机器学习,linux,机器学习,whisper

运行shell脚本:

$ bash Anaconda3-2022.10-Linux-x86_64.sh

接受 Anaconda 的许可证,然后通过运行 conda init 来初始化 Anaconda3,要使更改生效,请关闭并重新打开当前的 shell。

创建一个 conda 环境,并激活它。

$ conda create --name whisper
$ conda activate whisper

现在我们准备好使用 pip 安装 Whisper,pip 是 Python 的包管理器。

$ pip install -U openai-whisper

这是运行该命令的输出。

Successfully built openai-whisper
Installing collected packages: tokenizers, huggingface-hub, transformers, openai-whisper
Successfully installed huggingface-hub-0.12.1 openai-whisper-20230124 tokenizers-0.13.2 transformers-4.26.1

运行whisper

whisper 是从命令行运行的,项目中没有花哨的图形用户界面。

该软件带有一系列不同大小的预训练模型,可用于检查 Whisper 的缩放属性:

  • tiny.en
  • tiny
  • base.en
  • base
  • small.en
  • small
  • medium.en
  • medium
  • large-v1
  • large-v2
  • large

我们可以使用在 MP3 文件(也支持 FLAC 和 WAV)上使用媒体模型试用该软件,第一次使用模型时,会下载该模型。

如果我们不指定带有标志的语言,–language软件会自动检测使用最多前 30 秒的语言。我们可以告诉软件语言,避免自动检测的开销,一共支持 100 多种语言。

我们想要使用媒体模型转录 audio.mp3 文件,我们会告诉软件这个文件是英语语言。

$ whisper audio.mp3 --model medium --language English

下图显示正在进行的转录。

Linux 中的机器学习:Whisper——自动语音识别系统,机器学习,linux,机器学习,whisper

我们验证此转录正在使用我们的 GPU。

Linux 中的机器学习:Whisper——自动语音识别系统,机器学习,linux,机器学习,whisper

你可以看到我们的 GPU 有 8GB 的VRAM,请注意,大型模型无法在此 GPU 上运行,因为它需要超过 8GB 的VRAM。

有大量可用的选项,比如$ whisper --help

总结

Whisper 还是蛮不错的,从我们的测试来看,转录的准确性非常接近人类水平的稳健性和准确性。

Whisper 没有图形界面,也不能录制音频。它只能获取现有的音频文件和输出文本文件,Whisper 已经积累了超过 25000 个 GitHub 星,还是非常受欢迎的。

代码仓库地址:https://github.com/openai/whisper

Linux 中的机器学习:Whisper——自动语音识别系统,机器学习,linux,机器学习,whisper文章来源地址https://www.toymoban.com/news/detail-727637.html

到了这里,关于Linux 中的机器学习:Whisper——自动语音识别系统的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI机器学习 | 基于librosa库和使用scikit-learn库中的分类器进行语音识别

    专栏集锦,大佬们可以收藏以备不时之需 Spring Cloud实战专栏:https://blog.csdn.net/superdangbo/category_9270827.html Python 实战专栏:https://blog.csdn.net/superdangbo/category_9271194.html Logback 详解专栏:https://blog.csdn.net/superdangbo/category_9271502.html tensorflow专栏:https://blog.csdn.net/superdangbo/category_869

    2024年02月05日
    浏览(29)
  • 如何一键生成字幕,如何快速处理生肉资源?借助whisper语音识别系统生成.srt字幕文件 手把手教学在Windows、CPU版本下whisper的安装与使用,快速上手!

    Whisper是Open AI开源的语音识别网络,支持98中语言,用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别,将无字幕的视频资源自动生成字母,极大方便了用户。同时,whisper可以在本地运行,充分保障了个人隐私。在识别方面也具有较准确的识别能力。 因此想通过本

    2024年02月02日
    浏览(30)
  • OpenAI Whisper 语音识别 API 模型使用 | python 语音识别

    OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外,又推出了一个 Whisper 的语音识别模型。支持96种语言。 Python 安装 openai 库后,把需要翻译的音频目录放进去,运行程序即可生成音频对应的文字。 以上。

    2024年02月16日
    浏览(36)
  • 智能语音机器人语音识别系统

    现有技术中实现一次性语音识别典型的流程时序,具体包括一下步骤: ■ MRCP Client发送INVITE消息给MRCP Server请求建立会话,携带MRCP Client侧的SDP; ■ MRCP Server回复200表示请求已经成功接受处理,携带MRCP Server侧的SDP; ■ MRCP Client随后发送ACK消息证实200消息已经收到,至此一个

    2024年02月14日
    浏览(35)
  • Whisper 语音识别模型

    Whisper 语音识别模型 Whisper 是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 开源项目地址:https://github.com/openai/whisper Whisper 语音识别模型 Transformer 序列到序列模型针对各种语音

    2024年02月16日
    浏览(23)
  • python语音识别whisper

    一、背景 最近想提取一些视频的字幕,语音文案,研究了一波 二、whisper语音识别 Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。 stable-ts在 OpenAI 的 Whisper 之上修改并添加

    2024年02月05日
    浏览(35)
  • 语音识别 - ASR whisper

    目录 1. 简单介绍 2. 代码调用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的开源自动语音识别神经网络 whisper 安装 Python 调用

    2024年02月12日
    浏览(28)
  • 【语音识别】OpenAI whisper

    目录 1. 简单介绍 2. 代码调用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的开源自动语音识别神经网络 whisper 安装 Python 调用

    2024年02月13日
    浏览(32)
  • 语音识别whisper

    Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性1。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务2。Whisper的架构是一个简单的端到端方法,采用了编码器-解码器

    2024年02月12日
    浏览(23)
  • 探索Whisper语音识别

    问题一:python多版本切换 背景:有了anaconda环境  还有一个c盘的不知道什么东西 我准备下载一个python3.9.9 去官网 然后安装,安装之前一定要把原来的python卸载干净。  3.9.9安装不上,我用3.10 切换的话,就是去环境变量里面改变位置  最后发现直接用anaconda也可以,python3.8也

    2024年02月09日
    浏览(76)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包