whisper 强大且开源的语音转文字

这篇具有很好参考价值的文章主要介绍了whisper 强大且开源的语音转文字。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

说起来语音转换文字,openai旗下的whisper很是好用,推理也很快,同时支持cpu和GPU。

GitHub:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

相关的参数和内存使用如下:

Size Parameters English-only model Multilingual model Required VRAM Relative speed
tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large 1550 M N/A large ~10 GB 1x

CPU推理会慢一些,一般机器使用small模型即可,该模型内存占用不是很高

1.安装

a.直接通过pip安装 

pip install -U openai-whisper
pip install setuptools-rust

b.通过git仓库安装

pip install git+https://github.com/openai/whisper.git 

c.将安装包升级到仓库最新版

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

d.安装 ffmpeg,本次系统是centos8stream,可以通过下面命令安装

dnf install -y https://download1.rpmfusion.org/free/el/rpmfusion-free-release-8.noarch.rpm
dnf install -y install http://rpmfind.net/linux/epel/7/x86_64/Packages/s/SDL2-2.0.14-2.el7.x86_64.rpm
dnf install ffmpeg -y

其他系统可参考如下:

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# on Arch Linux
sudo pacman -S ffmpeg

# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg

# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg

# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg

2.使用

可以通过Python进行下面操作

import whisper

model = whisper.load_model("small") # 如果模型不存在,会自动下载,默认下载路径 "~/.cache/whisper"
result = model.transcribe("temp.wav") 
print(result["text"])

 whisper 强大且开源的语音转文字

 文章来源地址https://www.toymoban.com/news/detail-499448.html

到了这里,关于whisper 强大且开源的语音转文字的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • whisper 语音识别AI 声音To文字

    Whisper  是一个由 OpenAI 训练并开源的神经网络,功能是语音识别,能把 语音 转换为 文字 ,在英语语音识别方面的稳健性和准确性接近人类水平。 1、Whisper支持语音转录和翻译两项功能并接受各种语音格式,模型中、英、法、德、意、日等主流语言上取得85%以上的准确率,完全

    2024年02月08日
    浏览(65)
  • 使用openai-whisper实现语音转文字

    FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。 在官网上选择windows版本 在GitHub上可以选择最新版本,选择 ffmpeg-master-latest-win64-gpl.zip ; 如果python程序出现“

    2024年02月20日
    浏览(48)
  • 【openAI】Whisper如何高效语音转文字(详细教程)

    语音转文字在许多不同领域都有着广泛的应用。以下是一些例子: 1.字幕制作:语音转文字可以帮助视频制作者快速制作字幕,这在影视行业和网络视频领域非常重要。通过使用语音转文字工具,字幕制作者可以更快地生成字幕,从而缩短制作时间,节省人工成本,并提高制

    2024年02月09日
    浏览(44)
  • 无脑018——win11部署whisper,语音转文字

    安装pytorch 安装whisper 因为我的电脑是GTX 1060 显存只有6G 最大运行的模型是medium 所以去官网下载medium.pt模型 连接在这里: https://github.com/openai/whisper/blob/main/whisper/ init .py 然后自己录制一段mp3格式的音频放在如下文件夹中 G:desktopwhisper 打开conda窗口,进入该文件夹, 用command窗

    2024年02月04日
    浏览(33)
  • Buzz语音转文字安装使用(含Whisper模型下载)

    Transcribe and translate audio offline on your personal computer. Powered by OpenAI’s Whisper. 转录和翻译音频离线在您的个人计算机。由OpenAI的Whisper提供动力。 可以简单理解为QT的前端界面,python语言构建服务端,使用Whisper语言模型进行计算语音转文字的软件。 痛点在于离线,缺点也很明显,

    2024年02月05日
    浏览(37)
  • 记录第一个复现的实时whisper语音转文字demo

    使用的源码来自于github: GitHub - davabase/whisper_real_time: Real time transcription with OpenAI Whisper. 安装speech_recognition时需要安装依赖包PyAudio、pocketsphinx 还需要安装ffmpeg-python否则会报错 运行效果如下:  点击运行程序后出现model loaded 没有错误然后直接对着麦克风说话即可

    2024年02月15日
    浏览(40)
  • OpenAI又一神器!Whisper 语音转文字手把手教程

    语音转文字在许多不同领域都有着广泛的应用。以下是一些例子: 1.字幕制作:语音转文字可以帮助视频制作者快速制作字幕,这在影视行业和网络视频领域非常重要。通过使用语音转文字工具,字幕制作者可以更快地生成字幕,从而缩短制作时间,节省人工成本,并提高制

    2024年02月09日
    浏览(60)
  • 极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践

    业界良心OpenAI开源的Whisper模型是开源语音转文字领域的执牛耳者,白璧微瑕之处在于无法通过苹果M芯片优化转录效率,Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本,它具有无依赖项、内存使用量低等特点,重要的是增加了 Core ML 支持,完美适配苹果M系列芯片。 Whisper.cpp的张量

    2024年02月02日
    浏览(68)
  • 中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

    君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高

    2024年02月03日
    浏览(51)
  • OpenAI 开源语音识别 Whisper

            Whisper是一个通用语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。                人工智能公司 OpenAI 拥有 GTP-3 语言模型,并为 GitHub Copilot 提供技术支持的 ,宣布开源了

    2024年02月09日
    浏览(71)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包