如何使用OpenAI的whisper

这篇具有很好参考价值的文章主要介绍了如何使用OpenAI的whisper。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、安装ffmpeg

yum localinstall --nogpgcheck https://download1.rpmfusion.org/free/el/rpmfusion-free-release-7.noarch.rpm
yum install ffmpeg ffmpeg-devel

二、安装torch等相关组件

conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
conda install pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 cudatoolkit=10.2 -c pytorch

三、安装Whisper

pip install git+https://github.com/openai/whisper.git

如果上述报错,就改为下面的方法:

pip install --upgrade pip
git clone git@github.com:openai/whisper.git
cd whisper/
pip install setuptools-rust
pip install -r requirements.txt
python setup.py develop

四、下载模型

import whisper
model = whisper.load_model("large")  # 此处会下载模型

模型的默认下载路径在:~/.cache/whisper/large-v2.pt
如果网速不佳,可以先在网速好的服务器上先下载好模型,再拷贝到本机

五、测试效果

从下面cpu的结果看,tiny模型的结果不忍直视,而large_model的耗时,也无法忍受。

模型名称 cpu执行时间 结果 gpu执行时间 占显存
large_model 15.5456秒 喂 王阳 能听到我说话吗 今天天气怎么样 超过16G 超16G
medium_model 9.1108秒 喂,王阳,想听到我说话吗?今天天气怎么样? 1.7336秒 10G
small_model 3.2420秒 喂,完了,那听到我说话吗?今天天气怎么样? 1.1716秒 3.3G
base_model 1.5984秒 喂 王雅能聽到我說話嗎今天天氣怎麼樣 0.3483秒 1.6G
tiny_model 1.0238秒 喂 玩呀那听到我说话吗今天听见怎么样 0.2637秒 1.3G

六、cpu与gpu解码的耗时对比

如何使用OpenAI的whisper文章来源地址https://www.toymoban.com/news/detail-482721.html

参考文献

  • https://www.assemblyai.com/blog/how-to-run-openais-whisper-speech-recognition-model/
  • https://github.com/AppleHolic/chatgpt-streamlit
  • https://github.com/openai/whisper
  • https://github.com/Joooohan/audio-recorder-streamlit

到了这里,关于如何使用OpenAI的whisper的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用openai-whisper实现语音转文字

    FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。 在官网上选择windows版本 在GitHub上可以选择最新版本,选择 ffmpeg-master-latest-win64-gpl.zip ; 如果python程序出现“

    2024年02月20日
    浏览(47)
  • .Net 使用OpenAI开源语音识别模型Whisper

    .Net 使用OpenAI开源语音识别模型 Whisper Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的 Whisper 神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的

    2024年02月08日
    浏览(51)
  • 可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper

    原文来自我个人的博客。 服务器为GPU服务器。点击这里跳转到我使用的GPU服务器。我搭建 whisper 选用的是 NVIDIA A 100显卡,4GB显存。 Python版本要在3.8~3.11之间。 输入下面命令查看使用的Python版本。 为啥要安装Anaconda? 为了减少不同项目使用的库的版本冲突,我们可以使用An

    2024年02月09日
    浏览(50)
  • OpenAI的人工智能语音识别模型Whisper详解及使用

            拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。         Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁

    2024年02月09日
    浏览(58)
  • OpenAI Whisper 语音识别 API 模型使用 | python 语音识别

    OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外,又推出了一个 Whisper 的语音识别模型。支持96种语言。 Python 安装 openai 库后,把需要翻译的音频目录放进去,运行程序即可生成音频对应的文字。 以上。

    2024年02月16日
    浏览(56)
  • 在 Python 中使用 OpenAI 的新 Whisper API 进行语音转文本

    您是否厌倦了手动转录数小时的录音?您想节省时间并提高工作效率吗?然后,您会很高兴听到 OpenAI 用于语音到文本转换的新 Whisper API!借助这项尖端的 AI 技术,您现在可以在 Python 程序中轻松地将音频文件转换为文本。让我们在下面探讨这是如何工作的! 创建一个新文件

    2024年02月09日
    浏览(44)
  • openai开源的whisper在huggingface中使用例子(语音转文字中文)

    openai开源的语音转文字支持多语言在huggingface中使用例子。 目前发现多语言模型large-v2支持中文是繁体,因此需要繁体转简体。 后续编写微调训练例子 GitHub地址: https://github.com/openai/whisper

    2024年02月11日
    浏览(45)
  • 如何一键生成字幕,如何快速处理生肉资源?借助whisper语音识别系统生成.srt字幕文件 手把手教学在Windows、CPU版本下whisper的安装与使用,快速上手!

    Whisper是Open AI开源的语音识别网络,支持98中语言,用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别,将无字幕的视频资源自动生成字母,极大方便了用户。同时,whisper可以在本地运行,充分保障了个人隐私。在识别方面也具有较准确的识别能力。 因此想通过本

    2024年02月02日
    浏览(48)
  • 利用 yum --downloadonly localinstall 下载安装rpm依赖包

    [root@docker ~]#  [root@docker ~]# yum install --downloadonly --downloaddir=/tmp/  docker-ce docker-ce-cli containerd.io Loaded plugins: ulninfo ol7_UEKR6                                                                                                                                     | 3.

    2024年02月04日
    浏览(35)
  • 关于ffmpeg如何下载、安装和使用

            最近在B站爬视频的时候,发现爬出来的文件分为音频和视频文件,于是查阅了几个小时的资料和视频教学,亲测用subprocess库和ffmpeg软件可以实现音视频同步拼接,下面直接上步骤。 一、下载 1.百度搜索ffmpeg官网,点进去 2.Download下载  3.下滑到 Get packages executa

    2024年02月16日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包