可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper

这篇具有很好参考价值的文章主要介绍了可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文来自我个人的博客。

1、前提条件

服务器为GPU服务器。点击这里跳转到我使用的GPU服务器。我搭建 whisper 选用的是 NVIDIA A 100显卡,4GB显存。

Python版本要在3.8~3.11之间。

输入下面命令查看使用的Python版本。

python3 -V

2、安装Anaconda

为啥要安装Anaconda?

为了减少不同项目使用的库的版本冲突,我们可以使用Anaconda来创建虚拟Python环境。

下载Anaconda安装脚本

找到对应自己系统的安装器。

下载完成之后我们可以直接运行脚本。

bash 脚本.sh

也可以使用下面的方式运行脚本。

chmod +x 脚本.sh
./脚本.sh

安装完成之后需要重新连接SSH。

验证是否安装成功,可以使用下面的命令。

conda -V

3、安装FFmpeg

apt install ffmpeg

输入ffmpeg回车之后可以看到提示信息,说明安装成功。

4、安装显卡驱动

先输入nvidia-smi查看显卡信息,如果有提示信息,说明已经安装过了显卡驱动。

如果没有安装过显卡驱动,那么这里提供两种安装方式。

4.1、方式一

ubuntu-drivers devices 查看可以安装的显卡驱动

apt install nvidia-driver-530 安装推荐的显卡驱动

nvidia-smi 查看显卡信息

可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper

4.2、方式二

NVIDIA官方驱动下载网站下载相对应的显卡驱动。

点击这里去下载。

具体可以参考这篇文章。

5、安装CUDA

下载CUDA

下载的CUDA版本一定要小于等于nvidia-smi中看到的CUDA版本,不能随意下载。

根据官方的命令安装。

编辑~/.bashrc,在最后添加下面命令。

export PATH=/usr/local/cuda-12.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.1/lib64

注意:需要把上面cuda-12.1改为你自己安装的CUDA的版本。

重新载入

source ~/.bashrc
sudo ldconfig

检查CUDA是否安装好。

nvcc -V

如果安装过程中没有任何报错,但是输入该命令之后,没有输出版本信息,那么是你的环境变量没有配置或者是没有正确配置。

6、安装cuDNN(可选)

需要主要要想下载cuDNN必须要注册NVIDIA账号,并且一定要勾选同意加入他们的社区,否则是不能下载的。并且这个下载之前是要认证的,所以你不能直接在服务上下载,否则下载的只是一个网页,我们需要在本地电脑上先下载,然后通过rz或者是scp命令上传到服务器中。

cuDNN下载

可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper

可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper

下载完成之后,解压到CUDA目录下。

tar -xvf 文件名
cd 文件夾
sudo cp include/* /usr/local/cuda-12.1/include
sudo cp lib/libcudnn* /usr/local/cuda-12.1/lib64
sudo chmod a+r /usr/local/cuda-12.1/include/cudnn*
sudo chmod a+r /usr/local/cuda-12.1/lib64/libcudnn*
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

7、安装PyTorch

点击这里下载PyTorch

注意:安装的版本一定要和你CUDA版本一致。

安装的时候直接复制官方给出的命令即可。

然后我们可以使用下面的命令来验证是否安装成功。

python
import torch
torch.__version__
torch.cuda.is_available()

其中最后一句是关键,只有返回Ture,才能让Whisper使用显卡进行转录,否则是使用CPU进行转录。如果最后一句返回的是False,那么可能是你安装的PyTorch版本中使用的CUDA版本和你服务器中已经安装的CUDA版本不一致。

8、安装Whisper

安装之前需要使用conda创建一个虚拟环境。

conda create -n whisper python=3.10

激活虚拟环境。

conda activate whisper

退出虚拟环境。

conda deactivate

查看虚拟环境。

conda env list

删除虚拟环境。

conda remove -n whisper --all

先激活虚拟环境,然后输入下面一条命令即可安装。

pip install -U openai-whisper

如果没有任何报错,然后我们输入下面的命令,当看到信息输出时,说明安装成功。

whisper -h

9、Whisper的使用

第一次使用的时候比较慢,需要下载模型,使用的模型越大,转录的速度越慢,转录的准确性越高,Whisper对西班牙语的识别准确性最高,其次时意大利语,然后才是英语,而对于普通话的识别排在中间。

这里简单写一下Whisper的用法。

whisper 你要转录的音视频文件 --model large --language Chinese

更多用法可以使用whisper -h查看。文章来源地址https://www.toymoban.com/news/detail-484459.html

到了这里,关于可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • .Net 使用OpenAI开源语音识别模型Whisper

    .Net 使用OpenAI开源语音识别模型 Whisper Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的 Whisper 神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的

    2024年02月08日
    浏览(38)
  • 开源语音识别faster-whisper部署教程

    源码地址 模型下载地址: 下载 cuBLAS and cuDNN 在 conda 环境中创建 python 运行环境 激活虚拟环境 安装 faster-whisper 依赖 执行完以上步骤后,我们可以写代码了 说明: 更多内容欢迎访问博客 对应视频内容欢迎访问视频

    2024年02月04日
    浏览(46)
  • OpenAI开源!!Whisper语音识别实战!!【环境配置+代码实现】

    目录 环境配置 代码实现 ******  实现 .mp4转换为 .wav文件,识别后进行匹配并输出出现的次数 ******  完整代码实现请私信 安装 ffmpeg 打开网址   https://github.com/BtbN/FFmpeg-Builds/releases 下载如下图所示的文件 下载后解压  我的路径是G:ffmpeg-master-latest-win64-gpl-shared

    2024年02月13日
    浏览(47)
  • whisper 语音识别项目部署

    1.安装anaconda软件 在如下网盘免费获取软件: 链接:https://pan.baidu.com/s/1zOZCQOeiDhx6ebHh5zNasA 提取码:hfnd 2.使用conda命令创建python3.8环境 3.进入whisper虚拟环境 4.安装cuda10.0的PyTorch环境 5.使用命令安装whisper库包 6.简单使用命令识别一段语音: 6.安装和配置ffmpeg软件 在如下网盘免费

    2024年02月11日
    浏览(32)
  • 开源C++智能语音识别库whisper.cpp开发使用入门

    whisper.cpp是一个C++编写的轻量级开源智能语音识别库,是基于openai的开源python智能语音模型whisper的移植版本,依赖项少,内存占用低,性能更优,方便作为依赖库集成的到应用程序中提供语音识别功能。 以下基于whisper.cpp的源码利用C++ api来开发实例demo演示读取本地音频文件

    2024年02月20日
    浏览(40)
  • chatGPT的耳朵!OpenAI的开源语音识别AI:Whisper !

    语音识别是通用人工智能的重要一环!可以说是AI的耳朵! 它可以让机器理解人类的语音,并将其转换为文本或其他形式的输出。 语音识别的应用场景非常广泛,比如智能助理、语音搜索、语音翻译、语音输入等等。 然而,语音识别也面临着很多挑战,比如不同的语言、口

    2024年03月14日
    浏览(42)
  • OpenAI开源语音识别模型Whisper在Windows系统的安装详细过程

    Python的安装很简单,点击这里进行下载。 安装完成之后,输入python -V可以看到版本信息,说明已经安装成功了。 如果输入python -V命令没有看到上面的这样的信息,要么是安装失败,要么是安装好之后没有自动配置环境变量,如何配置环境变量可以从网上搜索。 Python的具体安

    2024年02月08日
    浏览(41)
  • OpenAI开源全新解码器和语音识别模型Whisper-v3

    在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器Consistency Decoder(一致性解码器)和最新语音识别模型Whisper v3。 据悉,Consistency Decoder可以替代Stable Diffusion VAE解码器。该解码器可以改善所有与Stable Diffusion 1.0+ VAE兼容的图像,

    2024年02月05日
    浏览(42)
  • 超快的 AI 实时语音转文字,比 OpenAI 的 Whisper 快4倍 -- 开源项目 Faster Whisper

    faster-whisper 这个项目是基于 OpenAI whisper 的模型,在上面的一个重写。 使用的是 CTranslate2 的这样的一个库,CTranslate2 是用于 Transformer 模型的一个快速推理引擎。 在相同精度的情况下,faster-whisper 的速度比 OpenAI whisper 快 4 倍,并且使用更少的内存。 这是 faster-whisper 与 OpenAI

    2024年03月27日
    浏览(44)
  • 爬虫项目(10):白嫖抓第三方网站接口,基于Flask搭建搭建一个AI内容识别平台

    在数据驱动的时代,人工智能生成的内容变得越来越普遍。对于内容创作者和分析师来说,区分AI生成的内容与人类生成的内容变得尤为重要。在这篇文章中,我们将介绍一个项目,该项目使用 Flask 和 Requests 库来模拟对 writer.com 的 AI 内容检测功能的访问。 地址:https://nice

    2024年01月16日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包