whisper技术部署及简单使用

这篇具有很好参考价值的文章主要介绍了whisper技术部署及简单使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

whisper是openai开源的语音转文字的技术,可以作为国内收费语音转文字相关软件的替代

安装ffmpeg(解压模式)

查看系统架构

dpkg --print-architecture

下载对应版本的ffmpeg

https://www.johnvansickle.com/ffmpeg/old-releases/

 # 解压
 xz -d ffmpeg-5.0.1-amd64-static.tar.xz 
 tar -xvf ffmpeg-5.0.1-amd64-static.tar	
 
 # 进入解压后的目录
 cd ffmpeg-5.0.1-amd64-static/
 # 查看版本
 ./ffmpeg
 ./ffprobe

配置ffmpeg命令全局可用,可以在bin目录加个链接。比如,分别执行如下命令,即可在:/usr/bin目录下创建ffmpegffprobe软链接。

cd /usr/bin
ln -s /root/whisper/ffmpeg-5.0.1-amd64-static/ffmpeg ffmpeg
ln -s /data/software/ffmpeg-git-20190424-amd64-static/ffprobe ffprobe

全局查看版本

ffmpeg
ffprobe

安装python(源码编译模式)

https://www.python.org/ftp/python/3.11.4/

卸载python

python3 -V
apt list --installed | grep python
apt-get remove python3.8.5
apt-get remove --auto-remove python3.8.5
apt-get purge python3.8.5
# 刷新包目录
apt update

安装python

# 上传压缩包
Python-3.11.4.tar.xz  
# 安装依赖
apt install build-essential gdb lcov libbz2-dev libffi-dev libgdbm-dev liblzma-dev libncurses5-dev libreadline6-dev libsqlite3-dev libssl-dev lzma lzma-dev tk-dev uuid-dev zlib1g-dev

# 进入解压后的目录
cd Python-3.11.4
./configure --prefix=/usr/local/python3 --enable-shared  --enable-optimizations 
# 编译
make 
# 构建测试
make test	
# 安装
make install
# 清除构建
make clean

cd /usr/local/bin
ln -s /usr/local/python3/bin/python3 /usr/bin/python3

查看python版本
python3 -V

安装pytorch

官网 https://pytorch.org/get-started/locally/

Linux查看显卡信息:
lspci | grep -i vga
00:02.0 VGA compatible controller: Cirrus Logic GD 5446
使用nvidia GPU可以:
lspci | grep -i nvidia

登陆官网下载对应版本torch,这里用cpu模式

pip3 install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cpu

安装whisper

不推荐
pip3 install -U  openai-whisper==20230314

推荐
pip3 install git+https://github.com/openai/whisper.git  

whisper命令行使用

cd /Users/aiksyuan/yxt/python-workspace/whisper/whisper-doc

whisper audio-cn.mp3 --model_dir  /root/whisper/models/whisper --language Chinese --model small -o ./ -f srt  --device cpu --fp16 False --initial_prompt "以下是普通话的句子。"

各个参数含义可以使用whisper --help查看

python调用whisper

基本案例

# 这个脚本可以直接输出音频转出的文字。
import whisper
model = whisper.load_model("base")
result = model.transcribe("I_Have_A_Dream_Speech.mp3",fp16="False")
print(result["text"])

进阶案例文章来源地址https://www.toymoban.com/news/detail-692592.html

import whisper
from whisper.utils import get_writer
import time

def test_whisper(model_type, file_path, target_path, file_name):
    T1 = time.time()
    model = whisper.load_model(
        model_type, 'cpu', '/Users/aiksyuan/.cache/whisper')
    result = model.transcribe(file_path, fp16=False, initial_prompt='以下是普通话的句子')
    T2 = time.time()
    print(model_type + "模式" + file_name + '解析所需时间:%s秒' % ((T2 - T1)))
    writer = get_writer("srt", target_path)
    writer(result, file_name + '_' + model_type + ".srt",
           {"highlight_words": True, "max_line_count": 3, "max_line_width": 3})
    T3 = time.time()
    print(model_type + "模式" + file_name + '生成srt文件耗时:%s秒' % ((T3 - T2)))
    writer2 = get_writer('txt', target_path)
    writer2(result, file_name + '_' + model_type + '.txt', {})
    T4 = time.time()
    print(model_type + "模式" + file_name + '生成txt文件耗时:%s秒' % ((T4 - T3)))

if __name__ == '__main__':
    models = ['base', 'small', 'medium']
    for model_type in models:
        # test_whisper(model_type, 'audio/audio.mp3', "audio/", "audio")
        # test_whisper(model_type, '踏山河/踏山河.mp3', "踏山河/", "踏山河") 
        test_whisper(model_type, 't1/1.m4a', "t1/", "1") 
        # test_whisper(model_type, '红日/红日.mp3', "红日/", "红日")
        # test_whisper(model_type, 'test001/test001.mp4', "test001/", "test001")
        # test_whisper(model_type, 'test001/2m.mp4', "test001/", "2m")

pip包离线导出安装

pip3 install wheel
mkdir packs

cd packs
导出环境中的所有第三方包
pip3 freeze > requirements.txt

python导出依赖成whl文件
pip3 wheel -r requirements.txt

离线批量安装包
pip3 install --no-index --find-links=/packs/ -r requirements.txt

到了这里,关于whisper技术部署及简单使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OpenAI Whisper 语音识别 API 模型使用 | python 语音识别

    OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外,又推出了一个 Whisper 的语音识别模型。支持96种语言。 Python 安装 openai 库后,把需要翻译的音频目录放进去,运行程序即可生成音频对应的文字。 以上。

    2024年02月16日
    浏览(39)
  • 在 Python 中使用 OpenAI 的新 Whisper API 进行语音转文本

    您是否厌倦了手动转录数小时的录音?您想节省时间并提高工作效率吗?然后,您会很高兴听到 OpenAI 用于语音到文本转换的新 Whisper API!借助这项尖端的 AI 技术,您现在可以在 Python 程序中轻松地将音频文件转换为文本。让我们在下面探讨这是如何工作的! 创建一个新文件

    2024年02月09日
    浏览(32)
  • Whisper——部署fast-whisper中文语音识别模型

    whisper:https://github.com/openai/whisper/tree/main 参考文章:Whisper OpenAI开源语音识别模型 需要其他版本的可以自己下载:https://huggingface.co/openai 原始中文语音模型: 微调后的中文语音模型: 补下一个: tokenizer.json 模型转换 float16 : int8 :

    2024年01月22日
    浏览(32)
  • Whisper技术导读

    朋友们,openai去年9月出了重磅产品whisper,这个是ASR领域,尤其是开源领域的重磅,里面设计的技术将通过论文去讲解,下面从头带大家去学习。 摘要: 在68万小时的多语言和多任务监督中,所得到的模型很好地泛化到标准基准,并且通常与之前的完全监督结果相抗衡,且

    2024年02月12日
    浏览(25)
  • whisper技术导读2

           根据最近利用互联网上的网络规模文本来训练机器学习系统的趋势,我们采用了一种极简的方法来进行数据预处理。与语音识别方面的许多工作相比,我们训练Whisper模型在没有任何显著标准化的情况下预测转录本的原始文本,依靠序列到序列模型的表现力来学习映射

    2024年02月09日
    浏览(25)
  • whisper 语音识别项目部署

    1.安装anaconda软件 在如下网盘免费获取软件: 链接:https://pan.baidu.com/s/1zOZCQOeiDhx6ebHh5zNasA 提取码:hfnd 2.使用conda命令创建python3.8环境 3.进入whisper虚拟环境 4.安装cuda10.0的PyTorch环境 5.使用命令安装whisper库包 6.简单使用命令识别一段语音: 6.安装和配置ffmpeg软件 在如下网盘免费

    2024年02月11日
    浏览(28)
  • 本地部署 Whisper 及 WhisperDesktop

    Whisper 是一个通用的语音识别模型。它是在一个大型的不同音频数据集上训练出来的,也是一个多任务模型,可以进行多语言语音识别(multilingual speech recognition)、语音翻译(speech translation)和语言识别(language identification)。 https://github.com/openai/whisper 克隆代码库, 安装依赖, (可选

    2024年02月08日
    浏览(25)
  • Android 手机部署whisper 模型

    “Whisper” 是一个由OpenAI开发的开源深度学习模型,专门用于语音识别任务。这个模型能够将语音转换成文本,支持多种语言,并且在处理不同的口音、环境噪音以及跨语言的语音识别方面表现出色。Whisper模型的目标是提供一个高效、准确的工具,以支持自动字幕生成、会议

    2024年04月10日
    浏览(30)
  • Whisper JAX 语音识别本地部署

    https://nlpcloud.com/zh/how-to-install-and-deploy-whisper-the-best-open-source-alternative-to-google-speech-to-text.html whisper-jax最详细的安装教程 | 一个号称比whisper快70倍的语音识别项目 | 免费开源的语音识别项目 whisperX 语音识别本地部署_JoeManba的博客-CSDN博客 GitHub - sanchit-gandhi/whisper-jax: JAX implement

    2024年02月08日
    浏览(29)
  • Whisper-WebUI安装部署

    docker run -d -p 7860:7860 registry.gitlab.com/aadnk/whisper-webui:latest pip install gradio==3.37.0 -i https://pypi.org/simple 当安装py模块,遇到以下报错时: ERROR: No matching distribution found for six 1 只需要在pip install XXX命令的后加上以下命令即可。 --default-timeout=100 -i https://pypi.tuna.tsinghua.edu.cn/simple 1 –d

    2024年02月16日
    浏览(22)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包