openai-whisper

10月前作者：GeekPlusA 分类：Toy博客阅读(39) 违法举报

这篇具有很好参考价值的文章主要介绍了openai-whisper。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

0. 参数说明

语音识别模型whisper的参数说明

1. 视频语音转文字

export CUDA_VISIBLE_DEVICES=3
whisper 手把手教你从一无所有到财务自由_7.mp3 --model large-v2 --model_dir . --output_dir 7 --language Chinese

demo

1. 提取b站视频中的音频,增加到自己的视频里,并且显示字幕

1. 下载b站视频到电脑

1 如何将b站上的视频下载到本地
2 download b zhan videos

2. 提取视频中的音频

ffmpeg  -i 手把手教你从一无所有到财务自由_8.mp4  -vn 手把手教你从一无所有到财务自由_8.mp3

3. 音频转文字

export CUDA_VISIBLE_DEVICES=3

whisper 手把手教你从一无所有到财务自由_5.mp3 --model large-v2 --model_dir . --output_dir 5 --language Chinese

get 5 file
手把手教你从一无所有到财务自由_5.json
手把手教你从一无所有到财务自由_5.srt
手把手教你从一无所有到财务自由_5.tsv
手把手教你从一无所有到财务自由_5.txt
手把手教你从一无所有到财务自由_5.vtt文章来源地址https://www.toymoban.com/news/detail-800914.html

字幕格式转换

ffmpeg -i 手把手教你从一无所有到财务自由_5.srt 手把手教你从一无所有到财务自由_5.ass

ass字幕文件添加特效

4. 自己的视频去掉音频,增加新的音频和字幕

a 视频添加硬字幕

ffmpeg -i 手把手教你从一无所有到财务自由_5_music.mp4 -vf ass=手把手教你从一无所有到财务自由_5.ass 手把手教你从一无所有到财务自由_5_result.mp4

到了这里，关于openai-whisper的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

OpenAI Whisper探索(一)

安装Whisper前先安装依赖 ERROR: Could not find a version that satisfies the requirement torch (from versions: none) 经过了解torch是 PS：运行的时候还会遇到提示缺少VC环境，按照提示地址下载安装就可以了 Microsoft Visual C++ Redistributable is not installed, this may lead to the DLL load failure. It can be downloaded at

2024年02月09日
浏览(37)
OpenAI 开源语音识别 Whisper

Whisper是一个通用语音识别模型。它是在各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。人工智能公司 OpenAI 拥有 GTP-3 语言模型，并为 GitHub Copilot 提供技术支持的，宣布开源了

2024年02月09日
浏览(71)
如何使用OpenAI的whisper

如果上述报错，就改为下面的方法：模型的默认下载路径在：~/.cache/whisper/large-v2.pt 如果网速不佳，可以先在网速好的服务器上先下载好模型，再拷贝到本机从下面cpu的结果看，tiny模型的结果不忍直视，而large_model的耗时，也无法忍受。模型名称 cpu执行时间结果 gpu执行时

2024年02月08日
浏览(48)
openai的whisper语音识别介绍

openAI发布了chatgpt，光环一时无两。但是openAI不止有这一个项目，它的其他项目也非常值得我们去研究学习。今天说说这个whisper项目 https://github.com/openai/whisper ta是关于语音识别的。它提出了一种通过大规模的弱监督来实现的语音识别的方法。弱监督是指使用不完全或不准确的

2024年02月09日
浏览(49)
Whisper OpenAI开源语音识别模型

Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除

2024年02月16日
浏览(55)
OpenAI-whisper语音识别模型

Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。 whisper有五种模型尺寸，提供速度和准确性的平衡，其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求

2024年02月09日
浏览(61)
基于OpenAI的Whisper构建的高效语音识别模型：faster-whisper

faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度，还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时，大幅提升处理速度，这使得它在处理

2024年02月02日
浏览(61)
OpenAI的Whisper蒸馏：蒸馏后的Distil-Whisper速度提升6倍

Whisper 是 OpenAI 研发并开源的一个自动语音识别（ASR，Automatic Speech Recognition）模型，他们通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高模型对口音、背景噪音和技

2024年02月04日
浏览(36)
OpenAI Whisper and ChatGPT 语音助手

麦克风输入，展示三种结果输入ASR结果输出文本输出TTS结果 gradio==3.19.1 gTTS==2.3.1 openai==0.27.0 openai-whisper==20230124 使用以下命令安装 ffmpeg 需要科学上网，否则连接超时参考：https://github.com/bhattbhavesh91/voice-assistant-whisper-chatgpt

2024年02月03日
浏览(46)
使用OpenAI的Whisper 模型进行语音识别

原文：https://baijiahao.baidu.com/s?id=1756232395896695428wfr=spiderfor=pc 语音识别是人工智能中的一个领域，它允许计算机理解人类语音并将其转换为文本。该技术用于 Alexa 和各种聊天机器人应用程序等设备。而我们最常见的就是语音转录，语音转录可以语音转换为文字记录或字幕。

2024年02月03日
浏览(62)