语音识别开源框架 openAI-whisper

这篇具有很好参考价值的文章主要介绍了语音识别开源框架 openAI-whisper。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Whisper 是一种通用的语音识别模型。 它是OpenAI于2022年9月份开源的在各种音频的大型数据集上训练的语音识别模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。

GitHub - yeyupiaoling/Whisper-Finetune: 微调Whisper语音识别模型和加速推理,支持Web部署和Android部署

Whisper Webui - a Hugging Face Space by aadnk

微调Whisper语音识别模型和加速推理_夜雨飘零1的博客-CSDN博客

Openai-Whisper识别生成语音/视频字幕文件(支持自动翻译) - 哔哩哔哩

Whisper OpenAI开源语音识别模型_开源语音识别算法_Sanfor的博客-CSDN博客

conda create -n whisper python=3.9

conda activate whisper

pip install git+https://github.com/openai/whisper.git

whisper audio.mp3 --model medium --language Chinese

解决输出繁体中文不输出简体中文问题:

whisper --language Chinese --model large audio.mp3 --initial_prompt "以下是 普通话句子"

就中文而言,Whisper各模型:

  • tiny 是没有做断句的,或者说,直接根据停顿断句
  • base 已经开始根据逻辑断句,但会出语法错误
  • small 已经很少语法错误,但断句水平却直线下降,很奇怪
  • medium 不仅能够完美的断句,还能判断语气

可以看出,飞书妙记给用户开放的转写能力大约在 tiny 到 base 之间(转写速度也在 tiny 左右,已经很快了)

值得指出的是,这里的对比,目的并不是比较二者的技术,否则对于飞书妙计相当的不公平,作为一款消费级应用,它不可能给用户跑medium等级的模型来做转写

对比的意义是,Whisper,作为一个开源模型,和消费级产品比起来怎么样?

答案是,完全可以替代,用 small 模型足以实现当下的免费体验了。

甚至,用 medium 以上的模型,可以用「时间」换「好得多的使用体验」

Whisper—通用的语音识别模型 - 知乎

https://www.bilibili.com/read/cv19254244

openai开源的whisper在huggingface中使用例子(语音转文字中文)_语音识别_qq_37401291-开发者创业生态社区

OpenAI 开源音频转文字模型 Whisper 尝鲜 - 少数派

Whisper—通用的语音识别模型 - 知乎

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/speech_web

OpenAI 开源语音识别模型 Whisper - OSCHINA - 中文开源技术交流社区

OpenAI Whisper中文语音识别效果尝试和应用(一)_迷途的小朋友的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-582329.html

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

OpenAI Whisper中文语音识别效果尝试和应用(一)_迷途的小朋友的博客-CSDN博客

到了这里,关于语音识别开源框架 openAI-whisper的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OpenAI的人工智能语音识别模型Whisper详解及使用

            拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。         Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁

    2024年02月09日
    浏览(41)
  • .Net 使用OpenAI开源语音识别模型Whisper

    .Net 使用OpenAI开源语音识别模型 Whisper Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的 Whisper 神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的

    2024年02月08日
    浏览(34)
  • OpenAI开源!!Whisper语音识别实战!!【环境配置+代码实现】

    目录 环境配置 代码实现 ******  实现 .mp4转换为 .wav文件,识别后进行匹配并输出出现的次数 ******  完整代码实现请私信 安装 ffmpeg 打开网址   https://github.com/BtbN/FFmpeg-Builds/releases 下载如下图所示的文件 下载后解压  我的路径是G:ffmpeg-master-latest-win64-gpl-shared

    2024年02月13日
    浏览(39)
  • 可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper

    原文来自我个人的博客。 服务器为GPU服务器。点击这里跳转到我使用的GPU服务器。我搭建 whisper 选用的是 NVIDIA A 100显卡,4GB显存。 Python版本要在3.8~3.11之间。 输入下面命令查看使用的Python版本。 为啥要安装Anaconda? 为了减少不同项目使用的库的版本冲突,我们可以使用An

    2024年02月09日
    浏览(37)
  • chatGPT的耳朵!OpenAI的开源语音识别AI:Whisper !

    语音识别是通用人工智能的重要一环!可以说是AI的耳朵! 它可以让机器理解人类的语音,并将其转换为文本或其他形式的输出。 语音识别的应用场景非常广泛,比如智能助理、语音搜索、语音翻译、语音输入等等。 然而,语音识别也面临着很多挑战,比如不同的语言、口

    2024年03月14日
    浏览(37)
  • OpenAI开源语音识别模型Whisper在Windows系统的安装详细过程

    Python的安装很简单,点击这里进行下载。 安装完成之后,输入python -V可以看到版本信息,说明已经安装成功了。 如果输入python -V命令没有看到上面的这样的信息,要么是安装失败,要么是安装好之后没有自动配置环境变量,如何配置环境变量可以从网上搜索。 Python的具体安

    2024年02月08日
    浏览(36)
  • OpenAI开源全新解码器和语音识别模型Whisper-v3

    在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器Consistency Decoder(一致性解码器)和最新语音识别模型Whisper v3。 据悉,Consistency Decoder可以替代Stable Diffusion VAE解码器。该解码器可以改善所有与Stable Diffusion 1.0+ VAE兼容的图像,

    2024年02月05日
    浏览(35)
  • openai-whisper

    0. 参数说明 语音识别模型whisper的参数说明 1. 视频语音转文字 1. 提取b站视频中的音频,增加到自己的视频里,并且显示字幕 1. 下载b站视频到电脑 1 如何将b站上的视频下载到本地 2 download b zhan videos 2. 提取视频中的音频 3. 音频转文字 get 5 file 手把手教你从一无所有到财务自由

    2024年01月18日
    浏览(28)
  • 【语音识别】OpenAI whisper

    目录 1. 简单介绍 2. 代码调用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的开源自动语音识别神经网络 whisper 安装 Python 调用

    2024年02月13日
    浏览(32)
  • OpenAI Whisper 语音识别 API 模型使用 | python 语音识别

    OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外,又推出了一个 Whisper 的语音识别模型。支持96种语言。 Python 安装 openai 库后,把需要翻译的音频目录放进去,运行程序即可生成音频对应的文字。 以上。

    2024年02月16日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包