OpenAI Whisper中文语音识别效果尝试和应用(一)

这篇具有很好参考价值的文章主要介绍了OpenAI Whisper中文语音识别效果尝试和应用(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        近期,OpenAI发布了Whisper语音识别模型,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。出于对自动语音识别的兴趣,本人对此进行了一些尝试,看看它对中文语音识别的效果。

        本内容仅供对语音识别有兴趣或者仅仅希望应用的入门朋友参考。

一、安装

测试电脑:MacBook Pro 

测试系统:MacOS Monterey 12.6

1、安装brew

        安装brew的目的是为了下一步安装python. 如果已经安装,请跳过。

        在终端命令行中执行:

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"

        选择合适的brew本体下载源,如“清华大学下载源“,然后一路按提示进行安装即可。

2、安装python

        在终端命令行中执行:

brew install python

        这里有一个很重要的点是:brew的方式安装python时默认是不执行certifi文件的,需要手动执行,否则在下载whisper模型时会出现ssl异常:

/Applications/Python\ 3.10/Install\ Certificates.command 

        其中3.10需要根据你的实际情况进行修改。

3、安装torch

        在终端命令行中执行:

pip install torch

4、安装git

        在终端命令行中执行:

brew install git

5、安装whisper

        在终端命令行中执行:

pip install git+https://github.com/openai/whisper.git 

6、安装ffmpeg

        在终端命令行中执行:

brew install ffmpeg

7、安装rust

        在终端命令行中执行:

pip install rust

二、测试

        直接在命令行中执行:

whisper /Users/bmob/Downloads/8.m4a --model base  --language Chinese

        其中,/Users/bmob/Downloads/8.m4a 是你的语音文件路径。

        base是模型名称,如果你想用其他模型,还可以选择:

  • tiny
  • base
  • small
  • medium
  • large

        越往后的模型,对硬件的要求越高,识别精度越高,当然了,速度也越慢。

        我即兴了录了一段语音(24秒)去识别,发现tiny模型出来的结果是:

[00:00.000 --> 00:03.840] 书籍是知识的来源
[00:03.840 --> 00:08.960] 当你每天看书的时候就一定能够掌握更多的知识
[00:08.960 --> 00:11.520] 春天来了
[00:11.520 --> 00:20.480] 当你台头看去的时候就会有发现有很多很多的语业在慢慢的生长出来
[00:20.480 --> 00:30.480] 花椅开了小鳥椅飞了

        在提示缺乏独立显卡的前提下,识别结果还是比较快速的。

        small模型出来的结果是:

[00:00.000 --> 00:03.400] 书籍是知识的来源
[00:03.400 --> 00:08.400] 当你每天看书的时候就一定能够掌握更多的知识
[00:08.400 --> 00:11.000] 春天来了
[00:11.000 --> 00:14.400] 当你抬头看去的时候
[00:14.400 --> 00:18.400] 就会有发现有很多很多的玉叶
[00:18.400 --> 00:20.400] 再慢慢的生长出来
[00:20.400 --> 00:22.000] 花也开了
[00:22.000 --> 00:32.000] 小鸟也飞了

        等待了接近二十秒,才出来结果。

        用medium模型,识别出来的结果是:

[00:00.000 --> 00:04.000] 书籍是知识的来源
[00:04.000 --> 00:06.000] 当你每天看书的时候
[00:06.000 --> 00:09.000] 就一定能够掌握更多的知识
[00:09.000 --> 00:12.000] 春天来了
[00:12.000 --> 00:15.000] 当你抬头看去的时候
[00:15.000 --> 00:17.000] 就会有发现
[00:17.000 --> 00:19.000] 有很多很多的绿叶
[00:19.000 --> 00:21.000] 在慢慢地生长出来
[00:21.000 --> 00:23.000] 花也开了
[00:23.000 --> 00:31.000] 花也飞了

         等待了近两分钟,才出来结果。

        而large模型在实验机面前直接跑崩了。

三、总结

  • whisper自动语音识别模型还是相当牛逼的,如果你的使用场景要求不那么高,还是可以满足大部分要求的,比如不少文章提到的视频语音转译。
  • 并不是越大的模型精确度越好,我们要根据实际情况去选择合适的模型。
  • whisper对于长语音的效果并不太好,比较适合短语音的情况。

欢迎更多的朋友参与讨论如何使用whisper进行产品开发,模型训练,模型二次开发等。

QQ交流群:OpenAI交流群

        文章来源地址https://www.toymoban.com/news/detail-417831.html

到了这里,关于OpenAI Whisper中文语音识别效果尝试和应用(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Whisper OpenAI开源语音识别模型

    Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除

    2024年02月16日
    浏览(39)
  • OpenAI-whisper语音识别模型

    Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求

    2024年02月09日
    浏览(39)
  • 使用OpenAI的Whisper 模型进行语音识别

    原文:https://baijiahao.baidu.com/s?id=1756232395896695428wfr=spiderfor=pc 语音识别是人工智能中的一个领域,它允许计算机理解人类语音并将其转换为文本。 该技术用于 Alexa 和各种聊天机器人应用程序等设备。 而我们最常见的就是语音转录,语音转录可以语音转换为文字记录或字幕。

    2024年02月03日
    浏览(43)
  • 语音识别开源框架 openAI-whisper

    Whisper 是一种通用的语音识别模型。 它是OpenAI于2022年9月份开源的在各种音频的大型数据集上训练的语音识别模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 GitHub - yeyupiaoling/Whisper-Finetune: 微调Whisper语音识别模型和加速推理,支持Web部署和Andr

    2024年02月17日
    浏览(44)
  • .Net 使用OpenAI开源语音识别模型Whisper

    .Net 使用OpenAI开源语音识别模型 Whisper Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的 Whisper 神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的

    2024年02月08日
    浏览(35)
  • OpenAI开源!!Whisper语音识别实战!!【环境配置+代码实现】

    目录 环境配置 代码实现 ******  实现 .mp4转换为 .wav文件,识别后进行匹配并输出出现的次数 ******  完整代码实现请私信 安装 ffmpeg 打开网址   https://github.com/BtbN/FFmpeg-Builds/releases 下载如下图所示的文件 下载后解压  我的路径是G:ffmpeg-master-latest-win64-gpl-shared

    2024年02月13日
    浏览(42)
  • openai开源的whisper在huggingface中使用例子(语音转文字中文)

    openai开源的语音转文字支持多语言在huggingface中使用例子。 目前发现多语言模型large-v2支持中文是繁体,因此需要繁体转简体。 后续编写微调训练例子 GitHub地址: https://github.com/openai/whisper

    2024年02月11日
    浏览(35)
  • 基于OpenAI的Whisper构建的高效语音识别模型:faster-whisper

    faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理

    2024年02月02日
    浏览(42)
  • 可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper

    原文来自我个人的博客。 服务器为GPU服务器。点击这里跳转到我使用的GPU服务器。我搭建 whisper 选用的是 NVIDIA A 100显卡,4GB显存。 Python版本要在3.8~3.11之间。 输入下面命令查看使用的Python版本。 为啥要安装Anaconda? 为了减少不同项目使用的库的版本冲突,我们可以使用An

    2024年02月09日
    浏览(37)
  • OpenAI的人工智能语音识别模型Whisper详解及使用

            拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。         Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁

    2024年02月09日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包