开源(离线)中文语音识别ASR(语音转文本)工具整理

这篇具有很好参考价值的文章主要介绍了开源(离线)中文语音识别ASR(语音转文本)工具整理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

开源(离线)中文语音识别ASR(语音转文本)工具整理

目录

open ai 的开源工具:whisper

whisper介绍

Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。

whisper的核心功能语音识别,对于大部分人来说,可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿;对于影视爱好者,可以将无字幕的资源自动生成字幕,不用再苦苦等待各大字幕组的字幕资源;对于外语口语学习者,使用whisper翻译你的发音练习录音,可以很好的检验你的口语发音水平。 当然,各大云平台都提供语音识别服务,但是基本都是联网运行,个人隐私安全总是有隐患,而whisper完全不同,whisper完全在本地运行,无需联网,充分保障了个人隐私,且whisper识别准确率相当高。

引用

  • whisper模型下载地址:https://huggingface.co/ggerganov/whisper.cpp/tree/main

  • 测试离线音频转文本模型Whisper.net的基本用法

  • whisper.net

ASRT语音识别项目

ASRT介绍

ASRT是一个基于深度学习的语音识别工具,可以用于开发最先进的语音识别系统,是由AI柠檬博主(西安电子科技大学 · 西安市大数据与视觉智能重点实验室)从2016年起做的开源语音识别项目,基线为85%识别准确率,在某些条件下可做到95%左右的识别准确率。ASRT包含了语音识别算法服务端(用于训练或部署API服务)和多种平台及编程语言的客户端SDK,支持一句话识别实时流式识别,相关的代码已经开源在GitHub和Gitee上。

引用

  • ASRT语音识别工具文档

微软语音服务(付费)

微软语音服务介绍

微软语音服务通过 Azure 语音资源提供语音转文本和文本转语音功能。 您可以将语音以高精度转录为文本,生成听起来自然的文本到语音的声音,翻译语音,并在对话期间使用说话人识别。微软语音服务(号称)提供:语音识别(语音转文字)、语音合成(文字转语音)、获取实时翻译、录制对话,或集成语音到机器人体验中。

语音转文本模块主要包含一下几个方面:

实时语音转文本

  • 使用实时语音转文本时,当从麦克风或文件中识别出语音时,会对音频进行听录。 对于需要实时听录音频的应用程序,请使用实时语音转文本,例如:

    • 实时会议的听录、描述文字或字幕

    • 联系中心代理助手

    • 听写

    • 语音代理

    • 发音评估

批量转录

批量转录用于转录存储中的大量音频。 您可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收转录结果。 对需要批量转录音频的应用程序使用批量转录,例如:

  • 预录音频的转录、字幕或副标题
  • 联络中心通话后分析
  • 二值化

自定义语音

使用 自定义语音,您可以为您的应用程序和产品评估和提高语音识别的准确性。 自定义语音模型可用于实时语音转文本、语音翻译和批量转录。

开箱即用的语音识别利用通用语言模型作为基础模型,该模型使用 Microsoft 拥有的数据进行训练并反映常用口语。 基本模型使用代表各种常见领域的方言和语音进行了预训练。 当您发出语音识别请求时,默认情况下会使用每种受支持语言的最新基本模型。 基本模型在大多数语音识别场景中都能很好地工作。

自定义模型可用于扩充基础模型,通过提供文本数据来训练模型,从而提高对特定于应用程序的领域特定词汇的识别。 它还可用于通过提供带有参考转录的音频数据来改进基于应用程序特定音频条件的识别。

引用

  • 微软语音服务文档

PaddleSpeech

PaddleSpeech介绍

PaddleSpeech是一个基于飞桨PaddlePaddle的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型,其中包括语音识别(ASR)。你可以使用PaddleSpeech来训练和测试中文语音识别模型。文章来源地址https://www.toymoban.com/news/detail-543846.html

引用

  • 百度飞桨PaddleSpeech的简单使用 - CSDN博客.
  • 一文读懂PaddleSpeech中英混合语音识别技术 - 知乎
  • 【超简单】之基于PaddleSpeech搭建个人语音听写服务 - 知乎.
  • GitHub - PaddlePaddle/PaddleSpeech: Easy-to-use Speech Toolkit …
  • paddlespeech · PyPI
  • PaddleSpeech: Easy-to-use Speech Toolkit including SOTA ASR … - Gitee.

到了这里,关于开源(离线)中文语音识别ASR(语音转文本)工具整理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • python使用VOSK实现离线语音识别(中文普通话)

    python使用VOSK实现离线语音识别(中文普通话)

    目标:一个代码简单,离线,可直接使用,常用语句准确率还不错,免费的,普通话语音转文本的工具 几番对比下来,VSOK基本满足我的需求,记录一下。 环境 windows 10 / python3.8.10 s1 安装 vosk s2 下载模型 两个模型,一个很小,文件名中带有small字样,另一个就很大了,就我自

    2024年02月11日
    浏览(11)
  • 【FunASR】Paraformer语音识别-中文-通用-16k-离线-large-onnx

    【FunASR】Paraformer语音识别-中文-通用-16k-离线-large-onnx

    模型文件: damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳: ASR模型:Parformer-large模型结构为非自回归语音识别模型,多个中文公开数据集

    2024年02月03日
    浏览(5)
  • Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

    Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

    阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。 Whisper经常被人诟病的一点是对中文语音

    2024年01月25日
    浏览(6)
  • 中文语音标注工具FunASR(语音识别)

    中文语音标注工具FunASR(语音识别)

    全称  A Fundamental End-to-End Speech Recognition Toolkit (一个语音识别工具) 可能大家用过 whisper (openAi),它【标注英语的确很完美】,【但中文会出现标注错误】或搞了个没说的词替换上去,所以要人工核对,麻烦。 FunASR作用 :能【准确】识别语音,并转成【文字、标出声调】

    2024年02月04日
    浏览(6)
  • 免费离线语音识别软件开发工具包(SDK):实现高效准确的语音识别

    语音识别技术在当今信息时代扮演着重要的角色,为用户提供了更加便捷和自然的交互方式。然而,传统的语音识别方案通常需要依赖云服务器进行语音数据的处理,这可能会涉及到隐私问题和网络延迟。为了解决这些问题,免费离线语音识别软件开发工具包(SDK)应运而生

    2024年02月04日
    浏览(10)
  • 6款支持中文语音识别开源软件的简单使用

    6款支持中文语音识别开源软件的简单使用

    摘自百度百科 语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含

    2024年02月12日
    浏览(7)
  • 本地化部署离线开源免费语音识别API,支持多模态AI能力引擎

    本地化部署离线开源免费语音识别API,支持多模态AI能力引擎

    思通数科作为一家专注于多模态AI能力开源引擎平台,其技术产品涵盖了自然语言处理、情感分析、实体识别、图像识别与分类、OCR识别以及语音识别等多个领域。在语音识别这一细分市场,思通数科的技术产品中的音频文件转写服务有着相似的应用场景和功能特点。 思通数

    2024年04月12日
    浏览(9)
  • 基于ASR-PRO离线语音芯片制作的控制小黑盒

    基于ASR-PRO离线语音芯片制作的控制小黑盒

    一、功能介绍: 1、支持语音控制,通过唤醒词来唤醒小黑盒,说出命令后实现相应功能。 2、还可以通过按键控制。 3、对应功能都配有指示灯和电源指示灯。 4、配有220V的电压电流显示。 二、输出方式 1、一共3组继电器输出,电源选择可以是220V或者直流电。 2、一组一个继

    2023年04月08日
    浏览(8)
  • ASR项目实战-语音识别

    本文深入探讨语音识别处理环节。 本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。 业界流派众多,比如Kaldi、端到端等,具体选择哪一种,需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等,作出相对合理的交付规划。 基于

    2024年02月04日
    浏览(8)
  • 语音识别 - ASR whisper

    语音识别 - ASR whisper

    目录 1. 简单介绍 2. 代码调用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的开源自动语音识别神经网络 whisper 安装 Python 调用

    2024年02月12日
    浏览(7)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包