Vosk 扬声器内录语音识别转文字 最简洁的C#代码

这篇具有很好参考价值的文章主要介绍了Vosk 扬声器内录语音识别转文字 最简洁的C#代码。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

最近在看小众西语电影,但苦于没字幕,只能自己想办法弄实时语音识别。然而网上给出的很多相关代码,大部分是基于已有的wav文件或者麦克风外录的方式实现的。我这里就稍微改进了一下,可以在内录(英文资料说的的是loopback audio recording)的情况下进行语音转文字。这里最简单的思路是采用Vosk这个比较成熟的离线语音识别API,然后在.NET平台上,用NAudio库自带的WasapiLoopbackCapture进行内录,并在DataAvaliable事件处理代码块中,对采集到的音频数据字节流进行部分识别,最后输出完整识别出来的内容。

Vosk和NAudio这两个3rd模块需要通过nuget包管理器安装,然后语音识别用到的模型文件可以在VOSK Models上下载。一般情况下,每个语种至少有两个模型文件,其中一个带"small"的模型是精简版模型,用在低性能电脑、手机和嵌入式设备上跑比较好,不过识别准确率不太高:( ;还有一个普通的模型,大小在1GB以上的,这个识别准确率非常高,但是放在手机上跑不太合适。

c#语音识别转文字,语音识别,人工智能,音视频,c#

 大家根据自己的需求下载对应语种、对应规模的语言模型包,然后解压到程序执行目录。

下面废话不多说,直接上代码:

using NAudio.Wave;
using System.Text;
using Vosk;

class SpeechToText
{

    static void Main()
    {
        Console.OutputEncoding = Encoding.UTF8;
        // Initialize Vosk API
        Model model = new Model("model-small-es");

        using (var waveIn = new WasapiLoopbackCapture())
        {
            waveIn.WaveFormat = new WaveFormat(44100, 1);

            var rec = new VoskRecognizer(model, waveIn.WaveFormat.SampleRate);
            rec.SetMaxAlternatives(0);
            rec.SetWords(true);

            waveIn.DataAvailable += (_, e) =>
            {

                if (rec.AcceptWaveform(e.Buffer, e.BytesRecorded))
                {
                    Console.WriteLine(rec.Result());
                }
                else
                {
                    Console.WriteLine(rec.PartialResult());
                }

            };
            waveIn.StartRecording();
            Console.WriteLine("Press ENTER to quit...");
            Console.ReadLine();
            waveIn.StopRecording();
        }
    }
}

代码逻辑很简单这里就不再赘述,不过有几点需要注意一下:

1. WaveFormat的参数设置问题:一定不能用双声道!Vosk似乎不怎么支持双声道数据的处理,我用这个参数的时候程序总是跑到一半就崩了。然后采样率,很多人给出的代码都配置的是16kHz,我觉得质量太低识别效果不好,尝试了一下改到44.1kHz,程序仍然能跑,而且识别准确率高了很多,但是再往上我就没试了,而且没必要。

2. MaxAlternatives这个参数是告诉vosk识别完成后给出多少种备选结果,我们只需要一种结果就行了,也就是不需要备选结果,这里设置为0即可。

3. SetWords这个函数是告诉vosk识别完成后是否需要显示每个单词出现和结束的时间(从录音起始开始算起),这个对做滚动歌词和字幕的伙计们就非常有用了,如果大家觉得烦人可以把它设成false。

4. 如果你用的语言模型包和我的不一样,一定不要忘记修改上面代码中的模型路径!!!

我给出的是一个简单的控制台程序代码,主要在于简便,方便给大家复制并用到自己的项目中。程序启动后会一直运行,直到用户按下回车键才会退出。

效果:

c#语音识别转文字,语音识别,人工智能,音视频,c#

 文章来源地址https://www.toymoban.com/news/detail-622233.html

到了这里,关于Vosk 扬声器内录语音识别转文字 最简洁的C#代码的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Qt 实现的万能采集库( 屏幕/相机/扬声器/麦克风采集)

    【写在前面】          之前应公司需要,给公司写过一整套直播的库( 推拉流,编解码),类似于 libobs 。         结果后来因为没有相关项目,便停止开发维护了。         不过里面很多有用的组件,然后也挺好用的,遂开源出来一部分。         因此,本篇就简单讲

    2024年04月27日
    浏览(37)
  • PR软件中的音频硬件扬声器显示不工作的故障

    PR2020软件中的音频硬件扬声器显示不工作的故障问题解决方法:  今天给大家介绍一下PR软件中的音频硬件扬声器显示不工作的故障的具体解决方法。 首先打开电脑上的pr软件,进入主页面,点击页面顶端的编辑选项; 在打开的菜单中,找到最底下的首选项,点击; 然后在打

    2024年02月07日
    浏览(37)
  • MacBook Pro 14/16英寸2021款 扬声器 爆音问题 噼啪声

    ** ** 提示:MacBook Pro 14/16英寸2021款 扬声器爆音问题 本人的2021款MacBook Pro 14寸本在播放音频或者视频时,会很间接性的出现叭、叭、叭的爆音问题。(系统已更新到最新的 macOS Monterey 12.4 ) 据苹果官方给出的说法是此问题为已知问题,涉及范围包括2021款MacBook Pro 14/16英寸 M1芯

    2024年02月06日
    浏览(52)
  • 使用ffmpeg调用电脑自带的摄像头和扬声器录制音视频

    1、打开cmd,执行 chcp 65001 ,修改cmd的编码格式为utf8,避免乱码 2、执行指令 ffmpeg -list_devices true -f dshow -i dummy ,查看当前window的音频和视频名称 3、打开windows系统的\\\"打开声音设置\\\"–“麦克风隐私设置”–\\\"允许应用访问你的麦克风\\\"点击开启 录制视频: 录制音频: 录制音视频:

    2024年02月04日
    浏览(57)
  • Python 一步一步教你用pyglet制作可播放音乐的扬声器类

    目录 扬声器类 1. 绘制喇叭 2. 扬声器类 3. 禁音状态  4. 设置状态 5. 切换状态 6. 播放音乐 本篇将教你用pyglet画一个小喇叭,如上图。这里要用到pyglety库shapes模块中的圆弧Arc和多边形Pylygon画出这个扬声器的图片: Arc(x, y, radius, segments=None, angle=6.283185307179586, start_angle=0, closed=

    2024年03月10日
    浏览(59)
  • WM8978 —— 带扬声器驱动程序的立体声编解码器(2)

    接前一篇文章:WM8978 —— 带扬声器驱动程序的立体声编解码器(1) 引脚(PIN) 名称(NAME) 类型(TYPE) 描述(DESCRIPTION) 1 LIP 模拟输入 左麦克风前置放大器正极输入 2 LIN 模拟输入 左麦克风前置放大器负极输入 3 L2/GPIO2 模拟输入 左声道线路输入 / 辅助麦克风前置放大器正

    2024年03月22日
    浏览(42)
  • 虚拟声卡(虚拟扬声器和虚拟麦克风)应用之音频回环(Virtual Audio Cable)

    首先在了解Virtual Audio Cable音频回环技术之前,我们先介绍几个基础的概念: 虚拟声卡:是一种硬件虚拟化技术;基于软件技术虚拟出麦克风或者虚拟扬声器硬件,提供给上层用户程序使用虚拟麦克风和扬声器,例如通过给虚拟扬声器喂送音频数据实现麦克风录音效果。 音频

    2024年01月17日
    浏览(151)
  • ASUS电脑显示未连接扬声器(英特尔智音技术版),声卡驱动修复,Realtek修复

            本人的电脑在用CCleaner的驱动更新后,突然发现电脑无法播放声音,点开设备管理器后显示设备也是正常的,但就是识别不到扬声器设备。         在实验过Realtek等安装方法之后无果(我的Realtek显示不支持此机器 ),我在设备管理器中发现,系统设置中的英特尔

    2024年02月12日
    浏览(148)
  • 如何在云电脑串流中实现声音输入输出—虚拟声卡(虚拟扬声器和虚拟麦克风)开发

    虚拟声卡(虚拟扬声器和虚拟麦克风)技术原理简介 近些年云计算的发展可谓是势不可挡,无论是办公还是娱乐等行业都开始使用云计算来逐步替代直接使用本地物理硬件的技术,例如: 服务器部署。相比之前,现在部署一个服务器都非常简单;我们只需要在阿里云,华为

    2024年02月04日
    浏览(59)
  • FreeSWITCH对接vosk实现实时语音识别

    环境:CentOS 7.6_x64 FreeSWITCH版本 :1.10.9 Python版本:3.9.2 vosk是一个开源语音识别工具,可识别中文,之前介绍过python使用vosk进行中文语音识别,今天记录下FreeSWITCH对接vosk实现实时语音识别。 vosk离线语音识别可参考我之前写的文章: python使用vosk进行中文语音识别 可直接使用

    2024年02月02日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包