语音识别课前准备-kaldi安装流程

这篇具有很好参考价值的文章主要介绍了语音识别课前准备-kaldi安装流程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

  进行语音识别学习课前的准备是Kaldi的安装,但是没想到在这个过程中,自己遇到了各种各样棘手问题。在经过数次的尝试后,自己终于成功了。于是写下这篇文章供大家解决安装中出现的各种问题。

第一步,安装VMware及Ubuntu**。

  在安装Ubuntu这里,我必须要提一句,因为Kaldi解压后至少有26G,所以你为Ubuntu分配空间的时候,至少要分配40G+才可以。其次就是运行内存,最起码要4G,不要问我为什么,如果你分配的运行内存不够4G,那么你在进行tools的make时,你将发现,即使你安装完所有必须的依赖工具,但你也会一直无法成功,反正就是挺奇怪的。这两点一定要注意,因为这两点是前提。

第二步,下载kaldi。

  这里有两种方式。第一种就是你在Windows系统去Github上把代码打包下载下来,然后拖到Ubuntu里,在Ubuntu里再解压。链接是 https://github.com/kaldi-asr/kaldi.git。下载完成后的压缩包如图所示:语音识别:安装编译kaldi,语音识别学习,ubuntu,语音识别

  第二种是你在Ubuntu里用sudo apt-get install git命令安装git,安装git后再执行sudo git clone https://github.com/kaldi-asr/kaldi.git来下载。
  这里提醒,不管你采用哪种方式下载,建议将kaldi文件夹放在根目录下,即/kaldi,这有利于后面的操作。如图所示:语音识别:安装编译kaldi,语音识别学习,ubuntu,语音识别

第三步,进入tools,安装依赖工具并执行编译**。

   依次执行如下命令 cd kaldi , cd tools , extras/check_dependencies.sh 。 这时系统会提示你缺少那些依赖工具,我们根据提示安装即可。注意:这里建议切换到root模式下(sudo su)进行安装,因为这样可以避免mkdir权限不够无法创建目录的问题
   除此之外,这里还有两个要提的点,第一个是未安装MKL,执行命令extras/install_mkl.sh即可。第二个是当我们根据提示安装完依赖工具后,再进行检查时,有可能会出现python2.7 is installed, but the python2 binary does not exist. Creating a symlink and adding this to tools/env.sh这句提示语,我们忽略即可不影响后续安装。

   当extras/check_dependencies.sh提示all OK时。我们就可以进行tools的编译了。也就是这里,我来来回回失败了N次。只要第一步我们做到了,那么此时出现问题的概率就是非常小的。接下来我们运行命令,sudo make -j N(这里的N是一个数字,要小于你处理器的数量,例如我给我的UBuntu分配的处理器是2,那我的N<=2,也就是可以填2或者1)注意,这个make的过程十分漫长,需要等待。在这一步可能会出现的错误如下列代码所示:

make[3]: *** [determinize.lo] Error 1
make[3]: Leaving directory '/home/abcd/botao/test/kaldi/tools/openfst-1.7.2/src/script'
Makefile:358: recipe for target 'install-recursive' failed
make[2]: *** [install-recursive] Error 1
make[2]: Leaving directory '/home/abcd/botao/test/kaldi/tools/openfst-1.7.2/src'
Makefile:414: recipe for target 'install-recursive' failed
make[1]: *** [install-recursive] Error 1
make[1]: Leaving directory '/home/abcd/botao/test/kaldi/tools/openfst-1.7.2'
Makefile:63: recipe for target 'openfst_compiled' failed

   仔细检查,如果做到了第一步,还是出现这个错误,那就可能是网络问题,将/tools文件夹中的openfst1.7.2.tar.gz这个压缩包,以及解压出的文件夹openfst1.7.2全部删掉。对tools重新make即可。
  当执行make后没报错,就说明我们tools编译成功了。

第四步,编译src。

   一般情况下只要第三步tools编译成功,第四步src的编译就不会出错,不过同样编译的过程也很漫长。
  进入/kaldi/src , 先执行sudo ./configure --shared,再执行sudo make depend -j,最后执行sudo make -j 1只要最后出现Done。就说明我们的src也编译成功了。

第五步,跑一个小程序-yesno例子。

执行下列命令
cd /kaldi/egs/yesno/s5
sudo ./run.sh
运行成功的话会如图所示:
语音识别:安装编译kaldi,语音识别学习,ubuntu,语音识别
  但是一开始我并没有运行成功,尽管我tools和src都编译成功了。系统提示拒绝连接,出现这种情况也很简单,我们可以直接把waves_yesno.tar.gz下载下来放到s5下面,然后修改run.sh的内容。把wget那一行注释掉保存就可以了。如图所示:语音识别:安装编译kaldi,语音识别学习,ubuntu,语音识别
  修改完成后再运行sudo ./run.sh即可。文章来源地址https://www.toymoban.com/news/detail-627671.html

到了这里,关于语音识别课前准备-kaldi安装流程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux内核学习(包含Linux 2.6内核编译安装流程)

    Linux内核官方网站为:http://www.kernel.org 或者使用git将源码clone下来(我这里使用的版本为2.6): clone下来的源码目录结构如下:  其中比较重要的目录的官方描述如下: 对应的中文描述如下: 由于centos7.6初始gcc版本为4.8.5,而编译内核需要的最低版本为5.1.0,所以需要安装高

    2024年02月07日
    浏览(48)
  • Uibot (RPA设计软件)Mage AI智能识别(发票识别)———课前材料五

     微信群发助手机器人的小项目友友们可以参考小北的课前材料二博客~   (本博客中会有部分课程ppt截屏,如有侵权请及请及时与小北我取得联系~) 紧接着小北的前两篇博客,友友们我们即将开展新课的学习~ RPA 培训前期准备指南——安装Uibot(RPA设计软件)-CSDN博客https://bl

    2024年01月23日
    浏览(27)
  • 基于天问block编译环境下ASRPRO语音芯片程序编写教程(二)语音识别,GPIO输入输出,PWM输出篇

    本篇教程将基于天问block内的官方范例代码讲解如何编写ASRPRO语音芯片程序以实现语音识别,GPIO输入输出和PWM输出功能。  该程序中 添加识别词功能添加命令词选项(黑色部分) 为语音识别功能的核心,通过设定命令词和回复语音实现基础语音对话,通过 对于语音识别ID的运用

    2024年02月04日
    浏览(47)
  • 语音识别学习笔记

    目录 开源的语音识别项目 端到端的多说话人语音识别序列化训练方法简介 新一代 Kaldi: Two-pass 实时语音识别 有哪些语音识别的开源项目? - 知乎 端到端的多说话人语音识别序列化训练方法简介 - 知乎 2.2 基于排列不变性训练Permutation Invariant Training (PIT)的多说话人语音识别

    2024年02月05日
    浏览(22)
  • 基于深度学习的多模态语音识别:如何提高语音识别准确率和鲁棒性

    作者:禅与计算机程序设计艺术 随着语音识别技术的发展,采用多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习的多模态语音识别取得了新进展。传统的声学模型或手工特征工程方法已经无法满足实时、高精度、低延迟的需求,多模态语音识别需要解决

    2024年02月13日
    浏览(36)
  • 语音识别与语音合成:机器学习在音频处理领域的应用

    语音识别和语音合成是人工智能领域的两个重要应用,它们在日常生活和工作中发挥着越来越重要的作用。语音识别(Speech Recognition)是将语音信号转换为文本信息的技术,而语音合成(Text-to-Speech Synthesis)是将文本信息转换为语音信号的技术。这两个技术的发展与机器学习紧密相

    2024年02月21日
    浏览(28)
  • 跟着我学习 AI丨语音识别:将语音转为数字信号

    语音识别是一种人工智能技术,其主要目的是将人类说话转化为计算机可以理解的信息。语音识别技术的应用非常广泛,包括智能家居、汽车导航、语音搜索、人机交互、语音翻译等。 语音识别的技术原理是将人类的语音信号转化为数字信号。这个过程包括信号的采样、量化

    2024年02月02日
    浏览(24)
  • Win7系统语音包安装图文教程及语音识别

    在本文中,我们将为您提供Win7系统语音包的安装图文教程,并介绍如何使用语音识别功能。以下是详细步骤: 步骤1:下载语音包 首先,您需要下载适用于Win7系统的语音包。您可以在互联网上搜索并选择适合您的语音包进行下载。确保选择与您的系统版本和语言相匹配的语

    2024年02月03日
    浏览(30)
  • Keras深度学习实战(41)——语音识别

    语音识别( Automatic Speech Recognition , ASR ,或称语音转录文本)使声音变得\\\"可读\\\",让计算机能够\\\"听懂\\\"人类的语言并做出相应的操作,是人工智能实现人机交互的关键技术之一。在《图像字幕生成》一节中,我们已经学习了如何将手写文本图像转录为文本,在本节中,我们将利用

    2024年02月04日
    浏览(30)
  • 深度学习在语音识别方面的应用

    语音识别是一项非常重要的技术,它可以将人类的语音转化为计算机可以理解的形式。深度学习是一种非常强大的机器学习技术,它在语音识别方面也有广泛的应用。本文将详细介绍深度学习在语音识别方面的应用。 语音识别的基本步骤包括信号预处理、特征提取和模型训练

    2024年02月05日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包