一、科大讯飞官网
1.网址讯飞开放平台-以语音交互为核心的人工智能开放平台 (xfyun.cn)。
2.登录上述网站。
3.点击控制台,创建应用。
4.再在网页中找到语音听写功能,就是本次需要使用到的语音转文字功能,有很多入口可以进入,进入后请自行查看相关介绍,有助于后面的程序开发,入口其位置如图1.1所示。
图1.1 语音听写
5.将网页拉到下面的开发者资源,将Linux的SDK文档打开,本次实验的相关步骤根据该文档进行,文档入口如图1.2所示。
图1.2 Linux的文档入口
6.下载Linux的SDK资源,找到SDK下载入口,如图1.2所示。
图1.3 SDK下载入口
7.进入页面口应用选择已经创建好的应用,平台选择Linux,ai能力选择语音听写,点击下载。如图1.4所示。
图1.4 下载SDK
二、SDK包的处理
1.其处理过程根据上述的SDK文档进行,具体操作如下:
(1)、 新建目录Demo,将SDK中bin,include,libs文件夹复制到新建工程“Demo”文件夹下,如图2.1创建demo文件夹,并复制文件。
图2.1 demo文件夹
(2)、将sample文件夹的麦克风输入语音识别的文件拷贝到demo,sample中文件分别对应不同的ai能力。如图2.2所示。
图2.2 移动源码文件夹
(3)、打开文件夹iat_online_record_sample中的Makefile文件,修改相关路径。如图2.3所示。
图2.3 修改Makefile
(4)、打开文件夹iat_online_record_sample中的64bit_make.sh文件,修改相关路径。如图2.3所示。
图2.3 修改sh脚本
2、在测试之前,先检查自己的麦克风,以及虚拟机Linux的联网状态。
麦克风测试,可以声音输入,如图2.4所示。
图2.4 麦克风测试
虚拟机网络适配器选择NAT,联网测试,ping通百度,如图2.5所示。 图2.5 联网测试
3、在虚拟机中编译文件,并执行,详情如图2.6所示。
图2.6 demo运行结果
三、温馨提示
1.麦克风的采样率要符合科大讯飞要求(官方文档:sdk目前支持的格式是 pcm 和 wav 格式、音频采样率要是 16k 或者 8k、采样精度16 位、单声道音频),本次测试电脑麦克风和外接麦克风都好使,配置及检测如图3.1所示。
图3.1 麦克风配置及检测
2.程序执行时,看麦克风是否被当前的虚拟机占用(才是对的),如果被别的进程占用,测试会失败(可能会出现-77的错误),可以重启电脑解决,或和关闭对应进程。
文章来源:https://www.toymoban.com/news/detail-850472.html
3.语音文字并不是15秒后一次性转换,而是停止语音输入后,立马输出,可以多次输入与转换。文章来源地址https://www.toymoban.com/news/detail-850472.html
到了这里,关于记录在linux上使用科大讯飞的语音识别的全过程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!