接入谷歌的语音识别(speech-to-text)

这篇具有很好参考价值的文章主要介绍了接入谷歌的语音识别(speech-to-text)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

讲一下写这篇文章的背景。

因为需求需要,我们APP需要做一个语音转化成文字的功能。因为我们做的是海外产品,需要支持多语言,当前对多语言语音识别支持的最好的解决方案当属谷歌家的了。通过对谷歌的speech-to-text调研和一些其他原因,我们决定通过服务端去接入谷歌的功能,做一个封装,然后把语音识别能力提供给客户端。

谷歌的speech-to-text提供restapi和grpc两种接入方式。我们的应用场景选用的是grpc双向流式的接入方式,我们服务端使用的是go技术栈,所以使用的go接入的grpc。

在接入的过程中也遇到了很多问题,在网上查找资料的时候,发现好像没有相关的文章来解答我们的问题,包括外文社区。我们做了很多尝试和优化,最后才做到了可上线的状态,所以记录一下,顺便分享给大家。

踩了很多坑,总结下来,主要是有以下几方面需要注意:

  1. 对音频参数一定要配置正确,这需要客户端配合,比如客户端传过来的音频是什么格式、采样率多少、几个声道,这都很关键。

  1. 识别模型的选择,选择适合自己的模型

  1. 双向流的控制,控制好流的创建和关闭。1、谷歌的grpc-stream不能连接过长时间,基本不能超过5分钟;2、send接口不能调用的太频繁。

  1. 音频数据的缓存方案。我们是接收的客户端的音频实时流数据,需要对数据做临时保存,然后发送给Google,但是谷歌的grpc存在重启的情况,这就需要我们对在重启的时候做到减少数据的丢失。我对数据做了双层保存,第一层是先保存到通道,从通道拿出来,在传给谷歌之前在保存到buffer,buffer到了一定长度才发送给谷歌。这样的好处是即减少了发送的频率,又能减少流重启导致的数据丢失。

以上主要讲了接入过程中遇到的问题和一些解决方案和心得,具体的代码就不分享了。大家如果在接入过程中还遇到其他问题,可以找我沟通。文章来源地址https://www.toymoban.com/news/detail-527101.html

到了这里,关于接入谷歌的语音识别(speech-to-text)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【人工智能】谷歌的巴德聊天机器人向公众开放 | Google‘s Bard Chatbot Opens to the Public

      Google is trying to balance AI progress with caution. 谷歌正试图谨慎地平衡人工智能的进展。 目录 https://bard.google.com/

    2024年02月09日
    浏览(46)
  • 口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)

    不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可

    2024年02月02日
    浏览(51)
  • 谷歌的Bard怎么样?

    Bard是什么? ChatGPT: Bard可以指以下几种事物: Bard是一个英雄联盟(League of Legends)游戏中的角色名称,他是一个能够进行攻击和治疗的辅助英雄。 Bard是指中世纪欧洲的一类文学艺术家,主要从事吟游诗人的活动,通过口头传统的方式来讲述历史故事和传说。 Bard是指一种用

    2024年02月10日
    浏览(44)
  • UE4如何接入科大讯飞的语音识别

    本文用的是UE4 4.27测试 安卓版测试链接: 链接:https://pan.baidu.com/s/1CsdJecfyMTdxNd6XfSECQQ 提取码:m122 B站视频连接:https://space.bilibili.com/449549424?spm_id_from=333.1007.0.0 GitHub地址:https://github.com/zhangmei126/XunFei 第一步 新建一个VS的UE4 4.27项目工程(注意是UE4 4.27 VS项目) 第二步 新建一

    2023年04月08日
    浏览(55)
  • 谷歌的开源供应链安全

    本内容是对Go项目负责人Russ Cox 在 ACM SCORED 活动上 演讲内容 [1] 的摘录与整理。 SCORED 是 Software Supply Chain Offensive Research and Ecosystem Defenses 的简称, SCORED 23 [2] 于2023年11月30日在丹麦哥本哈根及远程参会形式举行。 摘要 💡 谷歌在开源软件供应链安全方面的工作 🔐 介绍供应链安

    2024年02月03日
    浏览(72)
  • 【Bard】来自谷歌的“吟游诗人”

    个人主页:【😊个人主页】 相比较ChatGPT的话题不断,谷歌的“Bard”显然低调了许多,在“画大饼”失败一个多月后,谷歌还是正式推出了“Bard”。 ( ps:到目前为止Bard并未正式向除美国英国以外的国家开放,即使其自称能够理解包括中文以内的200多种语言,但与其对话也

    2023年04月13日
    浏览(42)
  • 【ESP32S3 Sense接入百度在线语音识别】

    视频地址: ESP32S3 Sense接入百度在线语音识别 目前这是我使用的ESP32S3官方硬件👍👍👍(小小的身材有大大的力量)只需要35元加摄像头麦克风79元,后期我会整理相关专栏进行Arduino系统学习😘😘😘。有需要可以购买xiao开发板💕💕💕,SeeedXIAO ESP32S3 Sense硬件购买地址:

    2024年04月10日
    浏览(49)
  • 【ESP32S3 Sense接入语音识别+MiniMax模型+TTS模块语音播报】

    讲解视频: ESP32S3 AI助手使用MiniMax大模型生产工具1 大家好,今天的教程将围绕如何实现精准的语音播报功能展开,我们用到了ESP32S3 Sense接入语音识别+MiniMax模型对话+SNR9816TTS模块。 目前这是我使用的ESP32S3官方硬件👍👍👍(小小的身材有大大的力量)只需要35元加摄像头麦

    2024年04月12日
    浏览(63)
  • 谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

    声学室模拟允许在AR眼镜上以最少的真实数据进行训练,用于开发鲁棒的语音识别声音分离模型。 随着增强现实(AR)技术的强大和广泛应用,它能应用到各种日常情境中。我们对AR技术的潜能感到兴奋,并持续不断地开发和测试新技术与体验。其中一个研究方向是探索语音模

    2024年04月25日
    浏览(53)
  • 【ESP32S3 Sense接入语音识别+MiniMax模型对话】

    围绕ESP32S3 Sense接入语音识别+MiniMax模型对话展开,首先串口输入“1”字符,随后麦克风采集2s声音数据,对接百度在线语音识别,将返回文本结果丢入MiniMax模型,进而返回第二次结果文本,实现语言对话文本效果。以上一共有两次调用,后期只需加入tts模块就可完整对话。

    2024年04月16日
    浏览(69)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包