通过Python的speech_recognition库将声音转为文字

这篇具有很好参考价值的文章主要介绍了通过Python的speech_recognition库将声音转为文字。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

大家好,我是空空star,本篇给大家分享一下通过Python的speech_recognition库将声音转为文字。
之前已经介绍了将音频文件转为文字,只依赖speech_recognition库,本篇将声音转为文字,除了speech_recognition库,还要依赖pyaudio库,而且mac用户需要安装PortAudio

Python-语音转文字相关库介绍


一、PortAudio

1.PortAudio是什么?

PortAudio是一种跨平台的音频I/O库,用于实现音频输入和输出功能。它提供了一种简单、一致的跨平台API,可以让开发者在不同操作系统上编写音频应用程序,如音频录制和播放器。PortAudio支持多种音频设备,包括音频接口、音频文件、网络流等,并且可以在各种操作系统上使用,如Windows、Mac OS X、Linux、Unix等。同时,PortAudio还提供了一些高级特性,如流控制、同步、缓冲管理、音频格式转换等。

2.安装PortAudio

macOS下:

brew install portaudio  

二、使用方法

1.引入库

import speech_recognition as sr

2.创建一个Recognizer对象

r = sr.Recognizer()

3.使用麦克风录音,从麦克风录制音频

# 使用麦克风录音
with sr.Microphone() as source:
    print("请说话...")
    # 从麦克风录制音频
    audio = r.listen(source)
    print("录音结束")

4.将音频转换为文字

try:
    # 将音频转换为文字
    text = r.recognize_google(audio, language=‘zh-CN’)
    print(“你说的是:”, text)
except sr.UnknownValueError:
    print(“Google Speech Recognition could not understand audio”)
except sr.RequestError as e:
    print(“Could not request results from Google Speech Recognition service; {0}”.format(e))

5.转换结果

声音:深度神经网络模型部署
请说话…
录音结束
你说的是: 深度神经网络模型部署
Process finished with exit code 0文章来源地址https://www.toymoban.com/news/detail-450092.html


总结

到了这里,关于通过Python的speech_recognition库将声音转为文字的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python 通过opencv及face_recognition识别人脸

    效果: 使用Python的cv2库和face_recognition库来进行人脸检测和比对的 0是代表一样 认为是同一人。 代码:

    2024年02月03日
    浏览(38)
  • Python OCR 使用easyocr库将图片中的文章提取出来

    EasyOCR是一个开源的Python库,专注于提供易用而准确的文字识别功能。它基于深度学习技术,使用了一种端到端的方法,能够在多种语言和字体下进行稳定的识别。 希望能写一些简单的教程和案例分享给需要的人 Python 3.10.12 系统: ubuntu 22.04 接下来我分享如何使用Python的easy

    2024年02月11日
    浏览(45)
  • 【Microsoft Azure 的1024种玩法】五十五.Azure speech service之通过JavaScript快速实现文本转换为语音

    文本转语音可使用语音合成标记语言 (SSML) 将输入文本转换为类似人类的合成语音,本篇文档主要介绍了如何通过JavaScript 的语音SDK实现文本转换为语音的实践操作 【Microsoft Azure 的1024种玩法】一.一分钟快速上手搭建宝塔管理面板 【Microsoft Azure 的1024种玩法】二.基于Azure云平

    2024年02月09日
    浏览(55)
  • python:基于GeoPandas和GeoViews库将GEDI激光高程数据映射到交互式地图

    作者:CSDN @ _养乐多_ 本文将介绍 GEDI(Global Ecosystem Dynamics Investigation)激光雷达数据某数据点波形数据提取,并绘制图表,添加其他图表元素并使图表具有交互性。 在本文中,我们将探索如何打开、读取和处理GEDI数据,并利用地理信息处理库GeoPandas和地理空间数据可视化库

    2024年02月15日
    浏览(48)
  • Speech | 语音处理,分割一段音频(python)

    本文主要是关于语音数据在处理过程中的一些脚本文件以及实例,所有代码只需要更改所需处理的文件路径,输出路径等,全部可运行。 目录 所需环境 方法1:将一整段音频按时间批量切成一个一个音频 方法2:将一整段音频按语句停顿批量切成一个一个音频 方法3:将一个

    2024年02月08日
    浏览(35)
  • python实现人脸识别(face_recognition)

    1、介绍 本项目是世界上最强大、简洁的人脸识别库,你可以使用Python和命令行工具提取、识别、操作人脸。 本项目的人脸识别是基于业内领先的C++开源库dlib中的深度学习模型,用Labeled Faces in the Wild人脸数据集进行测试,有高达99.38%的准确率。但对小孩和亚洲人脸的识别准

    2024年02月02日
    浏览(39)
  • Python语音合成-第三方库(gTTs/pyttsx3/speech)横评(内附使用代码)

    由于项目需要, 我需要 将文字转换为语音 , 那么第一步就要进行调研 语音合成(text to speech),简称TTS 。是将文字转化为语音的一种技术,是让计算机模拟人类的嘴巴,通过不同的音色说出想表达的内容, 是人机对话的一部分。 TTS可以通过 神经网络 的设计,把文字智能地转化

    2024年02月04日
    浏览(86)
  • 吉他如何实现内录or通过转接头和简易声卡连接电脑没有声音怎么办

    目录 效果器or智能音箱 电吉他和效果器的连接 效果器和耳机or音箱连接 内录方法 为什么用6.5mm(入)转3.5mm(出)转接头内录无声音 整体连接图示 这篇文章我会以通俗的语言为初学者描述如何让电吉他“燃起来”,效果器以MOOER魔耳POGO迷你电吉他综合效果器为示例。然后我

    2024年02月15日
    浏览(80)
  • 穿睡衣也能开会?仅通过声音就能实时生成你在会议中的形象 #xpression camera

    最近奥密克戎来袭,你也居家办公了吗?     居家办公最烦的就是要视频开会了! 脸没洗、穿着睡衣、素颜, 要如何应对突如其来的视频 call 呢? 近期, 株式会社 EmbodyMe 将 AI 的力量发挥到极致,推出了一款叫做“xpression camera Voice2Face”的应用,它能够将用户的声音实时

    2024年02月11日
    浏览(28)
  • 基于深度学习的手写数字识别项目GUI(Deep Learning Project – Handwritten Digit Recognition using Python)

    一步一步教你建立手写数字识别项目,需要源文件的请可直接跳转下边的链接:All project 在本文中,我们将使用MNIST数据集实现一个手写数字识别应用程序。我们将使用一种特殊类型的深度神经网络,即卷积神经网络。最后,我们将构建一个GUI,您可以在其中绘制数字并立即

    2024年02月11日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包