使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

这篇具有很好参考价值的文章主要介绍了使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Whisper AI 是一种语音识别和转录软件,它使用人工智能 (AI) 将口头语言转换为书面文本。它旨在通过消除手动转录语音内容的需要来帮助个人和企业节省时间并提高工作效率。在下文中,您将学习如何使用 Whisper AI!

该软件能够识别和转录多种语言和口音的语音,并提供标点符号和格式选项等功能,以提高转录的准确性。Whisper AI 由 ChatGPT 的创建者 OpenAI 提供。

您可以在 https://openai.com/blog/whisper/ 找到 Whisper AI 的一般介绍:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

可以从 GitHub 检索 Whisper AI,存储库位于 https://github.com/openai/whisper:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

安装 Whisper AI

可以使用 Python 的包管理器 pip 安装语音转文本 AI:

$ pip install git+https://github.com/openai/whisper.git

由于模型很大,我们不会在本地下载和执行 Whisper AI。相反,我们将使用 Google 的 Colaboratory,这是一个可在浏览器中访问的云 Python 开发环境。Colaboratory 可在 https://colab.research.google.com/ 上找到,并且可以使用您的 Google 帐户访问。

创建一个新的 Colab notebook 并将其命名为WhisperAITest.ipynb如何使用个人重命名器高效地批量重命名文件就像您在以下屏幕截图中看到的那样:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

从运行时菜单中选择菜单项更改运行时类型,如以下屏幕截图所示:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

这会将您带到以下屏幕,您可以在其中更改设置 GPU 的硬件加速器:

通过应用此设置,我们确保您在执行 AI 模型时获得最佳性能。

为了安装 Whisper,我们需要使用以下两个命令,这些命令需要插入到 Colaboratory notebook 的第一个单元格中:

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

第一个命令是确保在开发环境中下载并安装了 Whisper AI 包。

通过使用第二个命令,我们安装了 ffmpeg 工具,这是一个完整的跨平台解决方案,用于记录、转换和流式传输音频和视频。Whisper 使用此工具来访问音频/视频文件。

为了执行这两个命令,您需要点击单元格左侧的执行按钮。然后您应该能够看到类似于以下内容的输出:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

将音频文件上传到 Colaboratory

接下来,打开 Colaboratory 左侧面板上的文件视图并上传一个包含英语语音音频流的示例 MP3 文件:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

运行 Whisper AI

准备就绪后,我们就可以通过以下方式在另一个代码单元中执行 whisper 命令来运行 Whisper:

!whisper "sample.mp3" --model medium.en

我们在此定义应处理先前上传的 sample.mp3 文件,并且我们选择 Whisper 的英语媒介模型。

执行此代码单元时,您首先会注意到正在下载模型。中型模型的总大小为 1.42 GB。下载完成后,将处理音频文件,我们将取回文本转录:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

除了代码执行单元格中显示的文本转录输出之外,您还可以看到文件也已添加到项目中:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

已添加的文件是:

  • 样本.mp3.json

  • 样本.mp3.srt

  • 样本.mp3.tsv

  • 样本.mp3.txt

  • 样本.mp3.vtt

这些文件包含生成的文本以及不同的格式。例如,文件 sample.mp3.txt 仅包含纯文本,而文件 sample.mp3.vtt 包含的文本格式为另外添加的时间戳信息。

如果您想了解所有 whisper 命令行选项的概览,您可以输入

!whisper -h

然后将为您提供所有可以使用的命令行选项的概述:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

选择正确的 Wisper AI 模型

在上一个示例中,我们一直在使用 medium.en 模型。该型号中等尺寸,仅支持英语。

Whisper AI 提供以下模型供您选择:

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

除了仅支持英语的型号外,还提供多语言型号。模型尺寸从小模型增加到大模型。通过使用更大的模型尺寸,您将获得更好的结果。但是,执行时间也在增加。

如果您不确定将哪种模型用于特定的转录任务,最好先从中等模型开始。

结论

总之,Whisper AI 是一款优秀的自由语音转文本 AI 工具,可以显着提高您的写作效率和生产力。凭借其先进的语音识别和转录技术,Whisper AI 可以准确地将口头内容转换为多种语言和口音的书面文本,使其成为个人和企业的多功能工具。因此,如果您正在寻找可靠且高效的语音转文本工具,请务必尝试使用 Whisper AI 并亲自体验 AI 驱动转录的强大功能!文章来源地址https://www.toymoban.com/news/detail-494344.html

到了这里,关于使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Whisper实现语音识别转文本

    #教程 主要参考开源免费离线语音识别神器whisper如何安装, OpenAI开源模型Whisper——音频转文字 Whisper是一个开源的 自动语音识别 系统,它在网络上收集了680,000小时的多语种和多任务监督数据进行训练,使得它可以将多种语言的音频转文字。 Whisper的好处是 开源免费、支持多

    2024年03月19日
    浏览(46)
  • [python]基于faster whisper实时语音识别语音转文本

    语音识别转文本相信很多人都用过,不管是手机自带,还是腾讯视频都附带有此功能,今天简单说下: faster whisper地址: https://github.com/SYSTRAN/faster-whisper https://link.zhihu.com/?target=https%3A//github.com/SYSTRAN/faster-whisper 实现功能: 从麦克风获取声音进行实时语音识别转文本 代码仅仅

    2024年02月03日
    浏览(40)
  • 【Python实用API】语音转文本-whisper

    (1)起因 :最近在油管上下载视频,但是下载后发现两个问题,一是下载的视频无字幕;二是找了半天油管的字幕下载途径,结果发现下载的字幕的提取效果不太好。于是乎发现OpenAI发布的 字幕提取 开源库Whisper可解决我的问题,因此写此博文只是为了记录我学习的过程,

    2024年04月13日
    浏览(35)
  • 关于python环境下的语音转文本,whisper或funASR

            因为前阵子,有需求要将语音转为文本再进行下一步操作。感觉这个技术也不算是什么新需求,但是一搜,都是大厂的api,或者是什么什么软件,由于想要免费的,同时也要嵌入在代码中,所以这些都不能用。、         一筹莫展的时候,突然搜到whisper,这是个o

    2024年02月08日
    浏览(42)
  • Whisper、React 和 Node 构建语音转文本 Web 应用程序

    在本文中,我们将使用 OpenAI 的 Whisper 以及 React、Node.js 和 FFmpeg 构建一个语音转文本应用程序。该应用程序将获取用户输入,使用 OpenAI 的 Whisper API 将其合成为语音,并输出结果文本。Whisper 提供了我用过的最准确的语音到文本转录,即使对于非英语母语人士也是如此。 Ope

    2024年02月13日
    浏览(52)
  • Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

    阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。 Whisper经常被人诟病的一点是对中文语音

    2024年01月25日
    浏览(43)
  • AI语音识别模块--whisper模块

    1.下载 ffmpeg,挑一个自己电脑系统的版本,下载,如我win64: 地址: Releases · BtbN/FFmpeg-Builds · GitHub 下载压缩包zip,到·本地 解压安装,其实无需安装,只需把对应的目录下的bin, 编辑环境变量的path,添加到环境变量即可!!! 不能科学的同学,可以到网盘地址,下载压缩

    2024年02月20日
    浏览(35)
  • whisper 语音识别AI 声音To文字

    Whisper  是一个由 OpenAI 训练并开源的神经网络,功能是语音识别,能把 语音 转换为 文字 ,在英语语音识别方面的稳健性和准确性接近人类水平。 1、Whisper支持语音转录和翻译两项功能并接受各种语音格式,模型中、英、法、德、意、日等主流语言上取得85%以上的准确率,完全

    2024年02月08日
    浏览(60)
  • 免费的语音识别 API:简单实现语音转文本功能

    语音识别技术在现代信息处理和人机交互中扮演着重要角色。如果您正在寻找免费的语音识别 API,那么您来对地方了!本文将向您介绍一个简单的方法来实现语音转文本的功能,并提供相应的源代码供参考。 首先,您需要使用 Python 编程语言来实现这个功能。Python 提供了许

    2024年02月03日
    浏览(53)
  • chatGPT的耳朵!OpenAI的开源语音识别AI:Whisper !

    语音识别是通用人工智能的重要一环!可以说是AI的耳朵! 它可以让机器理解人类的语音,并将其转换为文本或其他形式的输出。 语音识别的应用场景非常广泛,比如智能助理、语音搜索、语音翻译、语音输入等等。 然而,语音识别也面临着很多挑战,比如不同的语言、口

    2024年03月14日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包