GitHub 开源神器 Bark模型,让文本转语音更简单

这篇具有很好参考价值的文章主要介绍了GitHub 开源神器 Bark模型,让文本转语音更简单。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

今天跟大家分享一个文本转语音的开源模型:Bark

Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。

GitHub 开源神器 Bark模型,让文本转语音更简单

该项目刚开源不久, GitHub Star 数也达到了 4500+,估计很快就破万了。现在详细介绍下该项目的功用吧。

功能概况:

  • 非常真实自然的语音
  • 英文效果最佳,其他语言还欠佳
  • 支持通过文本生成歌曲
  • 支持生成背景噪音、简单的音效
  • 支持大笑、叹息、哭泣

💻安装

pip install git+https://github.com/suno-ai/bark.git

或者

git clone https://github.com/suno-ai/bark
cd bark && pip install . 

🛠️硬件和推理速度

Bark 经过测试,可在 CPU 和 GPU(pytorch 2.0+、CUDA 11.7 和 CUDA 12.0)上运行。运行 Bark 需要运行 >100M 的参数转换器模型。在现代 GPU 和 PyTorch nightly 上,Bark 可以大致实时地生成音频。在较旧的 GPU、默认 colab 或 CPU 上,推理时间可能会慢 10-100 倍。

支持的语言

语言 地位
英语 (zh)
德语 (de)
西班牙语
法语 (fr)
印地语(嗨)
意大利语(它)
日语 (ja)
韩文 (ko)
波兰语(复数)
葡萄牙语 (pt)
俄语 (ru)
土耳其语 (tr)
简体中文 (zh)

🤖用法

from bark import SAMPLE_RATE, generate_audio
from IPython.display import Audio

text_prompt = """
     Hello, my name is Suno. And, uh — and I like pizza. [laughs] 
     But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
Audio(audio_array, rate=SAMPLE_RATE)

要保存audio_array为 WAV 文件:

from scipy.io.wavfile import write as write_wav

write_wav("/path/to/audio.wav", SAMPLE_RATE, audio_array)

Bark 支持开箱即用的各种语言,并自动根据输入文本确定语言。当出现代码转换文本提示时,Bark 将尝试使用相应语言的本地口音。英语质量目前是最好的。

text_prompt = """
    Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo. 
    But I suppose your english isn't terrible.
"""
audio_array = generate_audio(text_prompt)

🎶音乐

Bark 可以生成所有类型的音频,并且原则上看不出语音和音乐之间的区别。有时 Bark 选择将文本生成为音乐,可以通过在歌词周围添加音符来帮助它。

text_prompt = """
    ♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)

👥扬声器提示

您可以提供特定的演讲者提示,例如旁白、男人、女人等。请注意,这些提示并不总是得到尊重,尤其是在给出冲突的音频历史提示时。

text_prompt = """
    WOMAN: I would like an oatmilk latte please.
    MAN: Wow, that's expensive!
"""
audio_array = generate_audio(text_prompt)

注意:使用Python执行代码时,会默认识别电脑上有无GPU,如果没有GPU则会下载可用于CPU的训练模型,默认模型文件下载地址为当前用户目录.cache文件夹下,可以通过配置XDG_CACHE_HOME环境变量指定模型下载位置

赶快给你的同行朋友们安利一波,一起体验一下它的神奇功用吧。文章来源地址https://www.toymoban.com/news/detail-439339.html

到了这里,关于GitHub 开源神器 Bark模型,让文本转语音更简单的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻

    2024年02月13日
    浏览(43)
  • 免费的语音识别 API:简单实现语音转文本功能

    语音识别技术在现代信息处理和人机交互中扮演着重要角色。如果您正在寻找免费的语音识别 API,那么您来对地方了!本文将向您介绍一个简单的方法来实现语音转文本的功能,并提供相应的源代码供参考。 首先,您需要使用 Python 编程语言来实现这个功能。Python 提供了许

    2024年02月03日
    浏览(7)
  • Github 打不开官网不能使用命令,现在一款简单又实用的免费 GitHub 加速神器介绍给你!

    Github 打不开官网不能使用命令,现在一款简单又实用的免费 GitHub 加速神器介绍给你!

    今天给继续大家推荐一个堪称 GitHub 加速神器的开源项目。 这个开源项目就是: FastGitHub ,它主要解决 GitHub 打不开、用户头像无法加载、releases 无法上传下载、git-clone、git-pull、git-push 失败等问题。 该项目的好处就是专门针对 GitHub 访问速度慢的问题,具有合法性,可靠性,

    2024年02月03日
    浏览(9)
  • 6款支持中文语音识别开源软件的简单使用

    6款支持中文语音识别开源软件的简单使用

    摘自百度百科 语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含

    2024年02月12日
    浏览(10)
  • 口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)

    不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可

    2024年02月02日
    浏览(6)
  • 语音识别系列︱paddlespeech的开源语音识别模型测试(三)

    语音识别系列︱paddlespeech的开源语音识别模型测试(三)

    参考: 语音识别系列︱用python进行音频解析(一) 语音识别系列︱paddlehub的开源语音识别模型测试(二) 上一篇paddlehub是一些预训练模型,paddlespeech也有,所以本篇就是更新paddlespeech里面的模型。 参考:PaddleSpeech 一键预测,快速上手Speech开发任务 PaddleSpeech 是 all-in-one 的语

    2024年02月05日
    浏览(13)
  • 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

    新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

    Coqui TTS 项目介绍 Coqui 文本转语音(Text-to-Speech,TTS)是新一代基于深度学习的低资源零样本文本转语音模型,具有合成多种语言语音的能力。该模型能够利用共同学习技术,从各语言的训练资料集转换知识,来有效降低需要的训练资料量。 这个模型库现在已经在GitHub上开源

    2024年02月07日
    浏览(14)
  • Whisper OpenAI开源语音识别模型

    Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除

    2024年02月16日
    浏览(38)
  • .Net 使用OpenAI开源语音识别模型Whisper

    .Net 使用OpenAI开源语音识别模型Whisper

    .Net 使用OpenAI开源语音识别模型 Whisper Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的 Whisper 神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的

    2024年02月08日
    浏览(37)
  • suno有了新对手udio炸裂音乐圈;又一个开源AI Devin 程序员;完全开源轻量级的文本到语音可生成特定说话者的风格

    suno有了新对手udio炸裂音乐圈;又一个开源AI Devin 程序员;完全开源轻量级的文本到语音可生成特定说话者的风格

    ✨ 1: udio 由音乐和科技界重量级人物支持的强大 AI 音乐生成器,被称为音乐界的另一个 ChatGPT。 Udio 由前 Google DeepMind的研究院和工程师创立,得到了a16z的支持,总部在伦敦和纽约。 目前是一个免费的V1测试版产品,每个人每个月可以生成最多 1200 首歌曲。 Udio是一个强大的

    2024年04月26日
    浏览(10)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包