GitHub 开源神器 Bark模型，让文本转语音更简单

这篇具有很好参考价值的文章主要介绍了GitHub 开源神器 Bark模型，让文本转语音更简单。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

今天跟大家分享一个文本转语音的开源模型：Bark

Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流，如大笑、叹息和哭泣。

GitHub 开源神器 Bark模型，让文本转语音更简单

该项目刚开源不久， GitHub Star 数也达到了 4500+，估计很快就破万了。现在详细介绍下该项目的功用吧。

功能概况：

非常真实自然的语音
英文效果最佳，其他语言还欠佳
支持通过文本生成歌曲
支持生成背景噪音、简单的音效
支持大笑、叹息、哭泣

💻安装

pip install git+https://github.com/suno-ai/bark.git

或者

git clone https://github.com/suno-ai/bark
cd bark && pip install .

🛠️硬件和推理速度

Bark 经过测试，可在 CPU 和 GPU（pytorch 2.0+、CUDA 11.7 和 CUDA 12.0）上运行。运行 Bark 需要运行 >100M 的参数转换器模型。在现代 GPU 和 PyTorch nightly 上，Bark 可以大致实时地生成音频。在较旧的 GPU、默认 colab 或 CPU 上，推理时间可能会慢 10-100 倍。

支持的语言

语言	地位
英语 (zh)	✅
德语 (de)	✅
西班牙语	✅
法语 (fr)	✅
印地语（嗨）	✅
意大利语（它）	✅
日语 (ja)	✅
韩文 (ko)	✅
波兰语（复数）	✅
葡萄牙语 (pt)	✅
俄语 (ru)	✅
土耳其语 (tr)	✅
简体中文 (zh)	✅

🤖用法

from bark import SAMPLE_RATE, generate_audio
from IPython.display import Audio

text_prompt = """
     Hello, my name is Suno. And, uh — and I like pizza. [laughs] 
     But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
Audio(audio_array, rate=SAMPLE_RATE)

要保存audio_array为 WAV 文件：

from scipy.io.wavfile import write as write_wav

write_wav("/path/to/audio.wav", SAMPLE_RATE, audio_array)

Bark 支持开箱即用的各种语言，并自动根据输入文本确定语言。当出现代码转换文本提示时，Bark 将尝试使用相应语言的本地口音。英语质量目前是最好的。

text_prompt = """
    Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo. 
    But I suppose your english isn't terrible.
"""
audio_array = generate_audio(text_prompt)

🎶音乐

Bark 可以生成所有类型的音频，并且原则上看不出语音和音乐之间的区别。有时 Bark 选择将文本生成为音乐，可以通过在歌词周围添加音符来帮助它。

text_prompt = """
    ♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)

👥扬声器提示

您可以提供特定的演讲者提示，例如旁白、男人、女人等。请注意，这些提示并不总是得到尊重，尤其是在给出冲突的音频历史提示时。

text_prompt = """
    WOMAN: I would like an oatmilk latte please.
    MAN: Wow, that's expensive!
"""
audio_array = generate_audio(text_prompt)

注意：使用Python执行代码时，会默认识别电脑上有无GPU，如果没有GPU则会下载可用于CPU的训练模型，默认模型文件下载地址为当前用户目录.cache文件夹下，可以通过配置XDG_CACHE_HOME环境变量指定模型下载位置

赶快给你的同行朋友们安利一波，一起体验一下它的神奇功用吧。文章来源地址https://www.toymoban.com/news/detail-439339.html

到了这里，关于GitHub 开源神器 Bark模型，让文本转语音更简单的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

GitHub 开源神器 Bark模型，让文本转语音更简单

💻安装

🛠️硬件和推理速度

🤖用法

🎶音乐

👥扬声器提示

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2