AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)

这篇具有很好参考价值的文章主要介绍了AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

随着人工智能技术的不断发展,语音克隆技术也得到了越来越多的关注和研究。目前,AI语音克隆技术已经可以实现让机器模拟出一个人的声音,甚至可以让机器模拟出一个人的语言习惯和表情。

然而,AI语音克隆技术仍然面临着许多难点和痛点。首先,现有的语音克隆技术仍然存在着语音质量不够高、语音还原度不够高等问题,难以达到真正的“以假乱真”效果。针对这些难点和痛点,我们团队基于开源项目MockingBird提出了一种新的AI语音克隆方案MockingVoice,通过采用更加先进的语音合成技术和更加严格的隐私保护措施,实现了更高质量的语音克隆效果和更加安全可靠的使用体验。我们相信,这种新的AI语音克隆技术将有助于为人们带来更加智能、便捷、安全的语音交互体验,为人们的生活和工作带来更多可能性。

一、MockingBird介绍

语音克隆,AIGC 人工智能,人工智能,ai,语音克隆,mockingbird,简介,部署

MockingBird是一款先进的TTS(文本到语音)项目,使用深度学习模型生成高质量的合成语音。它由一组热衷于自然语言处理和语音技术的研究人员和工程师开发。

关键特点:对普通话的支持。使用多个中文数据集进行训练,包括aidatatang_200zh、magicdata、aishell3、biaobei、MozillaCommonVoice和data_aishell,以确保生成的语音听起来自然流畅,可用于各种应用,包括语音助手、有声书和语言学习工具。

深度学习框架:Pytorch。使用PyTorch作为其主要深度学习框架,并已在2021年8月发布的最新版本PyTorch 1.9.0上进行了测试。它支持Tesla T4和GTX 2060 GPU,可以实现更快的训练和推理时间。

扩展性:易于使用和定制。提供了一个预训练的合成器,可立即使用,或者训练自己的合成器以生成符合您特定需求的语音。此外,您可以使用预训练的编码器和声码器,或使用实时的HiFi-GAN作为声码器来生成高质量的语音。

服务化:远程调用。Mocking Bird 支持Web服务,这意味着您可以轻松地将其部署在Web服务器上,并将其用于远程生成语音。这对于需要实时语音合成的应用程序或无法访问高端硬件的用户特别有用。

二、部署实践

1.环境安装

本文测试环境:Mac M1芯片 macos Monterey
Step 1 下载代码:下载git代码,https://github.com/babysor/MockingBird
Step 2 安装anaconda:可以从以下镜像站中:https://repo.anaconda.com/archive/ 找到适合你机器版本的镜像,下载安装。
安装完成后如图所示:

语音克隆,AIGC 人工智能,人工智能,ai,语音克隆,mockingbird,简介,部署

Step 3 构建虚拟python环境。
注:由于原git项目代码中依赖了不同版本的第三方库,有些库对python版本还有要求,因此建议按照本文给的版本进行安装,目前在M1上是测试通过的。
运行命令:conda create -n mock_voice python=3.9
激活虚拟环境 mock_voice:conda activate mock_voice
Step 4 安装第三方依赖库。
直接运行命令:pip install -r requirements.txt
基本上按照本文提供的git,下载安装没有问题。在安装过程中,如果遇到安装不了的,大家自行google。

2.下载预训练模型

这边我们可以直接下载社区开发者训练好的模型,直接拿来使用,下载地址如下:

下载链接 信息
https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g 百度盘链接 4j5d 75k steps 用3个开源数据集混合训练
https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw 百度盘链接 提取码:om7f 25k steps 用3个开源数据集混合训练, 切换到tag v0.0.1使用
https://drive.google.com/file/d/1H-YGOUHpmqKxJ9FRc6vAjPuqQki24UbC/view?usp=sharing 百度盘链接 提取码:1024 200k steps 台湾口音需切换到tag v0.0.1使用
https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ 提取码:2021 150k steps 注意:根据issue修复 并切换到tag v0.0.1使用

我们下载第一个模型,将文件放置在地址:data/ckpt/synthesizer/pretrained-11-7-21_75k.pt

三、运行工具箱

Step 1 使用Audacity录音:如果我们使用MockingBird自带的工具箱进行录音的话,最终克隆出来的声音往往效果不好。我们需要借助专业工具来录制自己的声音,并对声音进行去噪处理。下载软件:Audacity https://www.audacityteam.org/ 并安装

语音克隆,AIGC 人工智能,人工智能,ai,语音克隆,mockingbird,简介,部署

打开audacity,点击声音录制,并对录制完的声音进行降噪处理。

语音克隆,AIGC 人工智能,人工智能,ai,语音克隆,mockingbird,简介,部署

最后将录制的声音personal_test.wav导出到本地。

Step 2 运行工具箱:输入命令 python demo_toolbox.py ,此时会加载出一个界面

语音克隆,AIGC 人工智能,人工智能,ai,语音克隆,mockingbird,简介,部署

Step 3 加载录音

语音克隆,AIGC 人工智能,人工智能,ai,语音克隆,mockingbird,简介,部署

Step 4 Synthesize only:输入你想要测试的中文文本,并点击按钮Synthesize only
Step 5 Vocode only:点击按钮Vocode only

语音克隆,AIGC 人工智能,人工智能,ai,语音克隆,mockingbird,简介,部署

最后将生成的声音进行播放。

三、分析归纳

1.录制声音时长

最好将要克隆的音频长度限定在3-8秒之间。这与许多人的想法不同,他们认为输入语音越长,音色被捕捉的准确性就越高。然而,由于模型特性,提取音色特征的容量是有限的。对于比较长的音频,模型只会映射到一个相对较小的模型中,这并没有提高准确性。在训练过程中,通常喂入110秒的语音,因此长音频中的一些不寻常的停顿可能导致推理过于发散。因此,建议输入音频的最佳长度为3~8秒,而不是越长越好。

2.输入音频去除明显背景声/底噪

尽管经过一些优化,特别是在引入GST之后,最新的代码库可以在说话人编码器部分提取并分离一部分噪音特征,减少噪音的影响,因此即使存在一些底噪,也可以正常地进行克隆合成。但是,原始模型仍然容易因底噪而失去音色的提取。为了获得更好的克隆效果,我们建议使用专业的音频工具或者像使用开源工具Audacity这样的工具对输入音频进行预处理,去除明显的噪音。这样可以大大提高克隆效果。

3.输入音频确保只有一个人声

经过实测,当输入的音频包含超过一个人的声音时,克隆出来的声音会变得难以辨认(有时甚至像幽灵声音),而且往往无法正常生成符合质量要求的音频,并且容易出现丢字现象。

4.输入音频的说话声最好是平调

在克隆的过程中,歌声和激动的声音往往难以获得准确的音色特征。因此,为了获得更好的效果,建议输入音频中的说话声是正常的语调。

5.边合成(synthesize)边看mel spectrogram

合成过程中会加入一定的随机值,因此可以尝试只进行合成(synthesize)操作,查看合成推理输出的Mel频谱图,直到获得满意的结果后再进行vocoder输出。下面是一个比较好的Mel频谱图供参考:

其他

参考:[AI语音克隆] 5秒内克隆您的声音并生成任意语音内容_小虎AI实验室的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-650624.html

到了这里,关于AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践(Python3.10)

    诸公可知目前最牛逼的TTS免费开源项目是哪一个?没错,是Bert-vits2,没有之一。它是在本来已经极其强大的Vits项目中融入了Bert大模型,基本上解决了VITS的语气韵律问题,在效果非常出色的情况下训练的成本开销普通人也完全可以接受。 BERT的核心思想是通过在大规模文本语

    2024年02月08日
    浏览(41)
  • 批量生成,本地推理,人工智能声音克隆框架PaddleSpeech本地批量克隆实践(Python3.10)

    云端炼丹固然是极好的,但不能否认的是,成本要比本地高得多,同时考虑到深度学习的训练相对于推理来说成本也更高,这主要是因为它需要大量的数据、计算资源和时间等资源,并且对超参数的调整也要求较高,更适合在云端进行。 在推理阶段,模型的权重和参数不再调

    2024年02月09日
    浏览(38)
  • GPT-SoVITS-WebUI可以中文声音克隆开源AI工具简介

    引言:         近年来,随着人工智能技术的不断发展,语音技术已经成为了热门领域。尽管已有不少技术实现了一定程度的成功,但传统语音合成技术的问题依然存在。传统方法对于训练数据的需求量大、效果受到声音质量和口音差异的影响。因此,在语音技术领域中

    2024年04月13日
    浏览(24)
  • Ai数字人自动生成工具,数字人克隆系统源码,无限制克隆制作数字人

    一、Ai数字人自动生成工具 Ai数字人自动生成工具是一款基于人工智能技术的数字人制作工具。它可以根据用户提供的照片和文字信息,自动生成一个逼真的数字人。用户只需要上传照片和填写相关信息,就可以在几分钟内获得一个数字人。这个数字人可以用于虚拟演员、虚

    2024年02月09日
    浏览(40)
  • 字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)

    按照固有的思维方式,如果想要语音克隆首先得有克隆对象具体的语言语音样本,换句话说,克隆对象必须说过某一种语言的话才行,但现在,coqui-ai TTS V2.0版本做到了,真正的跨语种无需训练的语音克隆技术。 coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模

    2024年02月03日
    浏览(30)
  • AI 人声模拟,MockingBird实现AI拟声,声音处理,基础搭建和采坑处理。

    AI 人声模拟 MockingBird实现AI拟声 基础搭建和采坑处理。 1.下载项目 git@github.com:babysor/MockingBird.git https://github.com/babysor/MockingBird.git 此项目分两个版本 请注意 一个是主版本 一个是V0.0.1版本 现在主要是演示v0.0.1版本 2.基础环境 Anconada 安装 Anconada 安装 创建一个全新的conda环境 图

    2024年02月08日
    浏览(27)
  • whisper实践--基于whisper+pyqt5开发的语音识别翻译生成字幕工具

    大家新年快乐,事业生活蒸蒸日上,解封的第一个年,想必大家都回家过年,好好陪陪家人了吧,这篇文章也是我在老家码的,还记得上篇我带大家基本了解了whisper,相信大家对whisper是什么,怎么安装whisper,以及使用都有了一个认识,这次作为新年第一篇文章,我将介绍一

    2024年02月01日
    浏览(33)
  • AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

    在日常工作、生活中,语音识别技术作为基础服务,越来越多的出现在我们周围,比如智能音箱、会议记录、字幕生成等等。 作为一项已经很成熟AI技术,市面上很多厂商都会提供语音识别服务,对外声称的识别准确性也很高。 对于业务侧的我们,其实更关心的是在我们特定

    2024年02月09日
    浏览(40)
  • AI语音生成器是下一大安全威胁吗?

    ChatGPT一经上市,有关监管人工智能的讨论就开始升温。任何试图遏制这种技术的做法都可能需要国际合作,需要我们在过去几十年来从未见过的合作程度,因此不太可能遏制人工智能。 人工智能是一项功能强大的技术,有望彻底改变我们生活。这一点从来没有像今天这样昭

    2023年04月26日
    浏览(65)
  • AI数字人:基于VITS模型的中文语音生成训练

            VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型。         VITS模型是韩国科学院在2021年6月提出的,VITS通过隐变量而非频谱串联起来语

    2024年02月11日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包