【AI声音克隆】教你如何“夺取“别人的声音!GPT-SoVITS整合包发布(WIN/MAC)

这篇具有很好参考价值的文章主要介绍了【AI声音克隆】教你如何“夺取“别人的声音!GPT-SoVITS整合包发布(WIN/MAC)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

今天给大家分享一个声音克隆的项目。我们只要上传一分钟的语音,就可以完美复刻任意角色的语音语气、语调,实现声音情感的真实复刻,而且它还支持中日英等多个语种。我为大家制作了Windows版本和Mac版本的整合包(文章末尾自取)

首先听下我用了四位朋友的一分钟的语音素材来训练的音频效果。

声音演示

下面我分享制作流程,篇幅较长,多图,但是步骤很简单。

安装与启动

Win:

Windows用户将下载好的压缩包解压到本地目录,双击启动器.exe即可。

gpt-sovits mac,人工智能,macos,windows

耐心等待一会儿,会自动打开一个网页。这就是程序的主界面。

gpt-sovits mac,人工智能,macos,windows

Mac:

Mac用户由于权限设置会比Windows相对麻烦些,首先解压压缩包,来到项目路径下,我们看到这两个文件是文稿形式,这时我们需要开启下文件权限才可以使用。

gpt-sovits mac,人工智能,macos,windows

回到最外层文件夹,也就是你解压包所在的目录。

gpt-sovits mac,人工智能,macos,windows

打开终端

gpt-sovits mac,人工智能,macos,windows

输入指令sudo chmod -R 777 ,然后将文件夹拖拽进终端内。

gpt-sovits mac,人工智能,macos,windows

完整命令,别忘了777后有个空格

gpt-sovits mac,人工智能,macos,windows

之后按下回车。这时需要输入屏幕密码,我们输入密码后按回车。(输入的时候密码不会显示)

gpt-sovits mac,人工智能,macos,windows

执行完毕,我们可以将终端窗口关闭。

gpt-sovits mac,人工智能,macos,windows

再次回到项目目录内,可以看到刚才的两个文件已经变成Unix可执行文件的格式。这就代表成功了,如果这两个文件没变成Unix可执行文件的格式,你需要检查下上一步是否正确执行。

gpt-sovits mac,人工智能,macos,windows

接下来,Mac用户还需要开启允许任何来源APP的权限才可以完全使用。如果你不知道你的电脑是否开启了这个选项,你可以进入系统设置--隐私与安全性--安全性,查看是否是任何来源选项。

gpt-sovits mac,人工智能,macos,windows

如果你已经开启,请忽略下面的步骤,如果不是任何来源选项,根据下面步骤开启。

双击来源开启。

gpt-sovits mac,人工智能,macos,windows

选择打开。

gpt-sovits mac,人工智能,macos,windows

提示需要输入锁屏密码。输入完毕后按回车。

gpt-sovits mac,人工智能,macos,windows

显示开启成功,可以将终端窗口关掉。

gpt-sovits mac,人工智能,macos,windows

到这里为止,Mac用户使用前的权限都开启了。后续使用无需重复执行以上步骤,直接点击启动器启动即可。

双击启动器。弹出的询问框点击打开。

gpt-sovits mac,人工智能,macos,windows

gpt-sovits mac,人工智能,macos,windows

耐心等待一会儿,会自动打开一个网页。这就是程序的主界面。

gpt-sovits mac,人工智能,macos,windows

开始操作

从这里开始,Windows用户和Mac用户的操作步骤是一样的。

分三大步骤:

  1. 数据集处理。

  2. 模型训练。

  3. 推理模型。

数据集处理

请认真准备数据集!以免后面出现各种报错,和炼出不理想的模型!好的数据集是炼出好的模型的基础!

首先我们需要准备一段音频文件,准备一段人物说话的音频即可。

音频标准:

  • 音频里不要有嘈杂的环境音、噪音、背景音乐等。

  • 音频长度30s-60s。

  • 音频格式为wav。

下面是我用的音频,可以参考下:

原音频参考

如果你的音频里有背景音乐等杂音,需要执行下面步骤进行处理,如果没有请忽略。

音频处理

勾选此选项,然后会自动进入声音处理界面。

gpt-sovits mac,人工智能,macos,windows

第一步拖拽需要处理的音频。第二步根据说明来选择对应的模型,一般选择HP3就足够了。第三步选择导出文件格式为WAV

gpt-sovits mac,人工智能,macos,windows

然后点击转换,耐心等待一会儿。

gpt-sovits mac,人工智能,macos,windows

当输出信息这一栏有Success字样就完成了音频的处理。

gpt-sovits mac,人工智能,macos,windows

可以在项目路径下:output--uvr5_opt文件夹下找到处理的两个音频文件。一个是伴奏,一个是人声。我们训练需要用到人声部分。

gpt-sovits mac,人工智能,macos,windows

处理完毕后我们来到主界面将这个选项关闭。

gpt-sovits mac,人工智能,macos,windows

音频切分

这里填入准备好的音频路径。然后点击开启语音切割

gpt-sovits mac,人工智能,macos,windows

切分好的音频在GPT-SoVITS-main/output/slicer_opt文件夹内。

gpt-sovits mac,人工智能,macos,windows

音频降噪

这一步根据你的音频质量来,如果噪音不大,此步骤可以忽略不执行。

这里填入上一步切分好的音频路径。点击开启语音降噪

gpt-sovits mac,人工智能,macos,windows

降噪完成。

gpt-sovits mac,人工智能,macos,windows

降噪完成的音频文件在GPT-SoVITS-main/output/denoise_opt文件夹内。

gpt-sovits mac,人工智能,macos,windows

音频打标

这一步只需要填写输入文件夹路径。如果你音频降噪过,那么是GPT-SoVITS-main/output/denoise_opt文件夹,如果你切分了没有降噪,那么是GPT-SoVITS-main/output/slicer_opt文件夹。其他选项保持默认,然后点击开启离线批量ASR

gpt-sovits mac,人工智能,macos,windows

补充:这里模型选项默认是中文,如果你想训练中英混合的模型、日文、韩文等其他语言。你需要在ASR模型选项选择Faster Whisper (多语种),ASR语言设置选择auto

gpt-sovits mac,人工智能,macos,windows

校对标注

这一步比较费时间,如果不追求极致效果,可以忽略这一步。

填入标注文件的路径。GPT-SoVITS-main/output/asr_opt/denoise_opt.list

gpt-sovits mac,人工智能,macos,windows

勾选是否开启打标WebUI

gpt-sovits mac,人工智能,macos,windows

然后会跳转到打标网页,红框区域是根据音频生成对应的文字。黄框区域是对应的音频。这一步要做的是试听,然后根据音频来修改前面的文字和断句。

gpt-sovits mac,人工智能,macos,windows

比如我们根据音频在句子中增加来断句。

修改前:

gpt-sovits mac,人工智能,macos,windows

修改后:

gpt-sovits mac,人工智能,macos,windows

修改完后需要点击Submit TextSave File来保存。

gpt-sovits mac,人工智能,macos,windows

如果你的音频文件很长,你需要进行翻页操作对每句话进行校对,Previous IndexNext Index是上一页和下一页。

gpt-sovits mac,人工智能,macos,windows

当你校对完成后,记得保存,随后关闭这个页面就可以了。回到主界面,关闭勾选。

gpt-sovits mac,人工智能,macos,windows

output目录文件夹介绍。没执行过降噪或者是音频处理就不会有denoise_optuvr5_opt文件夹。

gpt-sovits mac,人工智能,macos,windows

模型训练

训练集格式化

接下来开始训练模型,点击GPT-SoVITS-TTS进入新的界面。

gpt-sovits mac,人工智能,macos,windows

选择训练格式化工具这一栏。在训练模型前我们需要对数据集进行修改操作。

gpt-sovits mac,人工智能,macos,windows

这里填写标注文件的路径GPT-SoVITS-main/output/asr_opt/denoise_opt.list

gpt-sovits mac,人工智能,macos,windows

点击一键三连。其他开启文本获取开启ssl提取开启语义token提取选项不用执行。一键三连会自动执行上述步骤。

gpt-sovits mac,人工智能,macos,windows

执行完毕后我们可以看到GPT-SoVITS-main/logs文件夹下会生成一个跟模型名一样的文件夹。(模型名称可以修改,不要用中文)

gpt-sovits mac,人工智能,macos,windows

gpt-sovits mac,人工智能,macos,windows

微调训练

进入微调训练这一栏

gpt-sovits mac,人工智能,macos,windows

这里需要调整SoVITS训练参数和GPT训练参数,每张显卡的batch_size总训练轮数我这里设置的是15,总训练轮数一般设置成10。这两个参数根据电脑配置来自行调整。训练轮数千万不能高于20学习率保持默认值。保存频率设置为5。其他选项为默认。

gpt-sovits mac,人工智能,macos,windows

然后先点开启SoVITS训练,训练完后再点开启GPT训练,不可以一起训练(除非你有两张卡)!如果中途中断了,直接再点开始训练就好了,会从最近的保存点开始训练。

两个训练都完成后我们可以去模型文件夹确认下。两个训练生成的模型分别在GPT-SoVITS-main/SoVITS_weightsGPT-SoVITS-main/GPT_weights文件夹内。

gpt-sovits mac,人工智能,macos,windows

gpt-sovits mac,人工智能,macos,windows

模型推理

来到推理界面

gpt-sovits mac,人工智能,macos,windows

点击刷新模型路径

gpt-sovits mac,人工智能,macos,windows

选择对应的模型,e代表轮数,s代表步数。不是轮数越高越好,这里我选择了最低的轮数5进行推理。如果你选择轮数为5的推理后的音频效果不理想,可以选择更高轮数的模型。

gpt-sovits mac,人工智能,macos,windows

勾选打开推理界面。

gpt-sovits mac,人工智能,macos,windows

推理界面

gpt-sovits mac,人工智能,macos,windows

确认下模型是否跟我们刚才选的一样。

gpt-sovits mac,人工智能,macos,windows

然后上传一段参考音频,建议是数据集中的音频。最好5秒。参考音频很重要!会学习语速和语气,请认真选择。

gpt-sovits mac,人工智能,macos,windows

这里我选择的是降噪切分后的音频。

gpt-sovits mac,人工智能,macos,windows

参考音频的文本是参考音频说什么就填什么,语种也要对应。

gpt-sovits mac,人工智能,macos,windows

接着就是输入要合成的文本了,注意语种要对应。切分选择凑50字一切,没超过50字的不会切。然后点击合成语音。

gpt-sovits mac,人工智能,macos,windows

生成的语音

生成音频

如果你要合成的文本中有英文,你需要选择对应的语种。

gpt-sovits mac,人工智能,macos,windows

gpt-sovits mac,人工智能,macos,windows

gpt-sovits mac,人工智能,macos,windows

如果你发现选择中英混合或者其他语种推理的音频效果不太理想,你的准备音频可以是中英混合的,中文掺杂着英文,然后生成标注的时候就选择多语种。

gpt-sovits mac,人工智能,macos,windows

至此,我们训练好了一个声音模型并可以用它生成任何音频。

整合包获取

gpt-sovits mac,人工智能,macos,windows

关注公众号,发送0301关键字获取整合包

gpt-sovits mac,人工智能,macos,windows

gpt-sovits mac,人工智能,macos,windows

常见问题:

如何训练第二个模型?

将以下几个路径下的文件移走或者删除。否则第二次训练的时候会造成数据混淆。

标注文件夹GPT-SoVITS-main/output/asr_opt

噪音音频切分文件夹GPT-SoVITS-main/output/denoise_opt

音频切分文件夹GPT-SoVITS-main/output/slicer_opt

如果你第二次不修改模型名字,那你需要将GPT-SoVITS-main/logs/文件夹内的模型同名文件夹移走或删除。也可以直接修改模型名字。

如何分享我训练的模型?

将下面这两个路径下的文件粘贴到别人的同样的目录下即可。

GPT-SoVITS-main/SoVITS_weights

GPT-SoVITS-main/GPT_weights

怎么样才算训练好一个模型?

这个问题其实没有一个准确答案,模型的训练取决于你的数据集质量、时长,轮数,等因素。每次训练完成后听下看看是否满足你的心里预期。如果你的模型推理出来的效果一直不理想,你应该重点关注下你的数据集是否有问题。

感谢

本次的分享结束啦,最后感谢樱子老师、阳光老师、贝贝老师、翅膀同学提供的音频素材。

本文出现的所有音频仅供参考,未经授权禁止商用。

如果本文对您有帮助,还请点个赞,感谢您的阅读。文章来源地址https://www.toymoban.com/news/detail-844532.html

到了这里,关于【AI声音克隆】教你如何“夺取“别人的声音!GPT-SoVITS整合包发布(WIN/MAC)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPT-SoVITS-WebUI 克隆声音 macos搭建

    激活环境 conda activate GPTSoVits 停用 conda deactivate 强大的少样本语音转换与语音合成Web用户界面 GPT-SoVITS指南

    2024年02月21日
    浏览(30)
  • 手把手教你声音克隆(so-vits-svc)

    随着ChatGPT的爆火,AIGC(人工智能生成内容)再一次走到人们眼前。尤其是在文本、图像生成领域,通过GPT-4、Midjourney等应用生成各种令人惊叹定的文本和图片。 但 AI 在生成方面的能力,可远非如此如此。 我用长约一个小时的音频数据,训练了一个 AI 音色转换模型,生成了

    2024年02月03日
    浏览(79)
  • GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰

    本次分享一下如何将GPT-SoVITS接入SillyTavern-1.11.5项目,让让AI女友声若幽兰,首先明确一下,SillyTavern-1.11.5只是一个前端项目,它没有任何大模型文本生成能力,所以后端必须有一个api服务来流式生成对话文本,这里选择koboldcpp。 首先看一下简单的项目运行架构图: 这里Sill

    2024年04月25日
    浏览(28)
  • 五音不全?手把手教你用自己声音唱任何歌;最详细的Auto-GPT整理;4月AI绘画模型推荐;HayoAI平台简直太酷了 | ShowMeAI日报

    👀 日报周刊合集 | 🎡 生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! OpenAI 近期面向部分用户发放了 Code Interpreter (代码解释器) 插件使用权限,推上目前满屏惊讶脸 😮 拿到权限的用户,展示了使用 Code Interpreter插件进行的诸多尝试: 1 . 处理图片。输出动态二维码

    2024年02月09日
    浏览(45)
  • [AI语音克隆] 5秒内克隆您的声音并生成任意语音内容

    随着人工智能技术的不断发展,语音克隆技术也得到了越来越多的关注和研究。目前,AI语音克隆技术已经可以实现让机器模拟出一个人的声音,甚至可以让机器模拟出一个人的语言习惯和表情。 然而,AI语音克隆技术仍然面临着许多难点和痛点。首先,现有的语音克隆技术

    2024年02月08日
    浏览(21)
  • 如何制作正能量励志语录短视频保姆级教程: AIGC生成脚本+ elevenlabs AI声音克隆+AI生图+PikaLabs生短视频+Pexels素材+剪映视频剪辑实操全流程演示

    课程场景:适合口才不好,文笔不好,不愿意出镜的相关人员学习,经常演讲但是没有时间做口播做录制的老板、讲师和专家,学完本课,不管您是谁,您都将轻松简单的可以开始您的Vlog或者自媒体账号的IP打造之路。 您将学到如何找爆款对标账号。 您将学到如何通过AIGC以

    2024年02月02日
    浏览(71)
  • 用Python实现AI声音克隆的原理和代码示例

    声音克隆是一种利用机器学习技术学习特定人说话的声音特征,并以此生成合成音频的技术,通常在语音合成和人机交互等领域有广泛的应用。下面是一个简单的Python实现示例: 1.数据收集 首先,需要从多个不同说话人的语音数据集中收集原始音频数据,并将其分为训练集和

    2024年02月12日
    浏览(23)
  • 2023.05.09-使用AI克隆孙燕姿的声音来进行唱歌

    如果我们想要克隆孙燕姿的声音,整体的思路很简单,首先找一些孙燕姿唱歌时没有伴奏的人声,然后把这个声音放到模型中进行训练拟合,让AI学习说话的这种声线风格,最后使用这个训练出来的模型进行推理和风格迁移,这样一首孙燕姿唱其他人歌曲的音频就制作出来了

    2024年02月05日
    浏览(42)
  • AI声音克隆模型常见问题汇总笔记(附解决方法,可评论区留言问题技术交流

    声明: 源码非原创,转载自小破站UP主Jack-Cui,文章部分内容来源网路,本文只用于技术分享,模型训练与语音输出已测试成功。 硬件配置工具及运行环境 名词解释: batch_size :计算效率和内存容量之间的平衡参数。若为高性能GPU,可以设置更大的batch_size值 epochs :所有样本

    2024年02月01日
    浏览(34)
  • 【git】Fork或者git clone克隆了别人项目,如何保持与原项目同步更新

    Workspace:工作区 Index / Stage:暂存区 Repository:仓库区(或本地仓库) Remote:远程仓库# 一、网页/服务端Fork别人的项目到你的Github 如何在 Github 网页端同步更新? 进入你自己的 fork 过来的仓库。 点击 “Pull requests” ,如何点击右侧绿色的 “New pull request”。Github 首先会比较

    2024年02月08日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包