首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法

这篇具有很好参考价值的文章主要介绍了首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法

Bert-vits2项目又更新了,更新了一个新的分支:中文特化,所谓中文特化,即针对中文音色的特殊优化版本,纯中文底模效果百尺竿头更进一步,同时首次引入了大模型,使用国产IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型作为Bert特征提取,基本上完全解决了发音的bad case,同时在情感表达方面有大幅提升,可以作为先前V1.0.1纯中文版本更好的替代。

更多情报请参见Bert-vits2项目官网:

https://github.com/fishaudio/Bert-VITS2/releases/tag/Extra

本次我们基于Bert-vits2中文特化版本通过40秒素材复刻巫师3角色叶奈法(Yennefer)的音色。

配置Bert-vits2中文特化版本

首先克隆项目:

git clone https://github.com/v3ucn/Bert-VITS2-Extra_-.git

注意这里是针对官方的Extra分支的修改版本,增加了音频切分和转写。

随后下载新的纯中文底模:

https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/show_model

同时还需要下载IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型的预训练模型:

值得一提的是,这个新炼的纯中文底模非常牛逼,官方作者仅通过一个5秒的素材就可以完美复刻音色。

关于作者的中文特化底模极限测试:

https://www.bilibili.com/video/BV1Fa4y1B7HB/

随后将模型放入对应的文件夹,bert模型文件结构如下:

E:\work\Bert-VITS2-Extra\bert>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
│   bert_models.json  
│  
├───bert-base-japanese-v3  
│       .gitattributes  
│       config.json  
│       README.md  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───bert-large-japanese-v2  
│       .gitattributes  
│       config.json  
│       README.md  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───chinese-roberta-wwm-ext-large  
│       .gitattributes  
│       added_tokens.json  
│       config.json  
│       pytorch_model.bin  
│       README.md  
│       special_tokens_map.json  
│       tokenizer.json  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───deberta-v2-large-japanese  
│       .gitattributes  
│       config.json  
│       pytorch_model.bin  
│       README.md  
│       special_tokens_map.json  
│       tokenizer.json  
│       tokenizer_config.json  
│  
├───deberta-v2-large-japanese-char-wwm  
│       .gitattributes  
│       config.json  
│       pytorch_model.bin  
│       README.md  
│       special_tokens_map.json  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───deberta-v3-large  
│       .gitattributes  
│       config.json  
│       generator_config.json  
│       pytorch_model.bin  
│       README.md  
│       spm.model  
│       tokenizer_config.json  
│  
├───Erlangshen-DeBERTa-v2-710M-Chinese  
│       config.json  
│       special_tokens_map.json  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───Erlangshen-MegatronBert-1.3B-Chinese  
│       config.json  
│       pytorch_model.bin  
│       vocab.txt  
│  
└───Erlangshen-MegatronBert-3.9B-Chinese  
        config.json  
        special_tokens_map.json  
        tokenizer_config.json  
        vocab.txt

很明显,这里关于Erlangshen-MegatronBert大模型,其实有三个参数选择,有710m和1.3b以及3.9B,作者选择了居中的1.3b大模型。

这里介绍一下国产的Erlangshen-MegatronBert大模型。

Erlangshen-MegatronBert 是一个具有 39 亿参数的中文 BERT 模型,它是目前最大的中文 BERT 模型之一。这个模型的编码器结构为主,专注于解决各种自然语言理解任务。它同时,鉴于中文语法和大规模训练的难度,使用了四种预训练策略来改进 BERT,Erlangshen-MegatronBert 模型适用于各种自然语言理解任务,包括文本生成、文本分类、问答等,这个模型的权重和代码都是开源的,可以在 Hugging Face 和 CSDN 博客等平台上找到。

Erlangshen-MegatronBert 模型可以应用于多种领域,如 AI 模拟声音、数字人虚拟主播等。

另外需要注意的是,clap模型也已经回归,结构如下:

E:\work\Bert-VITS2-Extra\emotional\clap-htsat-fused>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
    .gitattributes  
    config.json  
    merges.txt  
    preprocessor_config.json  
    pytorch_model.bin  
    README.md  
    special_tokens_map.json  
    tokenizer.json  
    tokenizer_config.json  
    vocab.json  
  
No subfolders exist

clap主要负责情感风格的引导。2.3版本去掉了,中文特化又加了回来。

至此模型就配置好了。

Bert-vits2中文特化版本训练和推理

首先把叶奈法的音频素材放入角色的raw目录。

随后需要对数据进行预处理操作:

python3 audio_slicer.py  
python3 short_audio_transcribe.py

这里是切分和转写。

接着运行预处理的webui:

python3 webui_preprocess.py

这里需要注意的是,bert特征文件的生成会变慢,因为需要大模型的参与。

后续应该会有一些改进。

数据处理之后,应该包括重采样音频,bert特征文件,以及clap特征文件:

E:\work\Bert-VITS2-Extra\Data\Yennefer\wavs>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
    Yennefer_0.bert.pt  
    Yennefer_0.emo.pt  
    Yennefer_0.spec.pt  
    Yennefer_0.wav  
    Yennefer_1.bert.pt  
    Yennefer_1.emo.pt  
    Yennefer_1.spec.pt  
    Yennefer_1.wav  
    Yennefer_10.bert.pt  
    Yennefer_10.emo.pt  
    Yennefer_10.spec.pt  
    Yennefer_10.wav  
    Yennefer_11.bert.pt  
    Yennefer_11.emo.pt  
    Yennefer_11.spec.pt  
    Yennefer_11.wav  
    Yennefer_12.bert.pt  
    Yennefer_12.emo.pt  
    Yennefer_12.spec.pt  
    Yennefer_12.wav  
    Yennefer_13.bert.pt  
    Yennefer_13.emo.pt  
    Yennefer_13.spec.pt  
    Yennefer_13.wav  
    Yennefer_14.bert.pt  
    Yennefer_14.emo.pt  
    Yennefer_14.spec.pt  
    Yennefer_14.wav  
    Yennefer_15.bert.pt  
    Yennefer_15.emo.pt  
    Yennefer_15.spec.pt  
    Yennefer_15.wav  
    Yennefer_16.bert.pt  
    Yennefer_16.emo.pt  
    Yennefer_16.spec.pt  
    Yennefer_16.wav  
    Yennefer_17.bert.pt  
    Yennefer_17.emo.pt  
    Yennefer_17.spec.pt  
    Yennefer_17.wav  
    Yennefer_18.bert.pt  
    Yennefer_18.emo.pt  
    Yennefer_18.spec.pt  
    Yennefer_18.wav  
    Yennefer_19.bert.pt  
    Yennefer_19.emo.pt  
    Yennefer_19.spec.pt  
    Yennefer_19.wav  
    Yennefer_2.bert.pt  
    Yennefer_2.emo.pt  
    Yennefer_2.spec.pt  
    Yennefer_2.wav  
    Yennefer_20.bert.pt  
    Yennefer_20.emo.pt  
    Yennefer_20.spec.pt  
    Yennefer_20.wav  
    Yennefer_3.bert.pt  
    Yennefer_3.emo.pt  
    Yennefer_3.spec.pt  
    Yennefer_3.wav  
    Yennefer_4.bert.pt  
    Yennefer_4.emo.pt  
    Yennefer_4.spec.pt  
    Yennefer_4.wav  
    Yennefer_5.bert.pt  
    Yennefer_5.emo.pt  
    Yennefer_5.spec.pt  
    Yennefer_5.wav  
    Yennefer_6.bert.pt  
    Yennefer_6.emo.pt  
    Yennefer_6.spec.pt  
    Yennefer_6.wav  
    Yennefer_7.bert.pt  
    Yennefer_7.emo.pt  
    Yennefer_7.spec.pt  
    Yennefer_7.wav  
    Yennefer_8.bert.pt  
    Yennefer_8.emo.pt  
    Yennefer_8.spec.pt  
    Yennefer_8.wav  
    Yennefer_9.bert.pt  
    Yennefer_9.emo.pt  
    Yennefer_9.spec.pt  
    Yennefer_9.wav

随后训练即可:

python3 train_ms.py

结语

Bert-vits2中文特化版本引入了大模型,导致入门的门槛略微变高了一点,官方说至少需要8G显存才可以跑,实际上6G也是可以的,如果bert大模型选择参数更少的版本,相信运行的门槛会进一步的降低。

最后奉上整合包链接:文章来源地址https://www.toymoban.com/news/detail-777124.html

整合包链接:https://pan.quark.cn/s/754f236ef864

到了这里,关于首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Bert-vits2最终版Bert-vits2-2.3云端训练和推理(Colab免费GPU算力平台)

    对于深度学习初学者来说,JupyterNoteBook的脚本运行形式显然更加友好,依托Python语言的跨平台特性,JupyterNoteBook既可以在本地线下环境运行,也可以在线上服务器上运行。GoogleColab作为免费GPU算力平台的执牛耳者,更是让JupyterNoteBook的脚本运行形式如虎添翼。 本次我们利用

    2024年02月04日
    浏览(48)
  • Bert-vits2-2.3-Final,Bert-vits2最终版一键整合包(复刻生化危机艾达王)

    近日,Bert-vits2发布了最新的版本2.3-final,意为最终版,修复了一些已知的bug,添加基于 WavLM 的 Discriminator(来源于 StyleTTS2),令人意外的是,因情感控制效果不佳,去除了 CLAP情感模型,换成了相对简单的 BERT 融合语义方式。 事实上,经过2.2版本的测试,CLAP情感模型的效果

    2024年02月04日
    浏览(43)
  • Python - Bert-VITS2 语音推理服务部署

    目录 一.引言 二.服务搭建 1.服务配置 2.服务代码 3.服务踩坑 三.服务使用 1.服务启动 2.服务调用 3.服务结果 四.总结 上一篇文章我们介绍了如果使用 conda 搭建 Bert-VITS2 最新版本的环境并训练自定义语音,通过 1000 个 epoch 的训练,我们得到了自定义语音模型,本文基于上文得

    2024年02月02日
    浏览(39)
  • Python - Bert-VITS2 自定义训练语音

    目录 一.引言 二.前期准备 1.Conda 环境搭建 2.Bert 模型下载 3.预训练模型下载  三.数据准备 1.音频文件批量处理 2.训练文件地址生成 3.模型训练配置生成 4.训练文件重采样 5.Tensor pt 文件生成 四.模型训练 1.预训练模型 2.模型训练 3.模型收菜 五.总结 前面我们通过视频 OCR 技术识

    2024年01月20日
    浏览(47)
  • Bert-VITS-2 效果挺好的声音克隆工具

    持中日英三语训练和推理。内置干声分离,切割和标注工具,开箱即用。请点下载量右边的符号查看镜像所对应的具体版本号。 教程地址: sjj​​​​​​​CodeWithGPU | 能复现才是好算法 CodeWithGPU | GitHub AI算法复现社区,能复现才是好算法 https://www.codewithgpu.com/i/fishaudio/Ber

    2024年02月21日
    浏览(44)
  • bert-vits2本地部署报错疑难问题汇总

    bert-vits2.3 win 和wsl bert-vits2本地部署报错疑难问题汇总 问题1: Conda安装requirements里面依赖出现ERROR: No matching distribution found for opencc==1.1.6 解决方法 问题2: error: Microsoft Visual C++ 14.0 or greater is required. Get it with \\\"Microsoft C++ Build Tool 解决方法 安装VS2019 单独安装2个组件 问题3: 训练报错

    2024年02月19日
    浏览(34)
  • 基于GPT3.5逆向 和 本地Bert-Vits2-2.3 的语音智能助手

    各位读者你们好,我最近在研究一个语音助手的项目,是基于GPT3.5网页版的逆向和本地BertVits2-2.3 文字转语音,能实现的事情感觉还挺多,目前实现【无需翻墙,国内网络发送消息,返回答案文字和语音】,网站已上线并未公开链接,以下是演示GIF: 前端使用uni-app完成,登录

    2024年01月24日
    浏览(47)
  • 本地训练,开箱可用,Bert-VITS2 V2.0.2版本本地基于现有数据集训练(原神刻晴)

    按照固有思维方式,深度学习的训练环节应该在云端,毕竟本地硬件条件有限。但事实上,在语音识别和自然语言处理层面,即使相对较少的数据量也可以训练出高性能的模型,对于预算有限的同学们来说,也没必要花冤枉钱上“云端”了,本次我们来演示如何在本地训练

    2024年02月05日
    浏览(54)
  • 栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践(Python3.10)

    诸公可知目前最牛逼的TTS免费开源项目是哪一个?没错,是Bert-vits2,没有之一。它是在本来已经极其强大的Vits项目中融入了Bert大模型,基本上解决了VITS的语气韵律问题,在效果非常出色的情况下训练的成本开销普通人也完全可以接受。 BERT的核心思想是通过在大规模文本语

    2024年02月08日
    浏览(47)
  • 义无反顾马督工,Bert-vits2V210复刻马督工实践(Python3.10)

    Bert-vits2更新了版本V210,修正了日/英的bert对齐问题,效果进一步优化;对底模使用的数据进行优化和加量,减少finetune失败以及电音的可能性;日语bert更换了模型,完善了多语言推理。 更多情报请参考Bert-vits2官网: 最近的事情大家也都晓得了,马督工义无反顾带头冲锋,身

    2024年02月05日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包