小白也能听懂的ai音声制作入门教程了!!!

这篇具有很好参考价值的文章主要介绍了小白也能听懂的ai音声制作入门教程了!!!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

小白也能听懂的ai音声制作:低配置,易入门

最近看到网上有很多懒羊羊唱歌的视频,略感兴趣,于是就学习了一番,并选出来一个配置最低和最容易入门的项目教给大家,…(以后有空会写其他的)

当当!!!
音声转换项目DDSP的介绍和使用

ddsp-3.0是一款ai合成音频的开源项目,与之前的sovits,rvc,diff-svc不同,DDSP在训练推理速度和配置要求上都可以说是全面优于前面几个项目,并且训练效果有sovits4.0的80~90%,效果还是很不错的,只需要一张2G以上显存的N卡,花上一两个小时就可以训练完成,大大降低了ai变声门槛。

虽然ddsp4.0更新了,但实际体验和3.0并未太大差别,而且由于网上还没有大佬制作一键包,不利于小白入门,所以以3.0为首选项。

下面就介绍ddsp-3.0的用法,首先下载b站up主[羽毛布団]的整合包DDSP-SVC 3.0 一站式整合包使用教程 (qq.com),该整合包使用图形化界面进行训练和推理,以及配备了urv5,au,自动切片工具等,老少皆宜,让我们先感谢赛博佛祖!

下载完毕后解压至电脑文件夹,先解压urv5,按照提示,把urv5模型解压到models文件夹,为以后处理数据集做准备

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

然后进入ddsp文件夹

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

下拉,点击

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

启动项目(注意,启动时最好不要开梯子,不然以后可能会打不开)

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

预处理

进入这样的界面,由于第一次进入需要先进行模型训练,你需要事先准备半小时到2小时的干净人声(可以到b站搜原神任务语音数据集,有很多)拿来练手,点击智能音频切片,将你人声所在文件夹目录复制到第一个空位:

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

点击文件夹目录ctrl+c就能复制,选定自己想要输出到的目录,再点击切片就可以自动把半小时的语音切成10~15秒的短音频

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

训练

接下来就可以开始训练工作了

将你切好的音频全部复制到ddsp的data/train/audio

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

并挑出几条效果较好的语音片段复制到

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

下,数据集中按训练集:验证集=100:1的比例挑选,经测试,前者较少时,后者比例大些也可以,但不能超出太多,下一步,预处理配置可以自己选择,都有提示

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

训练设置和超参数尽量都不改,可以根据电脑配置适当更改批大小:

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

最后的fp32,fp16,bf16可以按下边的来:

  1. FP32/BF16/FP16 有什么差别
    
    1. FP32(单精度浮点数):它使用 32 位来表示一个浮点数,其中 1 位用于符号位,8 位用于
       指数部分,23 位用于尾数部分。FP32 提供了较高的精度和动态范围,适用于大多数深度学
       习任务和一般计算需求。(除了慢一些没啥不好的)
       2.BF16(BFloat16):它使用 16 位来表示一个浮点数,其中 1 位用于符号位,8 位用于指数
       部分,7 位用于尾数部分。BF16 可以看作是 FP32 的一种截断形式,减少了存储空间和内存
       带宽的消耗,同时仍具备较高的动态范围,适用于训练和推理任务。(only Nvidia 30/40
       series)(相比 FP16 没那么容易 NaN,同时又比 FP32 快,但是损失精度)
    2. FP16(半精度浮点数):它使用 16 位来表示一个浮点数,其中 1 位用于符号位,5 位用于
       指数部分,10 位用于尾数部分。FP16 相比于 FP32 和 BF16,减少了存储空间和内存带宽的
       需求,但牺牲了精度和动态范围。因此,FP16 通常用于对模型进行加速或压缩时,例如在
       移动设备或低功耗设备上的推理过程中。(相比 FP32/BF16 更容易 NaN,但是精度比 BF16
       高,对比 FP32 也损失不多,理论上来说,30/40 系跑 BF16/FP16 运算速度一样)
       PS:显卡属于哪一系列:
       A 开头的属于 Ampere 架构,与 30 系同架构,理解成 30 系就好,例:A5000,A100,A10。
       T 开头的属于 Turing 架构,与 20 系同架构,常见的就是 T4,理解成 20 系就好。
       V 开头(或含 V)的属于 Volta 架构,仅出现在商用领域,接近 20 系,理解成不支持 int4 运算
       的 20 系就好,包含 V100,Titan V。
       P 开头(或含 P)的属于 pascal 架构,与 10 系同架构,常见的就是 P100,Titan Xp
       PS: 30/40 系建议优先 BF16,尤其是 A100,尽量不要选 FP32
       20 系建议降低一点点 learningrate 然后选 FP16,因为比 FP32 快上不少(
       16 系选 FP32,因为 FP16 大概率炸(玄学
       10 系随意,看心情
    

    不想看没关系,显存小的默认就行,显存大的选后两个,

    (测试3060-6g选后两个在训练时会卡主,自行选择)

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

之后点击从头开始训练,需要两个模型都训练,之后会大开两个黑窗口,

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

点击下方监控训练状态可以查看训练情况,对于ddsp模型,当显示

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

最后趋于稳定就可以收手了,如果线条乱跳就说明模型炸了,重新开始吧

后者扩散模型

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

如果坐标轴右侧大致呈下降趋势到底,就可以停了

主要是训练ddsp模型,注意

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

不改设置时,每2000步才会保存一次存档,每10000步保存一次存档并删除2000次的临时存档,所以我们停止训练时,尽量选刚超过2000的倍数,停止后会把我们训练的结果放到

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

下,这时我们就可以测试是否推理是否成功了

点击推理页:

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

推理

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

(注意:当我们开着梯子时,有时是无法找到配置文件的,关了梯子,并重新打开webui.bat!!)

下一步上传推理的数据:(需要干净无噪声,并且只有单人声,以自己训练的模型为准)

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

这一页设置按需更改,一般只用调第一个变调吗,意思是

当模型为女声,推理数据为男声,需要升调,例如可以先升至12,看结果如果声音很尖,说明高了,降调。同理推理数据为女声可以先为0,看效果,如果声音太尖,可以降为负数试试,如果声音像男声,可以调高;

当模型为男声,推力数据为女声,需要降调,降为12先看效果,同上;

再往下:ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

f0提取算法正常选第一个,提示都有,第四个算法更适合推低音‘相应阈值是为了应对数据集如果没请干净,可以拉高,将很低的声音一刀切掉;采样不要变;浅扩散步数越大,声音越接近模型声音,但时间也会成比例增加;正常100就不要变。加速倍数不变。

至此,对于单个训练流程我们已经走完了;

注意点

再提几个注意点:

urv5的使用

如果是使用整合包自带的urv5:

导入模型后使用ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

该连招可以清除人声和混响

需要处理两次

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

第二次处理要更改输入源;

但是,URV5有新版本了!!!没错,你白学了,嘿嘿,URV5.6有了新的连招,相较于旧版本效果直线上升,具体可以看bfloat16的动态UVR5使用教程和最新连招 - 哔哩哔哩 (bilibili.com),赛博佛祖,受小儿一拜!!!

提几个要点,新模型是需要自己去下载的,点自带的小扳手即使连了梯子也可能会不成功,如果实在找不到文中的几个模型可以私信我:,下图是最新连招,需要处理三次,效果杠杠滴!

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

制作好的模型以及更换模型

当制作好后,emp文件中会有目前使用模型的模型文件

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

models_backup文件夹下也会有一份存档

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

该存档会把两个模型分开存放,并且有时不会保存,还没搞清楚什么时候会保存,最好不要相信自动存档

最好的做法是把训练好的模型在该文件夹下新建文件夹并复制进去,以后用的时候直接复制到emp文件夹中。想要发给别人就压缩emp文件夹发送就行了。

推理出的结果存放位置

ai音声扩散模型跑一次多久,笔记,python,人工智能,语音识别

在ddsp下output文件夹下,保存的是wav格式’

合成成品

进入au或者剪映,将推理出的wav和之前分离的背景wav一起放进去就可以合成啦,你还可以再用剪映添加背景图片各种操作或者使用ae添加背景和特效。

小技巧

有时候不管怎么推我们的效果总是和预想的有些出入;

有时候一首歌前半段像,后半段又不像,歌词平缓的时候像,高潮的时候又不像;

其实这是这首歌跨调太大,但是ai推理出的音乐只能在一个范围内的调变动,程序上目前只能等作者更新出识别歌曲变调功能,但是我们可以在推理时选几个不同的变调,再用au把每首歌像的地方截到一起,操作起来还是很方便的。

12.7 更新
好久没有玩了,学习繁忙阿!~!,不过之前发现的数据集问题还是提一嘴把,数据集影响了之后这个模型推理的所有东西,拿原神为例,数据只有语音,没高音,没低音,怎么办呢,经过我的深度探究,知道了几种方法,不过较为好用的算是在未训练前将部分数据集进行降调和升调处理,具体操作为在au中定义并收藏一个升调的方法,批量将语音进行升调和降调处理,要注意,不能太过头,容易失真,具体网上搜吧

有什么想问的可以在评论区或者私信我,不定时更新;

######################################

参考:

羽毛布団的个人空间-羽毛布団个人主页-哔哩哔哩视频 (bilibili.com)

DDSP-SVC 3.0 一站式整合包使用教程 (qq.com)

UVR5使用教程和最新连招 - 哔哩哔哩 (bilibili.com)

https://github.com/yxlllc/DDSP-SVC文章来源地址https://www.toymoban.com/news/detail-766728.html

到了这里,关于小白也能听懂的ai音声制作入门教程了!!!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPU加速02:超详细Python Cuda零基础入门教程,没有显卡也能学!

    Python是当前最流行的编程语言,被广泛应用在深度学习、金融建模、科学和工程计算上。作为一门解释型语言,它运行速度慢也常常被用户诟病。著名Python发行商Anaconda公司开发的Numba库为程序员提供了Python版CPU和GPU编程工具,速度比原生Python快数十倍甚至更多。使用Numba进行

    2024年02月02日
    浏览(60)
  • GoogleTest从入门到入门,小白都能看懂的gtest详细教程

    单元测试 项目管理和技术管理中做单元测试,衡量一个软件是否正常的标准,良好的单元测试以及足够多的覆盖率,至少保证关键功能,关键业务的覆盖率接近100%。 gtest是谷歌公司发布的一个跨平台(Linux、Mac OS、Windows等)的C++单元测试框架,它提供了丰富的断言、致命和

    2024年02月07日
    浏览(51)
  • 零基础学Python入门教程非常详细(从小白到高级)

    第一章-第五章(5.1-5.4):简介、配置与基础知识 第六章:判断语句 Python它是一种直译式,面向对象,解释式的脚本语言。它和Java,C/C++,Go语言一样都是高级语言,但由于它是解释式语言,所以运行速度会比Java,C/C++等语言慢(虽说隔壁Go也是解释式语言,但比它快很多)。不

    2024年01月19日
    浏览(45)
  • Android Studio入门级教程(详细)【小白必看】[通俗易懂]

    Android Studio如何使用 本文主要讲解一下Android Studio使用方法 步骤: 1.建立项目 首先点击new——new project新建项目 选择想要创建的Android 的模板,建议选择empty activity(空模板),然后next Name:给你的项目起一个名字 API level:选择Android 虚拟机的版本,版本越低运行起来越快 剩

    2024年02月08日
    浏览(55)
  • Python保姆级教程 数据类型—新手小白入门必看系列

    推荐使用压缩软件和杀毒软件 7 - zip 使用火绒 优点: 代码说明 没注释的代码 有注释的代码 不让解释器执行注释的那句话 单行注释快捷键:ctrl + ? \\\"\\\"\\\"\\\"\\\"\\\" (三个双引号) 185730213551 什么是变量:可以改变的量 计算机用来存贮数据的盒子,想用这个数据,就直接那盒子就好了

    2024年02月16日
    浏览(58)
  • 安装IDEA运行Java保姆级教程(java小白入门必备)

    本文旨在为Java入门的同学介绍如何在自己电脑上运行Java程序: https://www.jetbrains.com/idea/download/#section=windows 运行Java程序的工具是 IDEA编译器 。 下载编译器:选择社区版本(Community),可免费试用。点击 Download 后等待三秒后即自动下载。 将IDEA安装包移至特定安装包,例如我

    2023年04月08日
    浏览(47)
  • windows下cmake的小白级入门使用教程(hello world)

    想学习cmake,基于惯性思维,想先跑通一个“hello world”的例子,奈何网上教程一大把,有用的教程破费功夫寻找。大部分教程都没有从新电脑(重装系统后的电脑)的角度讲述步骤。 为了得到干净的电脑环境,研究了一段时间VMware虚拟机,并写了几篇文章,感兴趣的读者可移步

    2024年02月14日
    浏览(44)
  • Suno教程篇:音乐小白也能使用Suno AI零门槛创作音乐?从此只听AI写的歌!

    准备工作 基础使用 歌曲风格 提示词参考 亲自去听 案例展示 歌词填入 节奏 调高 歌词结构 从此只听AI为我写的歌! (本教程将会持续更新完善,欢迎收藏。) 1、准备好网络环境。 2、访问Suno AI的官方网站: https://app.suno.ai 3、注册谷歌邮箱 / 微软邮箱 / discord账号登录。

    2024年04月16日
    浏览(50)
  • Stable Diffusion 系列教程 - 3 模型下载和LORA模型的小白入门

    首先,一个比较广泛的模型下载地址为:Civitai Models | Discover Free Stable Diffusion Models 黄框是一些过滤器,比如checkpoints可以理解为比如把1.5版本的SD模型拷贝一份后交叉识别新的画风或场景后得到的模型,可以单独拿出来使用。 Hypernetwork和lora在特定场景下都非常好用。我们以

    2024年02月03日
    浏览(256)
  • Rocky Linux 9.0 版本小白入门下载安装使用调优超详细教程

    本期给大家带来的是rocky Linux 9.0 版本的下载安装教程,首先rocky Linux 9.0版本是2022.7.14发布的,我刚发布第二天下载使用的,总体感觉比之前更好一些,例如壁纸、桌面环境等,然后就是软件设施基础准备好:VMware、XShell(可忽略,别的远程软件也可以),然后接下来我们就看

    2024年02月05日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包