AI 语音 - 人物音色训练

这篇具有很好参考价值的文章主要介绍了AI 语音 - 人物音色训练。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前情提要

2023-07-02 周日 杭州 阴晴不定

AI 入门三大项,AI 绘画基础学习,AI 语音合成,AI 智能对话训练,进入 AI 语音合成阶段了,搓搓小手很激动的,对于一个五音不全的我来说,这个简直了(摆脱了低级趣味,保留点好色就够了);

** 时间线 **
a. 2021 年函数计算编程大赛;
b. 2022 年东数西算架构设计;
c. 2023 年人工智能创纪元;

实践手册

1. 安装 UVR_v5.5.0
2. 人声提取

2.a 混音分离

AI 语音 - 人物音色训练,人工智能,语音识别

2.b 干声提取

AI 语音 - 人物音色训练,人工智能,语音识别

2.c 提取自己声音

吐槽: bilibili 太不是人了,上传的视频居然不能下载,只能用其他工具才能搞下来,还好只是要用视频提取语音,浪费时间的行为真的烦。

B站视频解析: https://bilibili.iiilab.com/

** 准备自己的语音和视频资源 **
时长: 10-30min
片段: 3-10
备注: 没有去录音棚特意录制音频,最后的效果应该会差强人意吧,但是只能苦哈哈了,还好之前存了些视频资源,不然这次真的就难过了。

AI 语音 - 人物音色训练,人工智能,语音识别

2.d 音频切片

AI 语音 - 人物音色训练,人工智能,语音识别

备注: 音频文件重命名(同理 BAT)
AI 语音 - 人物音色训练,人工智能,语音识别

3. 人声训练

3.a 人声训练集

AI 语音 - 人物音色训练,人工智能,语音识别

3.b 启动 so-vits-svc

双击启动webui.bat

AI 语音 - 人物音色训练,人工智能,语音识别

3.c 数据预处理

AI 语音 - 人物音色训练,人工智能,语音识别

说明: 数据预处理的话,需要小心爆显存的问题,可以通过预测器的切换进行数据预处理,这个一般的配置也是 8G 显存起步才可以,否则的话,数据预处理就无法通过的;

AI 语音 - 人物音色训练,人工智能,语音识别

处理办法: 删除音频时间超过 20S 或者小于 10s 的音频,数据预处理完成以后继续下一步训练过程,正常结束应该如下图所示:

AI 语音 - 人物音色训练,人工智能,语音识别

3.d 音色训练

AI 语音 - 人物音色训练,人工智能,语音识别

AI 语音 - 人物音色训练,人工智能,语音识别

说明: 训练过程需要持续 1-7d 左右,主要是因为自己的算力一般,也不能说电脑算力太差,只是 AI 就是吃算力的,还好训练好音色模型以后就可以往任何的歌曲上嵌套,因此音色训练的时间至少需要持续1周左右,此过程电脑最好不要关闭,及时关闭,训练也要基于上次进行;

4. 训练监控

打开监控面板:

AI 语音 - 人物音色训练,人工智能,语音识别

AI 语音 - 人物音色训练,人工智能,语音识别

总结

太多坑了,一不小心就会栽进去的,这东西没办法高谈阔论的,必须事必躬亲,不过一般完整走一遍流程基本就掌握了,我现在还没有那么想熟悉代码,gpu 碎片回收机制,代码优化还有很多可以做的,不过这次倒不急,及也急不来的。对于学习人工智能的小朋友们,虽说研究生阶段一般实验室会配备算力设备并且可以报销,但是自己的电脑性能最好还是要跟上才可以的,AI 真的不是穷人的游戏,配置在2万左右的游戏本也不过是入门级别的配置,不过该花的钱还是要花的,不然设备差一个级别,那么你可能落后别人一年甚至数年。少拿天赋说事,不在同一个环境你连参与竞争的机会都没有的。

附录

开源 mp3 下载地址: https://tonzhon.com/playlists/6442733bc6d7bdf6d5155629
视频转音频: https://www.aigei.com/tool/video/audio
音频转换: https://app.xunjieshipin.com/mp3-to-wav/
B站解码器: https://bilibili.iiilab.com/文章来源地址https://www.toymoban.com/news/detail-523650.html

到了这里,关于AI 语音 - 人物音色训练的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能技术在智能音箱中的应用:智能语音识别与智能交互

    作者:禅与计算机程序设计艺术 引言 1.1. 背景介绍 智能音箱作为智能家居的重要组成部分,近年来得到了越来越多的用户青睐。随着人工智能技术的不断发展,智能音箱的核心功能之一——智能语音识别与智能交互也越来越受到人们的关注。智能语音识别技术可以让用户更

    2024年02月07日
    浏览(41)
  • 第14章-Python-人工智能-语言识别-调用百度语音识别

            百度语音识别API是可以免费试用的,通过百度账号登录到百度智能云,在语音技术页面创建的应用,生成一个语音识别的应用,这个应用会给你一个APIKey和一个Secret Key,如图14.1所示。  我们在自己的程序中用 API Key 和 Secret Key 这两个值获取 Koken,然后再通过 Token 调

    2024年02月08日
    浏览(40)
  • 人工智能-语音识别技术paddlespeech的搭建和使用

    PaddleSpeech是百度飞桨(PaddlePaddle)开源深度学习平台的其中一个项目,它基于飞桨的语音方向模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。PaddleSpeech支持语音识别、语音翻译(英译中)、语音合成、标点恢复等应用示例。

    2024年02月02日
    浏览(40)
  • 语音识别与VC维:改变人工智能的未来

    语音识别(Speech Recognition)是一种人工智能技术,它旨在将人类的语音信号转换为文本或其他形式的数据。这项技术在过去几年中得到了巨大的发展,并成为人工智能领域的一个关键技术。VC维(Vocabulary Coverage Dimension)是一种数学模型,用于描述语言模型的表达能力。在本文中,

    2024年02月19日
    浏览(44)
  • 【人工智能】科大讯飞语音识别应用开发(第三集)

    这次需要对科大讯飞语音识别接口进行语音识别应用开发,前两次都是通过WebAPI调用接口,这次换一下,通过SDK调用接口 下面是开发的详细记录过程(基于前两次的基础上) 网址:https://www.xfyun.cn/services/voicedictation 不领服务量为500且该包免费( 貌似是不同应用都可以免费领

    2024年02月13日
    浏览(37)
  • OpenAI的人工智能语音识别模型Whisper详解及使用

            拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。         Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁

    2024年02月09日
    浏览(42)
  • 构建基于AWSLambda的人工智能应用:语音识别、图像识别和自然语言处理

    作者:禅与计算机程序设计艺术 在人工智能领域,用大数据、机器学习等方法来解决复杂的问题,已经成为越来越多企业和开发者关注的问题。但是,如何把这些方法落地到生产环境中,仍然是一个难题。 随着云计算平台的广泛普及,AWS Lambda作为一项服务正在成为各个公司

    2024年02月09日
    浏览(53)
  • 人工智能图像识别分析之——Yolov5模型训练

    上一课讲述了Yolov5模型环境搭建的过程 这一课讲Yolov5模型训练的过程 进行模型训练前,首先要先进行样本标注,标注后产生标注文件,将图片源文件和标注文件进行文件划分,本文以2000张负样本进行训练。 1.新建三级目录datasets/images/train、datasets/images/val 2.新建三级目录da

    2024年02月01日
    浏览(61)
  • 极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践

    业界良心OpenAI开源的Whisper模型是开源语音转文字领域的执牛耳者,白璧微瑕之处在于无法通过苹果M芯片优化转录效率,Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本,它具有无依赖项、内存使用量低等特点,重要的是增加了 Core ML 支持,完美适配苹果M系列芯片。 Whisper.cpp的张量

    2024年02月02日
    浏览(51)
  • AI人工智能课题:图像识别货币识别系统的设计与实现(基于百度智能云AI接口)

     博主介绍 :黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,免费 项目配有对应开发文档、开题报告、任务书、

    2024年02月04日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包