声音克隆,精致细腻,人工智能AI打造国师“一镜到底”鬼畜视频,基于PaddleSpeech(Python3.10)

这篇具有很好参考价值的文章主要介绍了声音克隆,精致细腻,人工智能AI打造国师“一镜到底”鬼畜视频,基于PaddleSpeech(Python3.10)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

电影《满江红》上映之后,国师的一段采访视频火了,被无数段子手恶搞做成鬼畜视频,诚然,国师的这段采访文本相当经典,他生动地描述了一个牛逼吹完,大家都信了,结果发现自己没办法完成最后放弃,随后疯狂往回找补的过程。

最离谱的是,他这段采访用极其丰富的细节描述了一个没有发生且没有任何意义的事情,堪比单口相声,形成了一种荒诞的美感,毫无疑问,《满江红》最大的贡献就是这个采访素材了。

往这个文本里套内容并没有什么难度,小学生也可以,但配音是一个瓶颈,也就是说,普通人想染指鬼畜视频还是有一定门槛的,这个领域往往是专业配音演员的天下,但今时非比往日,人工智能AI技术可以让我们基于PaddleSpeech克隆出精致细腻的国师原声,普通人也可以玩转搞笑配音。

数据集准备和清洗

我们的目的是克隆国师的声音,那么就必须要有国师的声音样本,这里的声音样本和使用so-vits-svc4.0克隆歌声一样,需要相对“干净”的素材,所谓干净,即没有背景杂音和空白片段的音频素材,也可以使用国师采访的原视频音轨。

需要注意的是,原视频中女记者的提问音轨需要删除掉,否则会影响模型的推理效果。

随后,将训练集数据进行切分,主要是为了防止爆显存问题,可以手动切为长度在5秒到15秒的音轨切片,也可以使用三方库进行切分:

git clone https://github.com/openvpi/audio-slicer.git

随后编写脚本:

import librosa  # Optional. Use any library you like to read audio files.  
import soundfile  # Optional. Use any library you like to write audio files.  
  
from slicer2 import Slicer  
  
audio, sr = librosa.load('国师采访.wav', sr=None, mono=False)  # Load an audio file with librosa.  
slicer = Slicer(  
    sr=sr,  
    threshold=-40,  
    min_length=5000,  
    min_interval=300,  
    hop_size=10,  
    max_sil_kept=500  
)  
chunks = slicer.slice(audio)  
for i, chunk in enumerate(chunks):  
    if len(chunk.shape) > 1:  
        chunk = chunk.T  # Swap axes if the audio is stereo.  
    soundfile.write(f'master_voice/{i}.wav', chunk, sr)  # Save sliced audio files with soundfile.

注意这里min_length的单位是毫秒。

由于原始视频并未有背景音乐,所以分拆之前我们不用拆分前景音和背景音,如果你的素材有背景音乐,可以考虑使用spleeter来进行分离,具体请参照:人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10),这里不再赘述。

如果对原视频的存在的杂音不太满意,可以通过noisereduce库进行降噪处理:

from scipy.io import wavfile  
import noisereduce as nr  
# load data  
rate, data = wavfile.read("1.wav")  
# perform noise reduction  
reduced_noise = nr.reduce_noise(y=data, sr=rate)  
wavfile.write("1_reduced_noise.wav", rate, reduced_noise)

训练集数量最好不要低于20个,虽然音频训练更适合小样本,但数量不够也会影响模型质量。

最后我们就得到了一组数据集:

D:\work\speech\master_voice>dir  
 驱动器 D 中的卷是 新加卷  
 卷的序列号是 9824-5798  
  
 D:\work\speech\master_voice 的目录  
  
2023/06/13  17:05    <DIR>          .  
2023/06/13  20:42    <DIR>          ..  
2023/06/13  16:42           909,880 01.wav  
2023/06/13  16:43         2,125,880 02.wav  
2023/06/13  16:44         1,908,280 03.wav  
2023/06/13  16:45         2,113,080 04.wav  
2023/06/13  16:47         2,714,680 05.wav  
2023/06/13  16:48         1,857,080 06.wav  
2023/06/13  16:49         1,729,080 07.wav  
2023/06/13  16:50         2,241,080 08.wav  
2023/06/13  16:50         1,959,480 09.wav  
2023/06/13  16:51         1,921,080 10.wav  
2023/06/13  16:52         1,921,080 11.wav  
2023/06/13  16:52         1,677,880 12.wav  
2023/06/13  17:00         1,754,680 13.wav  
2023/06/13  17:01         2,202,680 14.wav  
2023/06/13  17:01         2,023,480 15.wav  
2023/06/13  17:02         1,793,080 16.wav  
2023/06/13  17:03         2,586,680 17.wav  
2023/06/13  17:04         2,189,880 18.wav  
2023/06/13  17:04         2,573,880 19.wav  
2023/06/13  17:05         2,010,680 20.wav  
              20 个文件     40,213,600 字节  
               2 个目录 399,953,739,776 可用字节

当然,如果懒得准备训练集,也可以下载我切分好的,大家丰俭由己,各取所需:

链接:https://pan.baidu.com/s/1t5hE1LLktIPoyF70_GsH0Q?pwd=3dc6   
提取码:3dc6

至此,数据集就准备好了。

云端训练和推理

数据集准备好了,我们就可以进行训练了,在此之前,需要配置PaddlePaddle框架,但这一次,我们选择在云端直接进行训练,如果想要本地部署,请移步:声音好听,颜值能打,基于PaddleGAN给人工智能AI语音模型配上动态画面(Python3.10)。

首先进入Paddle的云端项目地址:

https://aistudio.baidu.com/aistudio/projectdetail/6384839

随后点击启动环境,注意这里尽量选择显存大一点的算力环境:

这里的机器有点类似Google的colab,原则上免费,通过消耗算力卡来进行使用。

成功启动环境之后,需要安装依赖:

# 安装实验所需环境  
!bash env.sh  
!pip install typeguard==2.13

由于机器是共享的,一旦环境关闭,再次进入还需要再次进行安装操作。

安装好paddle依赖后,在左侧找到文件 untitled.streamlit.py ,双击文件开启,随后点击web按钮,进入web页面。

接着在web页面中,点击Browse files按钮,将之前切分好的数据集上传到服务器内部。

接着点击检验数据按钮,进行数据集的校验。

最后输入模型的名称以及训练轮数,然后点击训练即可:

以TeslaV100为例子,20个文件的数据集200轮训练大概只需要五分钟就可以训练完毕。

模型默认保存在项目的checkpoints目录中,文件名称为master。

点击导出模型即可覆盖老的模型:

最后就是线上推理:

这里预制了三种声码器【PWGan】【WaveRnn】【HifiGan】, 三种声码器效果和生成时间有比较大的差距,这里推荐折中的PWGan声码器,因为毕竟是线上环境,每停留一个小时都会消耗算力点数。

合成完毕后,就可以拿到国师的克隆语音了。

结语

线上环境配置起来相对简单,但要记住,完成克隆语音任务后,需要及时关闭环境,防止算力点数的非必要消耗,最后奉上国师的音色克隆模型,与君共觞:

链接:https://pan.baidu.com/s/1nKOPlI7P_u_a5UGdHX76fA?pwd=ygqp   
提取码:ygqp 

克隆音色版本的国师鬼畜视频已经上传到Youtube(B站),欢迎诸君品鉴和臻赏。文章来源地址https://www.toymoban.com/news/detail-482451.html

到了这里,关于声音克隆,精致细腻,人工智能AI打造国师“一镜到底”鬼畜视频,基于PaddleSpeech(Python3.10)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何防止人工智能窃取你的声音

    人工智能的进步使得听起来真实的语音合成成为可能,以至于一个人无法再区分自己是在与另一个人交谈还是与一个合成的声音交谈。如果一个人自己的声音在未经其同意的情况下被第三方“克隆”,恶意行为者就可以利用它来发送他们想要的任何消息。 这是可用于创建数字

    2024年01月24日
    浏览(20)
  • 智能仓储与人工智能结合:打造智能化物流系统

    作者:禅与计算机程序设计艺术 引言 随着互联网和物联网技术的发展,智能仓储物流系统逐渐成为仓储行业的发展趋势。智能仓储物流系统通过运用互联网、物联网、大数据等技术手段,实现对货物储存、运输、管理等方面的智能化管理,提高仓储效率,降低物流成本,同

    2024年02月07日
    浏览(25)
  • 智能安防与人工智能:如何共同打造更安全的城市

    随着人工智能技术的不断发展,智能安防领域也逐渐进入了人工智能时代。人工智能技术为安防行业带来了更高的准确性、更高的效率和更高的安全性。在这篇文章中,我们将探讨人工智能在安防领域的应用,以及如何通过人工智能技术来打造更安全的城市。 人工智能技术可

    2024年02月22日
    浏览(20)
  • 一起玩儿物联网人工智能小车(ESP32)——69 使用INMP441模块采集声音

    摘要:本文介绍如何使用INMP441模块采集声音 前边介绍了第一个基于I2S通信协议的MAX98357A模块,利用该模块可以播放各种声音文件。今天来介绍如何使用INMP441模块实现声音的采集功能,也就是如何将声音转变成数字信号。 INMP441是一款高性能,低功耗,数字输出的全向MEMS(微

    2024年03月15日
    浏览(34)
  • 人工智能与音乐结合,打造未来音乐产业的新商业模式

    作者:禅与计算机程序设计艺术 在这个技术日新月异的时代,音乐已经成为人们生活不可或缺的一部分。其中的重要因素之一就是其广阔的现实空间以及充满着丰富多彩的音符、旋律和节奏的创作力。随着科技的飞速发展和互联网的蓬勃发展,人类的音乐创作能力也发生了翻

    2024年02月11日
    浏览(21)
  • 用友大易接入百度文心一言,打造数智招聘人工智能全新服务

    近日, 用友大易宣布与百度文心一言(英文名:ERNIE Bot)达成战略生态合作。后续,用友大易智能招聘云将全面接入文心一言的能力,持续探索新人工智能时代下的招聘服务与体验。 文心一言(英文名:ERNIE Bot)是百度基于文心大模型技术推出的生成式对话产品。百度在人

    2024年02月04日
    浏览(17)
  • chat ai人工智能写作(ai人工智能写作神器)

    ChatAI智能写作是一款基于人工智能技术的写作助手,可以帮助用户快速生成高质量的文本内容。它具有以下特点: AI论文,免费大纲,10分钟3万字 👉https://www.aipaperpass.com?pic=mLnw 快速生成文章 :ChatAI智能写作可以根据用户输入的和主题,快速生成符合要求的文章,大大

    2024年03月15日
    浏览(28)
  • 【人工智能】Transformers 快速上手: 为 Jax、PyTorch 和 TensorFlow 打造的先进的自然语言处理

    为 Jax、PyTorch 和 TensorFlow 打造的先进的自然语言处理 🤗 Transformers 提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的 NLP 技术人人易用。 🤗 Transformers 提供了便于快速下载和使用的API,让你可以把

    2024年02月08日
    浏览(21)
  • 【人工智能】Embodied AI 技术解释:具身人工智能

    目录 【人工智能】Embodied AI 技术解释:具身人工智能 What embodied AI is ? How embodied AI works?

    2024年02月08日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包