AI孙燕姿爆火背后:语音转换技术so-vits-svc

这篇具有很好参考价值的文章主要介绍了AI孙燕姿爆火背后:语音转换技术so-vits-svc。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

AIGC的风最近终于吹到了语音生成领域。上面视频中"孙燕姿"翻唱周杰伦的《七里香》,该歌是AI歌唱,并非孙燕姿本人。背后核心技术来自声音转换,voice convertion,而不是之前我们讲过的声音克隆,voice clone。

语音转换

语音转换,voice convertion,简称VC。简单来说,就是把一个人的声音转换成另一个人的声音,保留说话或者歌唱的内容。可见模型的输入是音频,而不像TTS任务,输入为文本。一般VC任务都包含以下三个模块,从音频中提取信息的content encoder,常用特征PPG,现在也有自监督模型去提特征如Hubert;第二个模型是声学模型,这层主要是将音频的特征信息,进一步编码成声学特征,比如mel特征;第三个模块,声码器将声学特征上采样成音频。

AI孙燕姿爆火背后:语音转换技术so-vits-svc,AI,人工智能

 基于hubert和vits的声音转换so-vits-svc

下面介绍AI孙燕姿背后的核心技术,so-vits-svc全称SoftVC VITS Singing Voice Conversion。该技术是一个声音爱好者基于softVC和vits修改而来。核心的改动是将以前的PPG换成了hubert的soft编码,然后将该信息送到了vits中。该soft hubert编码,能够很好的去除发音人信息,而保留内容信息。本质是网络的某一层的输出,但是在训练时增加了一些约束,以削弱发音人信息。下图中红线框出的就是soft content编码。

AI孙燕姿爆火背后:语音转换技术so-vits-svc,AI,人工智能

vits是TTS中一个非常重要的一个模型,该模型将声学模型和vocoder绑定到一个训练框架中,不再需要训练多次。VITS采用了FLOW引入幅度谱作为后验信息,采用MAS自动对齐出音素时长。模型的训练目标是希望从文本中直接学习出隐变量z的分布。推理时flow模型是可逆的。直接就从文本合成wav,推理是不需要posterior encoder。

AI孙燕姿爆火背后:语音转换技术so-vits-svc,AI,人工智能

 

在so-vits-svc中,vits中的音素变成了hubert特征。由于hubert编码长度跟声学特征长度是有固定的比例关系,因此不需要时长模型,也不需要MAS;VC中任务模型变得更加简单。当然,由于歌曲的f0,相比于人声的f0,在频谱上持续时间更长,更难建模,因此作者将f0显式的引入到了vits中。

AI孙燕姿爆火背后:语音转换技术so-vits-svc,AI,人工智能

定制流程

定制一个AI孙燕姿,github有教程,且写出了GUI,更加方便操作。大概讲下流程,

  1. 获取孙燕姿的歌曲,大概1小时左右。通过人声分析程序,将伴奏和背景去除,只保留清唱的音频(干音);
  2. 特征预处理,提取f0和hubert特征,以及幅度谱spec;
  3. 加载base模型,finetune上述的特征以及音频wav,获得最终的推理模型;
  4. 推理时,也需要输入音频,比如用周杰伦的《七里香》,先进行人声分离,获取干音,作为输入,送入VC模型中,获得孙燕姿演唱的《七里香》清唱音频,最后将伴奏与清唱音频进行混合,得到一首AI翻唱歌曲。

https://github.com/voicepaw/so-vits-svc-fork

请关注 vx 公众号

站在风口浪尖文章来源地址https://www.toymoban.com/news/detail-532561.html

到了这里,关于AI孙燕姿爆火背后:语音转换技术so-vits-svc的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

    孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官方媒体博客上写了一篇英文版的长文,正式回应现在满城风雨的“AI孙燕姿”现象,流行天后展示了超人一等的智识水平,行文优美,绵恒隽永,对AIGC艺术表现得极其克制,又相当宽容,充满了语言上

    2024年02月08日
    浏览(57)
  • 2023.05.09-使用AI克隆孙燕姿的声音来进行唱歌

    如果我们想要克隆孙燕姿的声音,整体的思路很简单,首先找一些孙燕姿唱歌时没有伴奏的人声,然后把这个声音放到模型中进行训练拟合,让AI学习说话的这种声线风格,最后使用这个训练出来的模型进行推理和风格迁移,这样一首孙燕姿唱其他人歌曲的音频就制作出来了

    2024年02月05日
    浏览(56)
  • 「AI 孙燕姿」翻唱华语乐坛歌曲爆红全网,AI 翻唱将带来哪些影响?是否会有版权等问题?

    在某视频平台上,“AI孙燕姿”成了新网红,它翻唱过周杰伦的《发如雪》、翻唱过郭顶的《水星记》、翻唱过赵雷的《我记得》,受到了网友的追捧,甚至有网友宣布“这是2023年最火的声音”。 网上除了AI孙燕姿,还有AI周杰伦、AI王心凌、AI披头士、AI德雷克,网友们乐此

    2024年02月03日
    浏览(71)
  • AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践,复刻《遥远的歌》,原唱晴子(Python3.10)

    忽如一夜春风来,亚洲天后孙燕姿独特而柔美的音色再度响彻华语乐坛,只不过这一次,不是因为她出了新专辑,而是人工智能AI技术对于孙燕姿音色的完美复刻,以大江灌浪之势对华语歌坛诸多经典作品进行了翻唱,还原度令人咋舌,如何做到的? 本次我们借助基于Python3.

    2024年02月03日
    浏览(50)
  • 保姆级教程!教你打造自己的AI孙燕姿;全程使用AI工具设计一款桌游;搭建基于LLM的客服系统的实践 | ShowMeAI日报

    👀 日报周刊合集 | 🎡 生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 王咏刚,创新工场CTO,技术撰稿人,有数个知名出版作品。他结合自己在AI领域投资、深度孵化和创业的丰富经验,分享了自己对AI技术最新应用场景的思考。 第一部分围绕GPT等通用大语言模型,

    2024年02月06日
    浏览(53)
  • AI作画爆火背后,一半海水一半火焰

    作者 | 辰纹 来源 | 洞见新研社  “未来十年,AIGC(人工智能自主生产内容)将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。” 李彦宏7月在百度世界大会上的发言话音未落,AI作画的风潮如同一场旋风,席卷了互联网的每

    2024年02月12日
    浏览(41)
  • 透过现象看本质 | GPT爆火的背后

    前言: 近年来,GPT(Generative Pre-trained Transformer)作为一种革命性的语言模型,以其强大的文本生成能力和广泛的应用领域引发了全球范围内的热议。然而,GPT爆火的背后,是一个更加深刻的本质。本文将透过现象,探索GPT爆火的背后原因,以及它所代表的技术进步和社会影

    2024年02月11日
    浏览(49)
  • AIGC爆火的背后需要掌握的基础原理

    ‍‍最近AIGC和大模型的大火让视频行业的老板们异常兴奋,以前制作一个视频需要经历文案、配音、画面、出镜等复杂流程,现在应用生成式AI产品自动生成文案脚本,再使用一键生成视频(TTV技术)功能,一天可以完成50条视频产出。人工智能如此降本提效,部分行业的从

    2024年02月10日
    浏览(92)
  • 小红书数据分析平台:铃芽之旅爆火背后的IP营销路

    根据千瓜数据显示,电影上线以来,铃芽之旅这个IP也在小红书平台发生了惊人的增长。累计话题浏览量超1.23亿,笔记预估阅读总数近五千万。攀升的数字背后,是属于年轻一代的狂欢! 果集·千瓜数据 铃芽之旅在小红书平台的热度飙升,不仅是因为Z世代的热爱,也有官方

    2023年04月09日
    浏览(38)
  • 【实用技巧】掌握人工智能语音转换的核心技术,轻松实现多语言语音转换和语音合成

    作者:禅与计算机程序设计艺术 【实用技巧】掌握人工智能语音转换的核心技术,轻松实现多语言语音转换和语音合成 1.1. 背景介绍 随着全球化的加速,跨文化交流需求日益增长,多语言语音转换和语音合成技术应运而生。人工智能技术的发展为语音合成和转换提供了便利

    2024年02月08日
    浏览(94)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包