【AI】文本转语音 变声 音色克隆 数字人音视频口型同步AI应用

这篇具有很好参考价值的文章主要介绍了【AI】文本转语音 变声 音色克隆 数字人音视频口型同步AI应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文本转语音

项目地址:https://github.com/coqui-ai/TTS

环境安装:

  1. 下载项目;
  2. 安装Python,安装项目依赖:
pip install TTS
1. 下载安装AI模型:

https://github.com/facebookresearch/fairseq/tree/main/examples/mms

模型文件放到:C:\Users\Administrator\AppData\Local\tts

2. 将文本转换为语音:

tts --text “要转换的文本内容” --model_name “指定语音模型” --out_path .\outFile.wav 

语音模型可通过命令tts –list_models列出

示例(使用中文语音模型):

tts --text "你好,中文。" --model_name "tts_models/zh-CN/baker/tacotron2-DDC-GST" --out_path .\test.wav
3. 自定义人声:

就是给定一段语音,生成语音的音色就会与给定语音相似。也就是自定义人声。

自定义人声需要依赖xtts模型,下载地址:https://huggingface.co/coqui/XTTS-v2/tree/main

也可以通过以下命令行下载:

git lfs install
git clone https://huggingface.co/coqui/XTTS-v2

 下载的模型文件必须放到特定文件夹:C:\Users\Administrator\AppData\Local\tts\tts_models--multilingual--multi-dataset--xtts_v2

 使用以下命令生成自定义人声的语音:

tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 --language_idx zh-cn --speaker_wav ./out/output.wav --text "感谢榜一大哥,王思春送来的一发火箭。" --out_path ./out/ai_output.wav

语音转语音(变声)

项目地址:https://github.com/voicepaw/so-vits-svc-fork

1. 环境安装:
  1. 下载项目;
  2. 安装依赖:pip install –r requirements.txt
  3. 下载语音模型:

https://huggingface.co/models?search=so-vits-svc

https://civitai.com/?query=so-vits-svc

模型存放目录结构configs/模型文件.pth;configs/44k/config.json

2. 使用方法:

1. GUI使用:

命令: svc gui打开UI界面

tts_models–zh-cn–baker–tacotron2-ddc-gst,AI应用,人工智能,音视频,AI变声,音视频合成,数字人,TTS

选择模型文件、模型配置文件、原语音文件wav;

点击Infer按钮生成语音文件;

2. 使用命令行:

svc infer C:\Users\Administrator\Desktop\test.wav -m "C:\Users\Administrator\Desktop\configs"

视频同步语音口型

项目地址:https://github.com/OpenTalker/video-retalking

1. 环境安装:
  1. 下载项目;
  2. 安装conda:Index of /anaconda/miniconda/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
  3. 使用conda创建python环境:

conda create -n video_retalking python=3.8

conda activate video_retalking

  1. 安装依赖:

conda install ffmpeg

pip install -r requirements.txt
  1. AI模型下载:https://drive.google.com/drive/folders/18rhjMpxK8LVVxf7PI6XwOidt8Vouv_H0?usp=share_link

在项目工程下新建checkpoints文件夹并将模型全部文件放入文件夹;文章来源地址https://www.toymoban.com/news/detail-826487.html

2. 使用方法:
.\inference --face 3.mp4 --audio D:\Workspace\TTS-0.21.3\test.wav --outfile C:\Users\Administrator\Desktop\out_3.mp4

到了这里,关于【AI】文本转语音 变声 音色克隆 数字人音视频口型同步AI应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践(Python3.10)

    诸公可知目前最牛逼的TTS免费开源项目是哪一个?没错,是Bert-vits2,没有之一。它是在本来已经极其强大的Vits项目中融入了Bert大模型,基本上解决了VITS的语气韵律问题,在效果非常出色的情况下训练的成本开销普通人也完全可以接受。 BERT的核心思想是通过在大规模文本语

    2024年02月08日
    浏览(39)
  • AI 语音 - 人物音色训练

    前情提要 2023-07-02 周日 杭州 阴晴不定 AI 入门三大项,AI 绘画基础学习,AI 语音合成,AI 智能对话训练,进入 AI 语音合成阶段了,搓搓小手很激动的,对于一个五音不全的我来说,这个简直了(摆脱了低级趣味,保留点好色就够了); ** 时间线 ** a. 2021 年函数计算编程大赛;

    2024年02月12日
    浏览(23)
  • 【AI 孙燕姿 | AI 音色克隆】RVC 使用图文教程:无难度男女换声(伪音)、 AI 孙燕姿

    最近,视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种使用AI技术提取某位歌手的音色,再用其替换另一位歌手音色的方式,可以实现接近歌手本人翻唱的逼真效果。除孙燕姿外,面对周杰伦、陶喆、陈奕迅、王菲等众多具有独特嗓音的歌手,歌迷纷纷奔向“AI点唱机”—

    2024年02月08日
    浏览(32)
  • ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

    最近,视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种使用AI技术提取某位歌手的音色,再用其替换另一位歌手音色的方式,可以实现接近歌手本人翻唱的逼真效果。除孙燕姿外,面对周杰伦、陶喆、陈奕迅、王菲等众多具有独特嗓音的歌手,歌迷纷纷奔向“AI点唱机”—

    2024年02月08日
    浏览(102)
  • AI语音变声器学习记录:RVC和SVC

            玩了两个多月的AI语音,还是挺有意思的,收获颇多,不禁让人感叹AI已经进化到如此境界了,之前还有AI实时换脸的,两者配合起来使用简直让人不敢想象,这世上还有什么是真的。总之就是做一个学习记录,从下载到训练到推理到使用推理出来的音频做视频之内

    2024年02月06日
    浏览(41)
  • linux 运行开源音视频livekit,实现html视频语音聊天。

    linux版本: centos 7.9 先附上官方本地安装文档: Running LiveKit locally | LiveKit Docs 步骤: 1、首先在linux里面安装运行livekit: livekit.yaml文件的内容: 注意use_external_ip一定要设置true.这个是启用外部ip访问的。 然后就是keys:这个是创建token需要的, 前面的APIbxDWetqcjHaa是apikey, 后面的

    2024年03月26日
    浏览(46)
  • 【python】fastapi response返回文本、音视频多媒体资源实现

    HTMLResponse 是FastAPI中自带的一个响应类,用于返回HTML格式的响应。使用方法如下: 在上面的例子中,我们在装饰器中指定了 response_class=HTMLResponse ,表示我们需要返回一个HTML响应。然后在函数中,我们返回了一个HTML格式的字符串。FastAPI会自动将这个字符串封装成一个 HTMLR

    2023年04月27日
    浏览(32)
  • 从数字图像到音视频学习:我的学习之旅

    数字图像是一门广泛应用于计算机视觉、图像处理和计算机图形学等领域的学科,而音视频学习则涵盖了音频和视频的处理、分析和应用。 如果你最开始接触数字图像,可能会学习一些基本概念,例如像素、分辨率、色彩空间和图像处理算法等。这可能涉及到使用编程语言(

    2024年02月11日
    浏览(28)
  • 网站在线客服系统实时语音视频聊天实战开发,利用peerjs vue.js实现webRTC网页音视频客服系统...

    webRTC机制和peerjs库的介绍在其他博客中已经有了很多介绍,这里我直接搬运过来 WebRTC(Web Real-Time Communication)即:网页即时通信。 简单点讲,它可以实现浏览器网页与网页之间的音视频实时通信(或传输其它任何数据),目前主流浏览器都支持该API,WebRTC现在已经纳入W3C标准。

    2024年02月04日
    浏览(39)
  • [AI语音克隆] 5秒内克隆您的声音并生成任意语音内容

    随着人工智能技术的不断发展,语音克隆技术也得到了越来越多的关注和研究。目前,AI语音克隆技术已经可以实现让机器模拟出一个人的声音,甚至可以让机器模拟出一个人的语言习惯和表情。 然而,AI语音克隆技术仍然面临着许多难点和痛点。首先,现有的语音克隆技术

    2024年02月08日
    浏览(21)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包