基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例)

这篇具有很好参考价值的文章主要介绍了基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前 言

一、AutoDL云算力平台简介

二、在AutoDL云算力平台上部署Wav2Lip-GFPGAN代码

2.1、创建AutoDL云算力实例

2.2、将源码导入实例

2.3、远程AutoDL云服务

2.4、安装依赖

2.5、导入视频和音频目录文件

2.6、配置参数

2.7、学术资源加速

2.8、运行run.py

2.9、导出视频

三、结论

四、参考资料和进一步阅读


前 言

在近年来,人工智能的快速发展极大地改变了我们的生活,同时也带来了无限可能。其中,AI数字人是其中的一项重要技术,他们是由计算机生成的,可以模拟人的行为和外观,甚至可以产生几乎与真人无法区分的视频内容。这一切都离不开先进的人工智能算法和强大的计算平台的支持。在这篇文章中,我们的主题是如何在AutoDL云算力平台上部署并使用Wav2Lip和GFPGAN两个人工智能模型来创建AI数字人视频。我们的目标是利用Wav2Lip模型将输入的音频与数字人的口型进行同步,然后使用GFPGAN模型对生成的数字人的面部图像进行高质量的重建,从而创造出逼真的AI数字人视频。

一、AutoDL云算力平台简介

AutoDL云算力平台是一个强大的云计算平台,专注于提供大规模并行计算资源和AI模型部署的一键式解决方案。它为研究人员、开发者和企业提供了一个高效、可靠和易用的环境,以实现复杂的计算任务和AI模型的部署。AutoDL平台的主要功能之一是提供大规模的并行计算资源。它拥有强大的计算集群和高性能的计算节点,可以快速处理大规模的数据和复杂的计算任务。这使得用户能够在短时间内完成大规模的计算和模型训练,提高工作效率。此外,AutoDL平台还提供了一键式的AI模型部署功能。用户可以轻松地上传和配置自己的AI模型,然后使用平台提供的工具和接口将其部署到计算集群上进行推理和应用。这大大简化了AI模型部署的流程,节省了用户的时间和精力。AutoDL平台的优点之一是其易用性。它提供了直观的用户界面和简单易懂的操作指南,使得即使对于非专业的用户来说,也能够快速上手并使用平台的功能。此外,平台还提供了丰富的软件支持和开发工具,用户可以根据自己的需求进行定制和扩展。使用AutoDL云算力平台的好处不仅仅局限于计算资源和AI模型部署的便利性。它还具有可扩展性和灵活性,可以根据用户的需求进行横向和纵向的扩展,以适应不断增长的计算需求和新兴的技术挑战。

二、在AutoDL云算力平台上部署Wav2Lip-GFPGAN代码

2.1、创建AutoDL云算力实例

首先在AutoDL官网(AutoDL-品质GPU租用平台-租GPU就上AutoDL)注册登录,接着在“算力市场”上挑选GPU。

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

此时我们选择RTX3090的GPU版本,计费方式为按量计费,这样比较省钱。

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

 然后选择“基础镜像”,GPU数量为1个,挑选好下图中的Pytorch镜像,因为待会源码的环境是需要Pytorch的,点击“立即创建”即可,稍等片刻即可创建成功。

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

2.2、将源码导入实例

百度网盘链接:https://pan.baidu.com/s/1einWK_uy-HdpZ4xOgEK0YA?pwd=oshu 
提取码:oshu

首先下载好源码到本地文件夹,接着将源码的压缩包导入到阿里云盘,通过点击“AutoPanel”进入到此页面,扫码授权即可,通过阿里云盘将里面的代码导入到实例中去。

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

2.3、远程AutoDL云服务

这里推荐使用VScode利用ssh来远程。

首先下载安装好VScode(Visual Studio Code - Code Editing. Redefined);

然后进入到VScode,点击“远程资源管理器”,再点击“+”即可。

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

然后将登录指令和密码分别输入进去。

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

 进入到下面这个状态就差不多了。 

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

 

2.4、安装依赖

打开VScode终端界面,按步骤安装以下的命令即可。

sudo apt update
sudo apt install ffmpeg
pip install -r requirements.txt

2.5、导入视频和音频目录文件

  • inputs/ {自定义文件名} /source_video:制作好的数字人基础视频。
  • inputs/ {自定义文件名} /source_audio:制作好的音频文件。
  • outputs:输出制作好的合成视频。

注意:这个自定义文件名一定要纯字母组合或者数字组合又或者字母数字组合!

数字人基础视频可以去Heygen (HeyGen - AI Video Generator) 上制作一个数字人;

音频文件可以去这里 (免费微软语音生成工具)生成音频。

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

 

2.6、配置参数

导入好文件后,打开run.py文件,更改环境路径。

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

然后更改在inputs下面的文件夹路径。(即是上面的{自定义文件名})

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

 

2.7、学术资源加速

打开终端,输入以下命令可以加速访问的学术资源,比如github,这个很有必要的,关乎到后面运行代码自动下载那些权重文件。

设置学术资源加速

source /etc/network_turbo

取消学术资源加速(如果不用的话可以取消它)

unset http_proxy && unset https_proxy

2.8、运行run.py

保证上面都配置好后,在命令行中运行run.py。

python run.py

2.9、导出视频

执行完毕后会生成在对应的outputs文件夹中,红框的文件为最后合成好的高清视频文件。

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

 

2.10、效果演示

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github

 

三、结论

随着人工智能技术的飞速发展,AI数字人已经成为越来越重要的研究和应用领域。Wav2Lip和GFPGAN这两种强大的AI模型可以帮助我们创建出逼真的AI数字人视频。其中,Wav2Lip模型负责将音频与数字人的口型进行同步,而GFPGAN模型则能对生成的数字人的面部图像进行高质量的重建。AutoDL云算力平台为部署和运行这些模型提供了便利。这个平台不仅拥有大规模的并行计算资源,而且还提供了一键式的AI模型部署功能,使得我们可以快速高效地完成模型的部署和运行。我们已经探讨了如何在AutoDL云算力平台上部署并使用Wav2Lip和GFPGAN模型来创建AI数字人视频,并通过实例来展示了生成的视频效果。尽管这些技术仍有改进空间,例如提高生成图像的质量,优化口型同步的效果,但它们已经展示出了强大的潜力。在未来,我们期待看到更多创新的应用和发展。随着人工智能技术的不断进步,AI数字人可能会更加逼真,更加智能,并在更多领域中发挥作用。而我们,将继续关注这个领域的新动态,期待它为我们的生活带来更多可能。

四、参考资料和进一步阅读

(如有问题可以在评论区咨询喔(づ ̄3 ̄)づ╭❤~)

参考源码①:Wav2Lip

参考源码②:GFPGAN

参考源码③:GitHub - ajay-sainy/Wav2Lip-GFPGAN: High quality Lip sync

参考源码④:https://github.com/jecklianhuo/Wav2Lip-GFPGAN-main

参考博客①:基于Wav2Lip的AI主播_c# 数字人_Mr数据杨的博客-CSDN博客

参考博客②:基于Wav2Lip+GFPGAN的高清版AI主播_Mr数据杨的博客-CSDN博客

基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例),AI数字人,人工智能,python,大数据,chrome,pytorch,算法,github文章来源地址https://www.toymoban.com/news/detail-658095.html

到了这里,关于基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Wav2Lip:深度解析、实现与应用AI数字人语音驱动模型

    Wav2Lip模型作为一种将音频波形转换为面部动画的深度学习技术的重要性。本文将深入探讨Wav2Lip模型的搭建原理、搭建流程以及应用场景,以期为读者提供更具技术深度的理解。 一、Wav2Lip的搭建原理 Wav2Lip模型的搭建基于生成对抗网络(GAN)的原理。GAN由两个主要部分组成:

    2024年03月09日
    浏览(48)
  • 基于 Wav2Lip-GFPGAN 深度学习模型的数字人Demo

    工作中遇到简单整理 博文为 Wav2Lip-GFPGAN 环境搭建运行的 Demo 理解不足小伙伴帮忙指正 对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是

    2024年02月08日
    浏览(37)
  • AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

    前言 建议直接阅读飞书文档: Docs https://yv2c3kamh3y.feishu.cn/docx/S5AldFeZUoMpU5x8JAuctgPsnfg 近期很多饱子私信,想知道关于AI数字人主播的技术实现。现本篇就AI数字人虚拟主播的Wav2Lip技术进行实现与评测,后续还会有其他的相关技术实现与评测。 本文主要实现 图片说话 (如下图的

    2024年02月09日
    浏览(26)
  • 最新能让老外对口型讲中文的AI 视频教程,免费开源AI工具——Wav2Lip

    本期就来教大家制作海外大佬们新年祝福视频吧!对口型视频一直在全网都非常的火爆,随便一个视频都是几千赞以上,简直堪称涨粉利器! 是不是很有意思,口型完全对得上,表情也很自然逼真,不懂内行的人,还真的以为是大佬中文说得非常溜! 这种内容形态非常适合

    2024年04月25日
    浏览(24)
  • Wav2Lip视频人脸口型同步(Win10)

    最近比较火的一个AI场景,就是用原声讲外语,嘴型同步,网上找了些资料,今天也跑起来了,推荐 Wav2Lip,官网地址:Github Wav2Lip Python3.6 ffmpeg git clone https://github.com/Rudrabha/Wav2Lip.git pip install -r requirements.txt 下载人脸检测模型,并放在路径 face_detection/detection/sfd/s3fd.pth Wav2Lip模

    2024年02月01日
    浏览(24)
  • 超写实虚拟数字人再升级:Wav2Lip-GFPGAN完整版教程及效果视频评测【手把手】

    在前面的一篇数字人文章中,我们介绍了AI主播虚拟人技术中的一项重要技术——Wav2Lip,并附上了完整版教程和效果评测,具体可见AI数字人虚拟主播技术实现Wav2Lip及效果演示评测【附完整版教程】。然而,我们也发现了一个问题,生成的视频中面部的画质相对模糊,缺乏细

    2024年02月16日
    浏览(36)
  • Wav2Lip使用教程

    提示:基本准备工作: 项目名称: Wav2Lip git地址 : https://github.com/Rudrabha/Wav2Lip.git Python 3.6 语言环境 ffmpeg: sudo apt-get install ffmpeg 安装 pip install -r requirements.txt 【系统用要求安装的依赖包】 人脸检测预训练模型应下载到Face_detection/detection/sfd/s3fd.pth。如果以上内容不起作用,请选

    2024年02月07日
    浏览(30)
  • stable-diffusion-webui安装Wav2Lip

    常见错误 1.错误:Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check 修改代码: 删除三个地方:

    2024年01月22日
    浏览(29)
  • wav2lip:Accurately Lip-syncing Videos In The Wild

    飞桨AI Studio - 人工智能学习与实训社区 集开放数据、开源算法、免费算力三位一体,为开发者提供高效学习和开发环境、高价值高奖金竞赛项目,支撑高校老师轻松实现AI教学,并助力开发者学习交流,加速落地AI业务场景 https://aistudio.baidu.com/aistudio/education/group/info/16651 wav

    2024年02月06日
    浏览(40)
  • AI数字人:语音驱动面部模型及超分辨率重建Wav2Lip-HD

    数字人打造中语音驱动人脸和超分辨率重建两种必备的模型,它们被用于实现数字人的语音和图像方面的功能。通过Wav2Lip-HD项目可以快速使用这两种模型,完成高清数字人形象的打造。 项目代码地址:github地址 1.1 语音驱动面部模型wav2lip 语音驱动人脸技术主要是通过语音信

    2024年02月16日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包