AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

这篇具有很好参考价值的文章主要介绍了AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言
建议直接阅读飞书文档:Docshttps://yv2c3kamh3y.feishu.cn/docx/S5AldFeZUoMpU5x8JAuctgPsnfg


近期很多饱子私信,想知道关于AI数字人主播的技术实现。现本篇就AI数字人虚拟主播的Wav2Lip技术进行实现与评测,后续还会有其他的相关技术实现与评测。

本文主要实现图片说话(如下图的蒙娜丽莎)、视频融合语音(这里的核心都是人物口型与音频中的语音唇形同步)。主要通过将两个不相关的人的视频、音频,采用Wav2Lip技术,最终得到一个完整的视频文件,且视频的人物口型与音频内容一致。举例:小红的语音、加上小花的自拍视频,融合为一个最终的视频;那么小红在发出“啊”声音的时候,小花的嘴应该是张开的,以下是一张效果图),本文第四部分有完整的效果评测视频

AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

本文主要通过以下五个部分展开:

第一部分:深度伪造技术概述

第二部分:Wav2lip技术概述

第三部分:使用Wav2Lip进行AI主播虚拟人的深度实践

第四部分:效果评测

第五部分:Wav2Lip完整版教程的下载
注:本案例涉及到所有内容,包括教程、图片、视频、Wav2Lip等均集中打包分享给大家,可自行复现。

以下是正文


第一部分:深度伪造技术概述

深度伪造一词译自英文“Deepfake”(“deep learning”和“fake”的组合)。它是一种利用机器学习的子领域——深度学习创建合成媒体的技术。
深度伪造Deepfake 可以根据媒体的关注点分为 3 个方向进行更改,即伪造视觉(例如伪造图片或者视频)、伪造音频(例如伪造语音内容等)、伪造视觉及音频(即前两者的结合了,完全都是伪造)。

AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

深度伪造Deepfake很重要的一个技术是表情重现,让目标身份的表情模仿源身份的表情(极端一致,很自然与原始目标人物能够表情自然一致)。这在电影和视频游戏行业中具有极大的应用价值,如对演员的表情表演进行后期调整。本文图片、视频均是自己生成的,可以参考:【震撼来袭】AI视频动画制作《狼来了》全揭秘!【附完整教程】,声音是采用剪映生成的(所有素材均已放在教程中了)。

第二部分:Wav2lip技术概述

Wav2Lip技术是一个基于GAN的唇形动作迁移算法,实现生成的视频人物口型与输入语音同步。Wav2Lip不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与输入语音匹配的视频,俗称「对口型」。该技术的主要作用就是在将音频与图片、音频与视频进行合成时,口型能够自然。
如果您要使用哪个模型文件,github库中的 readme.md 会指出每个模型的关键属性,如下面的屏幕截图所示。

项目地址:https://github.com/baoxueyuan/DeepFake

Model Description
Wav2Lip 高度精确的唇同步
Wav2Lip + GAN 嘴唇同步稍差,但视觉质量更好
Expert Discriminator 专家鉴别器的权重
Visual Quality Discriminator 在GAN设置中训练的视盘重量

本文着重演示:Wav2Lip与Wav2Lip + GAN
Wav2Lip与Wav2Lip + GAN模型最终的效果对比,可见第四部分。

第三部分使用Wav2Lip进行AI主播虚拟人的深度实践
直接下载教程,完整详细,空间有限,这里仅部分截图展示:

AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

第四部分:效果评测

AI数字人虚拟主播技术实现效果

第五部分:Wav2Lip完整版教程的下载

关注公众号【饱学猿】,回复数字【5301】,即可获取下载链接。
本案例涉及到所有内容,包括教程、模型、图片、视频、Wav2Lip等均集中打包分享给大家,可自行复现。

AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】文章来源地址https://www.toymoban.com/news/detail-493694.html

到了这里,关于AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例)

    目录 前 言 一、AutoDL云算力平台简介 二、在AutoDL云算力平台上部署Wav2Lip-GFPGAN代码 2.1、创建AutoDL云算力实例 2.2、将源码导入实例 2.3、远程AutoDL云服务 2.4、安装依赖 2.5、导入视频和音频目录文件 2.6、配置参数 2.7、学术资源加速 2.8、运行run.py 2.9、导出视频 三、结论 四、参

    2024年02月12日
    浏览(49)
  • 最新能让老外对口型讲中文的AI 视频教程,免费开源AI工具——Wav2Lip

    本期就来教大家制作海外大佬们新年祝福视频吧!对口型视频一直在全网都非常的火爆,随便一个视频都是几千赞以上,简直堪称涨粉利器! 是不是很有意思,口型完全对得上,表情也很自然逼真,不懂内行的人,还真的以为是大佬中文说得非常溜! 这种内容形态非常适合

    2024年04月25日
    浏览(37)
  • Wav2Lip使用教程

    提示:基本准备工作: 项目名称: Wav2Lip git地址 : https://github.com/Rudrabha/Wav2Lip.git Python 3.6 语言环境 ffmpeg: sudo apt-get install ffmpeg 安装 pip install -r requirements.txt 【系统用要求安装的依赖包】 人脸检测预训练模型应下载到Face_detection/detection/sfd/s3fd.pth。如果以上内容不起作用,请选

    2024年02月07日
    浏览(38)
  • Wav2Lip视频人脸口型同步(Win10)

    最近比较火的一个AI场景,就是用原声讲外语,嘴型同步,网上找了些资料,今天也跑起来了,推荐 Wav2Lip,官网地址:Github Wav2Lip Python3.6 ffmpeg git clone https://github.com/Rudrabha/Wav2Lip.git pip install -r requirements.txt 下载人脸检测模型,并放在路径 face_detection/detection/sfd/s3fd.pth Wav2Lip模

    2024年02月01日
    浏览(40)
  • stable-diffusion-webui安装Wav2Lip

    常见错误 1.错误:Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check 修改代码: 删除三个地方:

    2024年01月22日
    浏览(38)
  • 用Wav2Lip+GFPGAN创建高质量的唇型合成视频

    在这里,我可以提供一个简单的代码示例,演示如何使用Wav2Lip+GFPGAN来创建高质量的唇形合成视频。代码示例如下: 这是一个简单的参考实现,并不能保证所有情况下都适用,但是可以帮助您了解如何使用Wav2Lip+GFPGAN来生成唇形合成视频。

    2024年02月13日
    浏览(48)
  • wav2lip:Accurately Lip-syncing Videos In The Wild

    飞桨AI Studio - 人工智能学习与实训社区 集开放数据、开源算法、免费算力三位一体,为开发者提供高效学习和开发环境、高价值高奖金竞赛项目,支撑高校老师轻松实现AI教学,并助力开发者学习交流,加速落地AI业务场景 https://aistudio.baidu.com/aistudio/education/group/info/16651 wav

    2024年02月06日
    浏览(51)
  • 超写实虚拟数字人再升级:Wav2Lip-GFPGAN完整版教程及效果视频评测【手把手】

    在前面的一篇数字人文章中,我们介绍了AI主播虚拟人技术中的一项重要技术——Wav2Lip,并附上了完整版教程和效果评测,具体可见AI数字人虚拟主播技术实现Wav2Lip及效果演示评测【附完整版教程】。然而,我们也发现了一个问题,生成的视频中面部的画质相对模糊,缺乏细

    2024年02月16日
    浏览(55)
  • AI数字人:语音驱动面部模型及超分辨率重建Wav2Lip-HD

    数字人打造中语音驱动人脸和超分辨率重建两种必备的模型,它们被用于实现数字人的语音和图像方面的功能。通过Wav2Lip-HD项目可以快速使用这两种模型,完成高清数字人形象的打造。 项目代码地址:github地址 1.1 语音驱动面部模型wav2lip 语音驱动人脸技术主要是通过语音信

    2024年02月16日
    浏览(46)
  • 基于 Wav2Lip-GFPGAN 深度学习模型的数字人Demo

    工作中遇到简单整理 博文为 Wav2Lip-GFPGAN 环境搭建运行的 Demo 理解不足小伙伴帮忙指正 对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是

    2024年02月08日
    浏览(66)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包