AI数字人:语音驱动人脸模型Wav2Lip

这篇具有很好参考价值的文章主要介绍了AI数字人:语音驱动人脸模型Wav2Lip。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 Wav2Lip介绍

1.1 Wav2Lip概述

2020年,来自印度海德拉巴大学和英国巴斯大学的团队,在ACM MM2020发表了的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》,在文章中,他们提出一个叫做Wav2Lip的AI模型,只需要一段人物视频和一段目标语音,就能够让音频和视频合二为一,人物嘴型与音频完全匹配。

对口型的技术,此前其实已经有很多,甚至在基于深度学习的技术出现之前,就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。但这Wav2Lip 在目前的众多方法中,显示出了绝对优势。现有的其它方法,主要是基于静态图像,来输出与目标语音匹配的唇形同步视频,但对于动态的、在讲话的人物,唇形同步往往效果不佳。而 Wav2Lip 则可以直接将动态的视频,进行唇形转换,输出与目标语音相匹配的视频结果。

论文地址:论文地址

代码地址:https://github.com/Rudrabha/Wav2Lip

1.2 Wav2Lip模型结构

AI数字人:语音驱动人脸模型Wav2Lip,AI数字人技术,人工智能,深度学习,生成对抗网络

Wav2Lip模型是一个两阶段模型。

  • 第一阶段是:训练一个能够判别声音与嘴型是否同步的判别器;
  • 第二阶段是:采用编码-解码模型结构(一个生成器 ,两个判别器);

也可基于GAN的训练方式,在一定程度上会影响同步性,但整体视觉效果稍好。

AI数字人:语音驱动人脸模型Wav2Lip,AI数字人技术,人工智能,深度学习,生成对抗网络

在模型训练阶段,作者提出了两个新指标, “Lip-Sync Error-Distance”(越低越好)和 “Lip-Sync Error-Confidence”(越高越好),这两个指标可以测量视频的中的唇语同步精度。结果发现,使用Wav2Lip生成的视频几乎和真实的同步视频一样好。

需要注意的是,这个模型只在LRS2上的训练集上进行了训练,在对其他数据集的训练时需要对代码进行少量修改。

生成效果如下所示

AI数字人:语音驱动人脸模型Wav2Lip,AI数字人技术,人工智能,深度学习,生成对抗网络

1.3 论文内容

在这项工作中,我们研究了语音驱动任意人脸唇部的运动,使得语音与说话运动同步。当前的工作擅长在训练期间看到的特定人物的静态图像或视频上产生准确的嘴唇运动。然而,它们无法准确地改变动态、不受约束的说话面部视频中任意身份的嘴唇运动,导致视频的重要部分与新音频不同步。我们确定了与此相关的关键原因,并通过向强大的口型同步鉴别器学习来解决这些问题。接下来,我们提出新的、严格的评估基准和指标,以准确测量无约束视频中的唇同步。对我们具有挑战性的基准进行的广泛定量评估表明,我们的 Wav2Lip 模型生成的视频的口型同步精度几乎与真实同步视频一样好。

随着视听内容消费的指数级增长,快速视频内容创作已成为一种基本需求。与此同时,以不同语言翻译这些视频也是一个关键挑战。例如,深度学习系列讲座、一部著名电影或向全国发表的公开演讲,如果翻译成所需的目标语言,就可以供数百万新观众观看。翻译此类会说话的面部视频的一个关键方面是校正唇形以同步匹配所需的目标语音。因此,对人脸视频进行口型同步以匹配给定的输入音频流已经在研究界受到了相当多的关注。在这个领域深度学习的早期工作使用单个说话者的几个小时视频学习了从语音表示到唇部标志的映射。这方面最近的工作能够直接从语音表示生成图像,并在他们经过训练的特定说话人上展示了卓越的生成质量。然而,许多实际应用需要能够轻松用于通用身份和语音输入的模型,这种模型经过数千种身份和声音的训练。它们可以在任何声音中的任何身份的单个静态图像上生成准确的嘴唇运动,包括由文本到语音系统生成的合成语音。然而,要用于翻译讲座/电视剧等应用,对这些模型的要求就不仅仅需要运行在静态图像上。我们的工作建立在后一类通用说话者的工作之上,这些工作希望对任何身份和声音的说话面部视频进行口型同步。我们发现,这些适用于静态图像的模型无法准确地应用在视频内容中的各种嘴唇形状中。我们的主要贡献如下:

  • 我们提出了一种新颖的口型同步网络,Wav2Lip,它比以前的作品更加准确,可以在任意语音对任意说话的脸部视频进行口型同步。
  • 我们提出了一个新的评估框架,其中包括新的基准和指标,以实现对不受约束的视频中的口型同步的公平判断。
  • 我们收集并发布了ReSyncED,这是一个真实的口型同步评估数据集,用于在完全未见过的视频上对口型同步模型的性能进行基准测试。
  • Wav2Lip 是第一个通用说话者的模型,可生成与真实同步视频相匹配的口型同步精度的视频。人类评估表明,在超过 90% 的情况下,Wav2Lip 生成的视频优于现有方法。

 

2 Wav2Lip部署及使用

2.1 github项目下载:

git clone https://github.com/Rudrabha/Wav2Lip

2.2 运行环境构建

conda环境准备详见:annoconda安装与使用

conda create -n wav2lip python==3.9
 
conda activate wav2lip 

conda install ffmpeg
 
cd Wav2lip
 
pip install -r requirements.txt

2.3 预训练模型获取

预训练模型下载:预训练模型地址

下载完成后解压,并按如下目录方式存放

  • wav2lip.pth存放到checkpoints目录下
  • wav2lip_gan.pth存放到checkpoints目录下
  • lipsync_expert.pth存放到checkpoints目录下
  • visual_quality_disc.pth存放到checkpoints目录下
  • s3fd.pth存放到face_detection/detection/sfd/目录下

2.4 视频合成

  • 通过视频和音频进行合成
 python inference.py --checkpoint_path checkpoints/wav2lip_gan.pth --face data/demo.mp4 --audio data/demo.wav 
  • 通过图片和音频进行合成
 python inference.py --checkpoint_path checkpoints/wav2lip_gan.pth --face data/demo.png --audio data/demo.wav 

最后,生成的新视频文件保存在 results/result_voice.mp4 ,生成的中间文件存放在 temp

 3 问题处理

如遇到处理过程报错,显示没有检测到头像,如下所示

ValueError: Face not detected! Ensure the video contains a face in all the frames.

这个一般是由于片头或者片尾视频帧没有检测到人脸,解决方法是使用ffmpeg或者剪辑软件,将片头或片尾相应的帧剪掉,保存为一个新的视频,合成时作为输入,即可成功文章来源地址https://www.toymoban.com/news/detail-672421.html

到了这里,关于AI数字人:语音驱动人脸模型Wav2Lip的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

    前言 建议直接阅读飞书文档: Docs https://yv2c3kamh3y.feishu.cn/docx/S5AldFeZUoMpU5x8JAuctgPsnfg 近期很多饱子私信,想知道关于AI数字人主播的技术实现。现本篇就AI数字人虚拟主播的Wav2Lip技术进行实现与评测,后续还会有其他的相关技术实现与评测。 本文主要实现 图片说话 (如下图的

    2024年02月09日
    浏览(39)
  • 基于Wav2Lip+GFPGAN的AI数字人视频(以AutoDL算力云平台部署为例)

    目录 前 言 一、AutoDL云算力平台简介 二、在AutoDL云算力平台上部署Wav2Lip-GFPGAN代码 2.1、创建AutoDL云算力实例 2.2、将源码导入实例 2.3、远程AutoDL云服务 2.4、安装依赖 2.5、导入视频和音频目录文件 2.6、配置参数 2.7、学术资源加速 2.8、运行run.py 2.9、导出视频 三、结论 四、参

    2024年02月12日
    浏览(48)
  • Wav2Lip视频人脸口型同步(Win10)

    最近比较火的一个AI场景,就是用原声讲外语,嘴型同步,网上找了些资料,今天也跑起来了,推荐 Wav2Lip,官网地址:Github Wav2Lip Python3.6 ffmpeg git clone https://github.com/Rudrabha/Wav2Lip.git pip install -r requirements.txt 下载人脸检测模型,并放在路径 face_detection/detection/sfd/s3fd.pth Wav2Lip模

    2024年02月01日
    浏览(35)
  • 基于Wav2Lip+GFPGAN的高清版AI主播

    继上一篇 基于Wav2Lip的AI主播 的内容之后很多小伙伴反应一个问题就是生成的AI人物并不是很清晰,尤其是放到编辑器里会出现明显的痕迹,因此这次带来的了 Wav2Lip+GFPGAN 高清版的内容,如果不太了解这个项目实做什么的可以来先看一下效果。该项目暂时没有中文介绍,我这

    2024年01月20日
    浏览(41)
  • 超写实虚拟数字人再升级:Wav2Lip-GFPGAN完整版教程及效果视频评测【手把手】

    在前面的一篇数字人文章中,我们介绍了AI主播虚拟人技术中的一项重要技术——Wav2Lip,并附上了完整版教程和效果评测,具体可见AI数字人虚拟主播技术实现Wav2Lip及效果演示评测【附完整版教程】。然而,我们也发现了一个问题,生成的视频中面部的画质相对模糊,缺乏细

    2024年02月16日
    浏览(52)
  • 最新能让老外对口型讲中文的AI 视频教程,免费开源AI工具——Wav2Lip

    本期就来教大家制作海外大佬们新年祝福视频吧!对口型视频一直在全网都非常的火爆,随便一个视频都是几千赞以上,简直堪称涨粉利器! 是不是很有意思,口型完全对得上,表情也很自然逼真,不懂内行的人,还真的以为是大佬中文说得非常溜! 这种内容形态非常适合

    2024年04月25日
    浏览(36)
  • wav2clip 阅读

    最近看wav2clip代码和论文, 发现没人写过相关博客. 我就补上.  直接从第二章开始看: 第二章: 参考上面图1: 首先回顾了一下经典的clip模型. 然后图片中间distiling from clip采取类似结构. 但是往里面加入了MLP网络,也就是dnn, 对应图片中的Contrstive Loss Projection Layers. 之后我们定义了一

    2024年02月11日
    浏览(35)
  • Wav2Lip使用教程

    提示:基本准备工作: 项目名称: Wav2Lip git地址 : https://github.com/Rudrabha/Wav2Lip.git Python 3.6 语言环境 ffmpeg: sudo apt-get install ffmpeg 安装 pip install -r requirements.txt 【系统用要求安装的依赖包】 人脸检测预训练模型应下载到Face_detection/detection/sfd/s3fd.pth。如果以上内容不起作用,请选

    2024年02月07日
    浏览(38)
  • AI数字人:基于VITS模型的中文语音生成训练

            VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型。         VITS模型是韩国科学院在2021年6月提出的,VITS通过隐变量而非频谱串联起来语

    2024年02月11日
    浏览(38)
  • Wav2vec2 论文阅读看到的一些问题

    这里只是简单的思考一下论文的一些问题,不是论文解读。 Q1. 为什么wav2vec依旧需要Transformer来做推理,而不直接使用VQ生成的内容? A1. Transformer在更长的序列上有更好的编码效果,例如论文也写Contextualized representations with Transformers。另一个因素在于对比学习本质上是区分相

    2024年02月13日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包