wav2lip：Accurately Lip-syncing Videos In The Wild

1年前作者：Kun Li分类：Toy博客阅读(9)违法举报

这篇具有很好参考价值的文章主要介绍了wav2lip：Accurately Lip-syncing Videos In The Wild。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

飞桨AI Studio - 人工智能学习与实训社区集开放数据、开源算法、免费算力三位一体，为开发者提供高效学习和开发环境、高价值高奖金竞赛项目，支撑高校老师轻松实现AI教学，并助力开发者学习交流，加速落地AI业务场景https://aistudio.baidu.com/aistudio/education/group/info/16651

wav2lip，主要是通过音频以及和音频同步的图片以及不同步的图片作为输入，构造了encoder-deocder结构，其中损失模块包括了三个部分，第一是重建损失，第二是同步损失，其中提前预训练了一个同步模型，第三增加了gan架构，用来提升生成的质量。但是wav2lip开源版本不够高清，生成出来的唇形仍然比较模糊，有两种做法，一个是训练高清版本的，另一个就是接fpgan这种增强的方式，但是后者速度很慢。

1.安装

python37 cuda 10.1

sudo yum install libsndfile

pip install -r requirements

在face_detection/detection/sfd/sfd_detector.py中把s3fd.pth的路径换一下就好。

2.推理

wav2lip：Accurately Lip-syncing Videos In The Wild

实际上还是一个跨模态的模型，输入是一段音频特征和图像对，其中音频特征以及处理成mel频谱，这也是很常见音频处理，图像特征是一段长视频进行随机的切割，产生的两段，其中第一段橙色和第二段粉色的，将两段图像进行拼接之后，将橙色段的唇形部位全部mask掉，输入一个encoder和decode的结构，在解码时，产生了音频对应的唇形图，将唇形图和gt进行loss计算，gt即是被mask掉的橙色块，这里输入mask橙色块的时候拼了粉色块，我觉得主要还是让模型只学习唇形这一块，因为是基于gan的模型，不然很容易学飞了，粉色图片序列其实就是减少模型的复杂度，给了一块先验，要学的只是mask掉区域。

wav2lip：Accurately Lip-syncing Videos In The Wild

原作者开源出来的不是高清版本的，人脸是96x96的。

wav2lip：Accurately Lip-syncing Videos In The Wild

音频每块是16，一个视频对应的音频，偏移量是80/fps，fps=25，每次偏移大概3。

wav2lip：Accurately Lip-syncing Videos In The Wild

3.训练

wav2lip：Accurately Lip-syncing Videos In The Wild

wav2lip：Accurately Lip-syncing Videos In The Wild 音频和视频同步判断器要提前训练好，即右下角模块，右上角是标准的gan结构，不用gan结构就是l2损失。

wav2lip：Accurately Lip-syncing Videos In The Wild

随机帧是和音频不同步，是根据音频和mask的图形生成真实的唇形，参考帧的意义我自己感觉是减少模型复杂度，但是也有解释，在前向推理时，其实输入的一定是和音频不同步的视频帧，此时不仅对唇形区域做mask，也会把原始的图像拼接起来concat，这样其实训练和推理时就保持一致了。上面的loss是重建损失，后面还有同步损失。

wav2lip：Accurately Lip-syncing Videos In The Wild

l1主要是重建损失，虽然生成了唇形，但是不足以保证同步，提前训练好一个sync判别器。下面是syncnet网络。

wav2lip：Accurately Lip-syncing Videos In The Wild

上面两部分主要考虑的是唇形生成和同步的监督，但是还要考虑唇形生成质量问题，为了提升质量，在生成器后面加了一个gan结构，主要是判别器。

wav2lip：Accurately Lip-syncing Videos In The Wild

预测：

wav2lip：Accurately Lip-syncing Videos In The Wild

3.如何解决画面模糊问题？

3.1 wav2lip后面接一个gan

视频超分：srresnet/basicvsr++，视频超分对显存要求高，1080ti跑步起来，对部署不好。

图像超分：

gfpgan：1min->1457张图，20min左右

gpen：1min->1457张图，16min26s左右

wget https://github.com/ninja-build/ninja/releases/download/v1.8.2/ninja-linux.zip
sudo unzip ninja-linux.zip -d /usr/local/bin/
sudo update-alternatives --install /usr/bin/ninja ninja /usr/local/bin/ninja 1 --force

3.2 wav2lip使用hq版本训练

4.模型推理和训练

4.1 模型推理

python inference.py

4.2 模型训练

4.2.1 对数据预处理

python preprocess.py 进行数据预处理，将数据处理成一个文件夹下图片和音频的集合。

4.2.2 训练唇形同步模型

k80会卡主，1080ti没问题

python color_syncnet_train.py文章来源地址https://www.toymoban.com/news/detail-457668.html

到了这里，关于wav2lip：Accurately Lip-syncing Videos In The Wild的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

基于Wav2Lip+GFPGAN的高清版AI主播
继上一篇基于Wav2Lip的AI主播的内容之后很多小伙伴反应一个问题就是生成的AI人物并不是很清晰，尤其是放到编辑器里会出现明显的痕迹，因此这次带来的了 Wav2Lip+GFPGAN 高清版的内容，如果不太了解这个项目实做什么的可以来先看一下效果。该项目暂时没有中文介绍，我这
2024年01月20日
浏览(8)
AI数字人主播技术实现Wav2Lip【详细记录】
近期很多童鞋私信，想知道关于AI数字人主播的技术实现。现本篇就AI数字人虚拟主播的Wav2Lip技术进行实现与评测，后续还会有其他的相关技术实现与评测。本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）
2024年02月11日
浏览(10)
Wav2Lip：深度解析、实现与应用AI数字人语音驱动模型
Wav2Lip模型作为一种将音频波形转换为面部动画的深度学习技术的重要性。本文将深入探讨Wav2Lip模型的搭建原理、搭建流程以及应用场景，以期为读者提供更具技术深度的理解。一、Wav2Lip的搭建原理 Wav2Lip模型的搭建基于生成对抗网络（GAN）的原理。GAN由两个主要部分组成：
2024年03月09日
浏览(14)
用Wav2Lip+GFPGAN创建高质量的唇型合成视频
在这里，我可以提供一个简单的代码示例，演示如何使用Wav2Lip+GFPGAN来创建高质量的唇形合成视频。代码示例如下：这是一个简单的参考实现，并不能保证所有情况下都适用，但是可以帮助您了解如何使用Wav2Lip+GFPGAN来生成唇形合成视频。
2024年02月13日
浏览(10)
AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】
前言建议直接阅读飞书文档： Docs https://yv2c3kamh3y.feishu.cn/docx/S5AldFeZUoMpU5x8JAuctgPsnfg 近期很多饱子私信，想知道关于AI数字人主播的技术实现。现本篇就AI数字人虚拟主播的Wav2Lip技术进行实现与评测，后续还会有其他的相关技术实现与评测。本文主要实现图片说话（如下图的
2024年02月09日
浏览(9)
基于Wav2Lip+GFPGAN的AI数字人视频（以AutoDL算力云平台部署为例）
目录前言一、AutoDL云算力平台简介二、在AutoDL云算力平台上部署Wav2Lip-GFPGAN代码 2.1、创建AutoDL云算力实例 2.2、将源码导入实例 2.3、远程AutoDL云服务 2.4、安装依赖 2.5、导入视频和音频目录文件 2.6、配置参数 2.7、学术资源加速 2.8、运行run.py 2.9、导出视频三、结论四、参
2024年02月12日
浏览(11)
最新能让老外对口型讲中文的AI 视频教程，免费开源AI工具——Wav2Lip
本期就来教大家制作海外大佬们新年祝福视频吧！对口型视频一直在全网都非常的火爆，随便一个视频都是几千赞以上，简直堪称涨粉利器！是不是很有意思，口型完全对得上，表情也很自然逼真，不懂内行的人，还真的以为是大佬中文说得非常溜！这种内容形态非常适合
2024年04月25日
浏览(10)
基于 Wav2Lip-GFPGAN 深度学习模型的数字人Demo
工作中遇到简单整理博文为 Wav2Lip-GFPGAN 环境搭建运行的 Demo 理解不足小伙伴帮忙指正对每个人而言，真正的职责只有一个：找到自我。然后在心中坚守其一生，全心全意，永不停息。所有其它的路都是不完整的，是人的逃避方式，是对大众理想的懦弱回归，是随波逐流，是
2024年02月08日
浏览(14)
AI数字人：语音驱动面部模型及超分辨率重建Wav2Lip-HD
数字人打造中语音驱动人脸和超分辨率重建两种必备的模型，它们被用于实现数字人的语音和图像方面的功能。通过Wav2Lip-HD项目可以快速使用这两种模型，完成高清数字人形象的打造。项目代码地址：github地址 1.1 语音驱动面部模型wav2lip 语音驱动人脸技术主要是通过语音信
2024年02月16日
浏览(10)
超写实虚拟数字人再升级：Wav2Lip-GFPGAN完整版教程及效果视频评测【手把手】
在前面的一篇数字人文章中，我们介绍了AI主播虚拟人技术中的一项重要技术——Wav2Lip，并附上了完整版教程和效果评测，具体可见AI数字人虚拟主播技术实现Wav2Lip及效果演示评测【附完整版教程】。然而，我们也发现了一个问题，生成的视频中面部的画质相对模糊，缺乏细
2024年02月16日
浏览(12)