【论文笔记】GeneFace: Generalized and High-FidelityAudio-Driven 3D Talking Face Synthesis-Toy模板网

这篇具有很好参考价值的文章主要介绍了【论文笔记】GeneFace: Generalized and High-FidelityAudio-Driven 3D Talking Face Synthesis。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一.背景

1.1 挑战

这项工作泛化能力弱，存在的两个挑战：

（1）训练数据规模小。

（2）容易产生“平均脸”。音频到其对应的面部运动是一对多映射，这意味着相同的音频输入可能具有多个正确的运动模式。使用基于回归的模型学习此类映射会导致过度平滑和模糊结果

1.2 解决方案

（1）为了处理弱泛化问题，我们设计了一个音频到运动模型，在给定输入音频的情况下预测三维人脸标志。我们利用来自大规模唇读数据集的数百小时的音频运动对学习鲁棒映射。

（2）对于“平均脸”问题，我们采用基于流先验的变分自动编码器（VAE）代替基于回归的模型，作为音频到运动模型的结构，有助于生成准确且富有表情的人脸运动。

（3）然而，由于生成的标志（多说话人域）和NeRF训练集（目标人域）之间的域转移，我们发现基于NeRF的渲染器在给定预测的地标的情况下无法生成高保真的帧。因此，提出了一种领域自适应过程，将预测的地标嵌入到目标人的分布中。

【问题】为什么之前不能使用唇语数据集？

1.3 前置知识

1.3.1 3DMM：3D Morphable models

每一个三维的人脸，可以由一个数据库中的所有人脸组成的基向量空间中进行表示，而求解任意三维人脸的模型，实际上等价于求解各个基向量的系数的问题。

（1）为什么可以使用pca将向量正交化？

PCA（主成分分析）的目标是找到数据中最具有方差的主要方向。对于特征值分解A * v = λ * v，将原始数据矩阵分解为特征向量矩阵和对角特征值矩阵的乘积。特征向量构成了一个正交基，而对角特征值则表示了每个主成分对应的方差大小。

geneface,论文阅读

(2)目前存在的问题：忽略了精细的细节

【参考】【技术综述】基于3DMM的三维人脸重建技术总结 - 知乎

1.3.2 HuBERT

一种ASR（automatic speech recognition）识别技术，可以参考HuBERT：基于BERT的自监督 (self-supervised)语音表示学习

1.3.3 flow模型：归一化流

归一化流的关键思想是通过一系列变换，将一个简单的概率分布（例如高斯分布）映射到目标分布。这些变换可以包括仿射变换、非线性变换等。每个变换都是可逆的，意味着可以从后验分布还原到先验分布，从而可以计算概率密度函数和采样。

通过在流模型中引入时间作为条件，可以建模具有时间依赖性的分布，例如序列数据。在每个时间步骤中，归一化流可以将先验分布映射到与当前时间步骤相关的后验分布，从而生成与时间相关的样本。

1.3.4 ELBO

用于近似推断概率模型中隐变量后验分布的一种方法。定义为观测数据的边际对数似然（log-likelihood）和 KL 散度（Kullback-Leibler divergence）的差值。

（1） closed-form ELBO【可了解】

变分推断中的ELBO(证据下界)_HFUT_qianyang的博客-CSDN博客

（2）MonteCarlo ELBO

蒙特卡罗ELBO不依赖于解析计算，而是通过随机采样的方式进行估计，优点是可以应用于各种复杂的概率模型，不受解析计算的限制。

二.Geneface

2.1 变分动作生成器

geneface,论文阅读

2.1.1 语音和动作表示

（1）语音表示上：利用HuBERT从输入波中获取音频特征，并将其作为变分运动发生器的条件

（2）动作表示上：从重建的三维头部网格中选择68个关键点

2.1.2 扩展卷积编码器和解码器

将编码器和解码器设计为全卷积网络，其中卷积层具有增量增加的扩张因子，使其接受场随深度呈指数级增长。设法在单个前向中合成任意长度的整个序列并对结果进行高斯滤波以消除微小波动。

2.1.3 流先验

为什么要使用flow模型做先验：

vanilla VAE的高斯先验从两个方面限制了我们的3D landmark 序列生成过程的性能:

1）每个时间索引的数据点彼此独立，这给帧之间存在可靠时间相关性的序列生成任务带来了噪声。

2）优化VAE先验将后验分布推向均值，限制了多样性，损害了生成能力。

使用归一化流来提供复杂且与时间相关的分布

geneface,论文阅读

2.2 域自适应的posenet

为什么需要域自适应：预测的3D地标和目标人物领域之间存在领域偏移。
解决方案：微调目标人物数据集中的变分生成器。

设计了一个半监督对抗性训练管道来执行领域自适应

2.3 基于NERF的渲染器

头部感知躯干NeRF为了更好地模拟头部和躯干运动，我们训练两个NeRF分别渲染头部和躯干部分。文章来源地址https://www.toymoban.com/news/detail-762013.html

到了这里，关于【论文笔记】GeneFace: Generalized and High-FidelityAudio-Driven 3D Talking Face Synthesis的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！