【论文笔记】GeneFace: Generalized and High-FidelityAudio-Driven 3D Talking Face Synthesis

这篇具有很好参考价值的文章主要介绍了【论文笔记】GeneFace: Generalized and High-FidelityAudio-Driven 3D Talking Face Synthesis。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一.背景

1.1 挑战

这项工作泛化能力弱,存在的两个挑战:

(1)训练数据规模小。

(2)容易产生“平均脸”。音频到其对应的面部运动是一对多映射,这意味着相同的音频输入可能具有多个正确的运动模式。使用基于回归的模型学习此类映射会导致过度平滑和模糊结果

1.2 解决方案

(1)为了处理弱泛化问题,我们设计了一个音频到运动模型,在给定输入音频的情况下预测三维人脸标志。我们利用来自大规模唇读数据集的数百小时的音频运动对学习鲁棒映射。

(2)对于“平均脸”问题,我们采用基于流先验的变分自动编码器(VAE)代替基于回归的模型,作为音频到运动模型的结构,有助于生成准确且富有表情的人脸运动。

(3)然而,由于生成的标志(多说话人域)和NeRF训练集(目标人域)之间的域转移,我们发现基于NeRF的渲染器在给定预测的地标的情况下无法生成高保真的帧。因此,提出了一种领域自适应过程,将预测的地标嵌入到目标人的分布中。

【问题】为什么之前不能使用唇语数据集?

1.3 前置知识

1.3.1 3DMM:3D Morphable models

每一个三维的人脸,可以由一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数的问题。

  • (1)为什么可以使用pca将向量正交化?

PCA(主成分分析)的目标是找到数据中最具有方差的主要方向。对于特征值分解A * v = λ * v,将原始数据矩阵分解为特征向量矩阵和对角特征值矩阵的乘积。特征向量构成了一个正交基,而对角特征值则表示了每个主成分对应的方差大小。

geneface,论文阅读

  • (2)目前存在的问题:忽略了精细的细节

 【参考】【技术综述】基于3DMM的三维人脸重建技术总结 - 知乎

1.3.2   HuBERT

一种ASR(automatic speech recognition)识别技术,可以参考HuBERT:基于BERT的自监督 (self-supervised)语音表示学习 

1.3.3 flow模型 :归一化流

归一化流的关键思想是通过一系列变换,将一个简单的概率分布(例如高斯分布)映射到目标分布。这些变换可以包括仿射变换、非线性变换等。每个变换都是可逆的,意味着可以从后验分布还原到先验分布,从而可以计算概率密度函数和采样。

通过在流模型中引入时间作为条件,可以建模具有时间依赖性的分布,例如序列数据。在每个时间步骤中,归一化流可以将先验分布映射到与当前时间步骤相关的后验分布,从而生成与时间相关的样本。

1.3.4 ELBO

用于近似推断概率模型中隐变量后验分布的一种方法。定义为观测数据的边际对数似然(log-likelihood)和 KL 散度(Kullback-Leibler divergence)的差值。

(1) closed-form ELBO【可了解】

变分推断中的ELBO(证据下界)_HFUT_qianyang的博客-CSDN博客

(2)MonteCarlo ELBO

蒙特卡罗ELBO不依赖于解析计算,而是通过随机采样的方式进行估计,优点是可以应用于各种复杂的概率模型,不受解析计算的限制。

二.Geneface

 2.1 变分动作生成器

geneface,论文阅读

2.1.1 语音和动作表示

(1)语音表示上:利用HuBERT从输入波中获取音频特征,并将其作为变分运动发生器的条件

(2)动作表示上:从重建的三维头部网格中选择68个关键点

2.1.2 扩展卷积编码器和解码器

将编码器和解码器设计为全卷积网络,其中卷积层具有增量增加的扩张因子,使其接受场随深度呈指数级增长。设法在单个前向中合成任意长度的整个序列并对结果进行高斯滤波以消除微小波动。

2.1.3 流先验

  • 为什么要使用flow模型做先验:

vanilla VAE的高斯先验从两个方面限制了我们的3D landmark 序列生成过程的性能:

1)每个时间索引的数据点彼此独立,这给帧之间存在可靠时间相关性的序列生成任务带来了噪声。

2) 优化VAE先验将后验分布推向均值,限制了多样性,损害了生成能力。

使用归一化流来提供复杂且与时间相关的分布

geneface,论文阅读

2.2 域自适应的posenet

  • 为什么需要域自适应:预测的3D地标和目标人物领域之间存在领域偏移。
  • 解决方案:微调目标人物数据集中的变分生成器。

设计了一个半监督对抗性训练管道来执行领域自适应

2.3 基于NERF的渲染器

头部感知躯干NeRF为了更好地模拟头部和躯干运动,我们训练两个NeRF分别渲染头部和躯干部分。 文章来源地址https://www.toymoban.com/news/detail-762013.html

到了这里,关于【论文笔记】GeneFace: Generalized and High-FidelityAudio-Driven 3D Talking Face Synthesis的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [论文笔记] Gunrock: A High-Performance Graph Processing Library on the GPU

    Gunrock: GPU 上的高性能图处理库 [Paper] [Code] PPoPP’16 Gunrock, 针对 GPU 的高层次批量同步图处理系统. 采用了一种新方法抽象 GPU 图分析: 实现了以数据为中心(data-centric)的抽象, 以在结 点或边的边界(frontier)上的操作 为中心. 将高性能 GPU 计算原语和优化策略与高级编程模型相结合

    2024年02月08日
    浏览(46)
  • Generalized Focal Loss论文个人理解

    论文地址:Generalized Focal Loss: Towards Efficient Representation Learning for Dense Object Detection 论文解决问题 研究人员最近更加关注边界框的表示(representation)及其定位质量估计(LQE,本论文中指的是IoU score),导致该领域取得了令人鼓舞的进展。具体来说,边界框表示被建模为简单的狄

    2024年02月01日
    浏览(42)
  • 迁移学习(COAL)《Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment》

    论文标题:Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment 论文作者:Shuhan Tan, Xingchao Peng, Kate Saenko 论文来源:ICLR 2020 论文地址:download  论文代码:download 视屏讲解:click 提出问题:标签偏移; 解决方法: 原型分类器模拟类特征分布,并使用 Minimax Entropy 实现条件

    2023年04月19日
    浏览(39)
  • (FEDCVAE-KD)DATA-FREE ONE-SHOT FEDERATED LEARNING UNDER VERY HIGH STATISTICAL HETEROGENEITY论文笔记

    出于对扩展通信和潜在攻击的担忧,一次性FL将通信限制在单一回合,同时试图保持性能。 然而,一次性FL方法在高统计异质性的情况下往往会退化,无法提高管道的安全性,或者需要一个辅助的公共数据集。 为了解决这些局限性,我们提出了两种新的无数据的一次性FL方法

    2024年02月04日
    浏览(43)
  • 论文阅读《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》

    论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Chang_Domain_Generalized_Stereo_Matching_via_Hierarchical_Visual_Transformation_CVPR_2023_paper.html    立体匹配模型是近年来的研究热点。但是,现有的方法过分依赖特定数据集上的简单特征,导致在新的数据集上泛化能力不强。现有的立体匹配

    2024年02月04日
    浏览(44)
  • Low Cost and High Performance FPGA with ARM and SDRAM inside

    AG10KSDE176 AGM AG10KSDE176 是由 AGM FPGA AG10K 与 SDRAM 叠封集成的芯片,具有 AG10K FPGA 的可编程功能,提供更多可编程 IO,同时内部连接大容量 SDRAM。  FPGA 外部管脚输出 EQFP176 封装底部 Pad 为 GND,管脚说明请见下表:  SDRAM 说明 内部 SDRAM 为 64Mbit(512K words × 4 banks × 32 bits)容量

    2024年02月04日
    浏览(52)
  • 【论文笔记】Pre-train, Prompt, and Predict

    Prompt shape cloze prompts(eg:I love this movie, it is a [Z] movie): for tasks that are solved using masked LMs prefix prompts(eg:I love this movie. What’s the sentiment of the review? [Z]): for generation tasks for some tasks regarding multiple inputs such as text pair classification, prompt templates must contain space for two inputs , [X1] and [X2],ormo

    2024年02月20日
    浏览(47)
  • 【论文笔记】Globally and Locally Consistent Image Completion

    发表年份: 2017 原文链接: Globally and Locally Consistent Image Completion 参考代码: 暂无 提出了一种基于卷积神经网络的图像补全方法,能够生成全局与局部一致的补全图像。 采用了全卷积神经网络(fully-convolutional neural network),可以通过填补任意形状的缺失区域,补全任意分辨

    2024年02月01日
    浏览(45)
  • 论文笔记--LLaMA: Open and Efficient Foundation Language Models

    标题:LLaMA: Open and Efficient Foundation Language Models 作者:Touvron, Hugo, et al. 日期:2023 期刊:arxiv preprint   文章利用公开数据集训练并发布了一系列大语言模型LLaMA,在多个NLP下游任务中性能超过了GPT-3和PALM等模型。 English CommonCrawl(67%): 训练集的大部分构成为2017~2020年间的Com

    2024年02月09日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包