ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

这篇具有很好参考价值的文章主要介绍了ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

©PaperWeekly 原创 · 作者 | 叶振辉

单位 | 浙江大学博士生

研究方向 | 语音合成、说话人视频合成

语音驱动的说话人视频合成(Audio-driven Talking Face Generation)是虚拟人领域的一个热门话题,它旨在根据一段输入的语音,合成对应的目标人脸说话视频。高质量的说话人视频需要满足两个目标:(1)合成的视频画面应具有较高的保真度;(2)合成的人脸面部表情应与输入的驱动语音保证高度对齐。 

近年出现的神经辐射场(NeRF;Neural Radiance Field)[1] 为实现第一个目标,即合成高保真度的说话人视频提供了绝佳的工具。仅需要 3 分钟左右的目标人说话视频作为训练数据,即可合成该目标人说任意语音的视频。然而,目前基于 NeRF 的说话人视频合成算法在实现第二个目标还面临许多挑战,具体来说主要可以分为两个方面: 

1. 对域外驱动音频的弱泛化能力:由于训练数据集仅包括数分钟的说话人语音-面部表情的成对数据,模型对不同说话人、不同语种、不同表现形式(如歌声)等域外音频难以生成准确的面部表情。 

2. “平均脸”问题:由于相同的语音可能有多种合理的面部动作,使用确定性的回归模型来学习这样一个语音到动作的映射可能导致过于平滑的面部动作和较低的表情表现力 [2]。 

在今年的人工智能顶级会议 ICLR 2023 上,浙江大学与字节跳动提出了全新的说话人视频合成模型 GeneFace,该算法旨在解决上述的对域外音频的弱泛化能力和“平均脸”问题,实现了高可泛化、高保真度的语音驱动的说话人视频合成。

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

论文标题:

GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis

论文链接:

https://arxiv.org/abs/2301.13430

代码链接:

https://github.com/yerfor/GeneFace

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

研究背景

目前基于 NeRF 的说话人视频合成方法 [3] 的主要思路是训练一个基于音频输入的条件神经辐射场(Conditional NeRF):

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

其中输入空间的 分别是语音表征、观察方向、3D位置。输出空间的 则分别代表对应位置的颜色和体密度。根据体积渲染(Volume Rendering)公式,可以在辐射场中任意位置、任意视角观察,渲染得到对应的图像:

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

其中 是从观察位置到被观察位置射出的射线的累积不透明度,可以表示为:

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

在得到渲染的人脸图像后,对渲染图像与真实图像计算误差,即可对进行模型训练:

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

整体方案思路

尽管现有的基于 NeRF 的说话人视频合成方法 [3] 实现了视频的高保真度,但如上所述,由于其使用均方误差损失端到端地训练语音到说话人图像的映射,导致模型对域外驱动音频的弱泛化能力和“平均脸”问题。 

为了解决上述问题,GeneFace 采用 3D 人脸关键点作为中间变量,提出了一个三阶段的框架。

第一阶段是“语音转动作”,我们在大规模唇语识别数据集上学习语音到动作的映射,这使得我们的模型能够享受大数据集带来的高泛化能力。注意为了解决平均脸问题,我们设计了一个变分动作生成器(Variational Motion Generator)来学习这个语音到动作的映射,该模型可以根据输入的语音生成精确的、具有丰富细节和表现力的面部动作。

第二个阶段是“动作域迁移”,我们提出了一种基于对抗训练的域适应方法,以训练一个人脸动作的后处理网络(Domain Adaptative Post-net),从而弥合大规模唇语识别数据集与目标人视频之间的域差距(Domain Gap)。

第三个阶段是“基于动作渲染视频”,我们设计了一个基于 NeRF 的渲染器(3DMM NeRF Renderer),它以预测的 3D 人脸关键点为条件来渲染高保真的说话人视频。GeneFace 的三阶段推理流程如下图所示:

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

2.1 语音转动作

GeneFace 的第一阶段任务是根据输入的音频,得到对应的人脸表情。我们利用 HuBERT 模型从原始音频中提取语音表征,使用 3D 人脸关键点表示人脸表情。我们利用一个大型的唇语识别数据集中的语音-动作数据对,训练了一个准确、鲁棒的语音到动作映射。 

为了避免简单的确定性模型导致的“平均脸”问题,我们提出了变分动作生成器(Varaitional Motion Generator)结构。该模型结合了变分自编码器(VAE;Variaitonal Auto-Encoder)和流模型(Flow-based Models)的优点,能根据输入语音生成准确且富有表现力的人脸动作。其训练流程图如下所示:

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

2.2 动作域适应

由于目标人视频的数据量(约 3-5 分钟)与大规模唇读数据集(约数百小时)相比差距过大,实验结果表明,目标人的人脸表情与大规模数据集中的人脸表情存在巨大的域差异,可能导致最终渲染的图像出现模糊或不真实的情况。要解决这一问题,一种常见的方法是直接在目标人数据集上微调(fine-tune)整个语音转动作模型。但这个做法可能会导致灾难性遗忘,使模型失去在大数据集上学习到的泛化能力。

在这种情况下,我们设计了一个半监督的对抗训练流程来进行动作域适应。具体来说,我们训练了一个动作后处理网络(post-net)将语音转动作模块所预测的 3D 人脸表情迁移到目标人脸的个性化领域。该后处理网络的训练流程图如下所示:

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

具体来说,动作后处理网络的训练损失函数由三项构成:

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

其中前两项是在大规模数据集样本上的 LSGAN [4] 对抗损失,第三项是在目标人数据集样本上经过后处理的预测动作与真实动作的误差损失。

2.3 基于动作渲染视频

为了给予前两个模块预测的 3D 人脸特征点渲染对应的视频,我们提出了一个以 3D 人脸特征点作为输入条件的 NeRF 模型。具体来说,除了观察方向和 3D 位置之外,3D 人脸特征点也将作为 NeRF 的输入空间,以预测对应位置的颜色和体密度。这一模型可以描述为如下的一个映射:

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

其中 表示 3D 人脸特征点。该模型的训练方式与上文介绍的 NeRF 模型训练方法一致。

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

实验结果

实验表明,GeneFace 相比基准方法实现了更好的图像质量(更低的 FID)、更好的嘴唇对齐程度(更低的 LMD 和更高的 Sync 指标)。尤其是在受域外(OOD;Out-of-Domain)语音驱动时,GeneFace 的优势更加明显。

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

为了更好地展示 GeneFace 相比现有的基于 NeRF 的说话人合成方法的优势,我们还提供了一个实例视频:

在视频中我们可以发现:1)基准算法对于一些特殊音节无法生成准确唇形,而 GeneFace 可以做到;2)基准算法对于语速较快的音频倾向于半张着嘴、唇形运动过于平缓,而 GeneFace 即使在语速较快时也能生成准确且富有表现力的表情。

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

参考文献

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

[1] Ben M, Pratul S, Matthew T, Jonathan B, Ravi R, Ren N. NeRF: Representing scenes as neural radiance fields for view synthesis. In Proc. ECCV 2020.

[2] Ren Y, Liu J, Zhao Z. Portaspeech: Portable and high-quality generative text-to-speech. In Proc. NeurIPS 2021.

[3] Yudong G, Keyu C, Sen L, Yong-Jin L, Hujun B, Juyong Z. AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis. In Proc. ICCV 2021.

[4] Xudong M, Qing L, Haoran X, Raymond Y.K. L, Zhen W, Stephen Paul S. Least Squares Generative Adversarial Networks. ICCV 2017.

更多阅读

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成文章来源地址https://www.toymoban.com/news/detail-665514.html

到了这里,关于ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Axure高保真原型】日期时间选择器

    今天和大家分享日期时间下拉列表选择器的原型模板,该模板用中继器结合时间函数制作,所以可以获取真实的日历效果,具体包括哪一年二月份有29天,几号对应星期几,都是真实的。这个原型用Axure原生元件组成,所以样式以及后续的交互都可以根据需要修改 【原型预览

    2024年02月12日
    浏览(52)
  • 【计算机视觉|生成对抗】用于高保真自然图像合成的大规模GAN训练用于高保真自然图像合成的大规模GAN训练(BigGAN)

    本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处 标题: Large Scale GAN Training for High Fidelity Natural Image Synthesis 链接:[1809.11096] Large Scale GAN Training for High Fidelity Natural Image Synthesis (arxiv.org) 尽管在生成图像建模方面取得了近期的进展,但成功地从诸如ImageNet之类的复

    2024年02月11日
    浏览(39)
  • 【Axure高保真原型】卡片_拖动摆放换位效果

    今天和大家分享卡片_拖动摆放换位效果的原型模板,可以通过鼠标拖动任意卡片,对应卡片可以跟随鼠标移动,其他卡片会自动让出位置,松开鼠标后全部卡片自动对齐摆放。那这个原型模板是用中继器制作的,所以使用也很简单,只需要维护中继器表格的内容即可,具体效

    2024年01月24日
    浏览(39)
  • 【计算机视觉|生成对抗】用于高保真自然图像合成的大规模GAN训练(BigGAN)用于高保真自然图像合成的大规模GAN训练(BigGAN)

    本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处 标题: Large Scale GAN Training for High Fidelity Natural Image Synthesis 链接:[1809.11096] Large Scale GAN Training for High Fidelity Natural Image Synthesis (arxiv.org) 尽管在生成图像建模方面取得了近期的进展,但成功地从诸如ImageNet之类的复

    2024年02月11日
    浏览(30)
  • 【Axure高保真原型】中继器网格图片拖动摆放

    今天和大家分享中继器网格图片拖动摆放的原型模板,我们可以通过鼠标拖动来移动图片,拖动过程其他图标会根据图片拖动自动排列,松开鼠标是图片停放在指定位置,其他图标自动排列。那这个模板是用中继器制作的,所以使用也很方便,我们只需维护中继器表格的信息

    2024年02月10日
    浏览(40)
  • 【Axure高保真原型】移入放大对应区域的饼图

    今天和大家分享移入放大对应扇形区域的饼图的原型模板,鼠标移入时,对应扇形区域的会放大,并且的项目和数据弹窗,弹窗可以跟随鼠标移动。这个原型是用Axure原生元件制作的,所以不需要联网或者调用外部图表……具体效果可以打开下方原型地址体验或者点击下方视

    2024年01月18日
    浏览(37)
  • 【Axure高保真原型】中继器表格合并单元格

    今天和大家分享合并单元格的原型模板,包括两种模式的合并方式,转置和从下往上合并,两种方式都可以实现合并的效果,都是用中继器制作的,维护时只需要修改中继器表格即可生成对应效果,如果需要增加列(转置表格对应的是行),也可以参考原型,自行增加元件和

    2024年02月09日
    浏览(32)
  • 【Axure高保真原型】3D圆柱图_中继器版

    今天和大家分享3D圆柱图_中继器版的原型模板,图表在中继器表格里填写具体的数据,调整坐标系后,就可以根据表格数据自动生成对应高度的圆柱图,鼠标移入时,可以查看对应圆柱体的数据……具体效果可以打开下方原型地址体验或者点击下方视频观看 【原型效果】 【

    2024年02月03日
    浏览(47)
  • 【Axure高保真原型】JS版日期区间下拉选择器

    今天和大家分享JS版日期区间下拉选择器的原型模板,该模板通过调用浏览器的下拉列表,所以可以获取真实的日历效果,具体包括哪一年二月份有29天,几号对应星期几,都是真实的。建议使用谷歌浏览器来演示,其他浏览器效果可能有差别或者失效。具体效果可以点击下方

    2024年02月13日
    浏览(48)
  • 国内几款常用热门音频功放芯片-低功耗、高保真

    音频功放芯片,又称为音频功率放大器芯片,是指一种将音频信号转换成线性的输出功率的集成电路芯片,在音频功放领域中一类是传统意义上的模拟功放;另一类是数字功放,它们都可以实现模拟信号到数字信号的转换。 随着智能手机、汽车音频、AI智能音箱,智能家居、

    2024年02月13日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包