【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models

这篇具有很好参考价值的文章主要介绍了【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

DreamTalk:当表情丰富的说话人头生成遇到扩散概率模型

paper:[2312.09767] DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models (arxiv.org)

code:GitHub - ali-vilab/dreamtalk: Official implementations for paper: DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

目录

1 介绍

2 背景

3 方法

4 实验

5 结论


1 介绍

DreamTalk由三个关键部分组成:一个去噪网络、一个风格感知唇形专家和一个风格预测器。

  • 基于扩散的去噪网络,能够在不同的表情中一致地合成高质量的音频驱动的面部运动。为了提高嘴唇动作的表现力和准确性。
  • 风格感知嘴唇专家,可以指导口型同步,同时注意说话风格。
  • 为了消除对表情参考视频或文本的需求,使用了一个额外的基于扩散的风格预测器,来直接从音频中预测目标表情。

 【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

图1:利用扩散模型,DreamTalk能够在不同的说话风格中产生高度表达的谈话头。DreamTalk能够直接从输入音频中获得个性化的说话风格,避免了额外的风格参考的需要。

2 背景

音频驱动的说话头生成。音频驱动方法主要分为两类:特定人和非特定人。针对个人的方法[18,29,41,68,82]仅限于为训练中看到的说话人生成视频。首先制作3D面部动画,然后转换为逼真的视频。与人无关的方法[10,55,77,84]旨在为未见过的说话者生成视频。

富有表现力的说话头生成。早期方法[13,20,24,29,61,69,82,90]对离散情感类的表达式进行建模。为了对更细粒度的表达式进行建模,最近的大多数方法[30,37,46]利用表达式参考视频,并将该视频中的表达式迁移到生成的表达式中。然而基于gan的模型存在模式崩溃的问题,导致视频的口型同步和风格表现力较差。

指定所需的风格。之前的大多数方法都是通过参考视频[30,37,46]或文本[20,45,90]来指定说话风格,需要人工参与。本文旨在利用输入的音频和肖像来推断个性化和情感表达。

扩散模型。以往的研究[3,47,58,66]采用扩散模型生成说话人,只生成中性情绪的说话人,效果不理想。一些方法设计了基于扩散的渲染器[17,91]或面部运动先验[96],但仍然使用GAN或回归模型对音频-运动映射进行建模。本文用扩散模型来生成富有表现力的说话头。

3 方法

3.1 问题公式化

给定肖像I、演讲 A 和风格参考视频 R,旨在生成一个说话的头部视频,嘴唇动作与演讲和参考视频中反映的说话风格同步。音频【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读参数化为声学特征。R是视频帧序列。

3.2. DreamTalk

DreamTalk由3个关键组件组成:去噪网络,风格感知唇形专家和风格预测器。

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

图2. DreamTalk的示意图。训练了一个风格感知的唇部专家(b),它在给定说话风格下评估唇音同步概率,用于为去噪网络(a)提供唇部运动引导。然后,训练了一个去噪网络,它以音频、风格参考视频和嘈杂的面部运动作为输入,并预测无噪声的面部运动。接下来,训练了一个风格预测器(c),它根据视频中提取的风格编码以及音频和说话者作为输入来预测风格。在推理过程(d)中,可以使用从视频中提取的风格编码或从音频中派生的风格编码来指定说话风格。

去噪网络。

去噪网络根据语音和风格参考视频计算人脸运动。人脸运动【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读被参数化为来自3D可变形模型[4.A morphable model for the synthesis of 3d faces.]的表情参数序列。

人脸运动由渲染器[52.Pirenderer: Controllable portrait image generation via semantic neural rendering]渲染成视频帧。

风格感知唇形专家提供不同表情下的唇动指导,使去噪网络在保证风格表现力的同时,实现准确的唇形同步。风格预测器可以预测与音频风格一致的说话风格。

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

该去噪网络以滑动窗口的方式逐帧合成人脸运动序列。它使用音频窗口预测运动帧【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读,其中w表示窗口大小。

去噪网络Eθ根据噪声运动、扩散时间步、语音上下文和风格参考来预测m(0):

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

星号(∗)表示产生的数量。

音频窗口Aw首先输入到基于transformer的音频编码器中,并将输出与信道维度的噪声运动m(t)级联。线性投影到相同维度后,将拼接结果和时间步长t求和,作为transformer解码器的键和值。为了从风格参考中提取说话风格,风格编码器从R中提取3DMM表情参数序列,输入transformer编码器。使用自注意力池化层聚合输出标记,以获得风格代码s。风格代码重复2w + 1次,并添加位置编码。结果作为transformer解码器的查询。解码器的中间输出令牌被馈送到前馈网络以预测信号m(0)。

有风格意识的唇语专家。仅使用标准扩散模型中的去噪损失会导致不准确的唇动。补救方法是由预训练的唇部专家[49]提供唇动指导。然而,唇部专家只关注一般的说话风格,这导致生成统一风格的面部运动。本文提出一名风格感知的唇形专家,经过训练,可以在不同的说话风格下提供唇动指导,更好地在风格表现力和口型同步之间取得平衡。

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

嘴唇专家E根据风格参考R计算音频和嘴唇运动同步的概率:

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

n表示片段长度。

将唇动和音频编码为以风格参考为条件的嵌入,然后计算余弦相似度,表示同步概率。为了从人脸运动m中获取唇动信息,首先将m转换为人脸网格,并选择嘴巴区域的顶点作为唇动[46.Styletalk: One-shot talking head generation with controllable speaking styles]表示。嘴唇运动和音频编码器分别主要由MLPs和1d卷积实现。首先使用风格编码器从风格参考中提取风格特征,然后将风格特征与嵌入编码器的中间特征图连接起来,从而将风格条件融合到嵌入网络中。lip expert中的风格编码器和生成器不共享参数。

风格的预测。风格预测器Sϕ,预测 由去噪网络中的风格编码器提取的 风格代码s。观察说话人身份和风格代码之间的相关性(第4.4节),风格预测器还将肖像作为输入进行集成。风格预测器被实例化为扩散模型,并预测风格代码:

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

其中s(t)是在扩散步骤t采样的风格代码。

风格预测器Sϕ是序列上的transformer编码器,序列按顺序由:音频嵌入、扩散时间步的嵌入、说话人信息嵌入、噪声风格代码嵌入和称为学习查询的最终嵌入,其输出用于预测无噪声风格代码。音频嵌入是使用自监督预训练语音模型提取的音频特征。

为获得说话人信息嵌入,首先提取3DMM身份参数,其中包括人脸形状信息,但从肖像中删除了表情等无关信息,然后使用MLP将其嵌入到token中。

3.3 训练

首先,通过确定随机采样的音频和唇动剪辑是否像[49]中那样同步,对风格感知的唇动专家进行预训练,然后在训练去噪网络期间进行冻结。

去噪网络Eθ的训练方法是:从数据集中采样随机元组(m(0), t , Aw, R),通过添加高斯噪声,将m(0)损坏为m(t),对m(t)执行去噪步骤,并优化损失:

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

从同一时刻的训练视频中,提取ground-truth运动m(0),和语音音频窗口Aw。t 来自均匀分布U{1, t}。样式引用R是从包含m(0)的同一个视频中随机抽取的视频片段。

首先计算DDPM定义的扩散模型的去噪损失:

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

然后,去噪网络通过对生成片段的同步损失来最大化同步概率:

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

使用无分类器指导的[25.Classifier-free diffusion guidance]进行模型训练。

具体来说,Eθ在训练过程中通过随机设置R =∅10%的概率来学习样式-条件分布和无条件分布。∅被实现为脸部运动序列[mi],所有值都为0。对于推断,预测信号计算为:

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

通过调节比例因子ω来控制风格参考R的效果。

训练风格预测器时,抽取一个随机视频,然后从中提取音频a,和风格代码s(0)(使用经过训练的风格编码器)。由于3DMM身份参数可能会泄露表情信息,因此从具有相同说话人身份的另一个视频中采样肖像I。

风格预测器ϕ通过优化损失来训练:

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

用PIRenderer[52]作为渲染器,并对其进行细致的微调,使渲染器具有情感表达生成能力。

推理。可以使用参考视频,或仅通过输入音频和肖像,来指定说话风格。在参考视频的情况下,使用去噪网络中的风格编码器导出风格代码。当仅依赖输入的音频和人像时,这些输入由风格预测器处理,采用去噪过程来获得风格代码。

有了风格代码,去噪网络利用DDPM的采样算法产生人脸运动。

它首先对随机运动m∗(T) ~ N (0, I)进行采样,然后计算去噪序列{m∗(T)}, T = T−1,…,通过增量移除m (t)中的噪声为0。最后,运动m∗(0)是生成的人脸运动。利用DDIM可以加速采样过程。然后,渲染器PIRenderer将输出的人脸运动渲染为视频。

4 实验

在MEAD[82]、HDTF[101]和Voxceleb2[11]上训练和评估去噪网络。在MEAD上训练风格预测器,并在MEAD和RAVEDESS上对其进行评估[40]。

基线。我们将我们的方法与之前的方法进行了比较,包括:MakeitTalk[105]、Wav2Lip[49]、PCAVS[104]、AVCT[84]、GC-AVT[37]、EAMM[30]、StyleTalk[46]、DiffTalk[58]、SadTalker[100]、PDFGC[78]和EAT[20]。对于DiffTalk,由于发布的模型是不完整的,在提交之前无法产生合理的结果,我们使用其发布的演示视频进行定性比较。对于其他方法,我们使用发布的模型或在作者的帮助下生成样本。

指标。我们使用了广泛使用的指标:SSIM[88]、模糊检测累积概率(CPBD)[48]、SyncNet置信度评分(Syncconf)[9]、嘴巴周围的地标距离(M-LMD)[6]、全脸的地标距离(F-LMD)。

定量比较。

【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models,论文阅读

表1。MEAD、HDTF和Voxceleb2的定量比较。由于我们只接收MEAD和HDTF上的GC-AVT样品,因此不评估Voxceleb2上的GC-AVT。 

5 结论

提出了DreamTalk,一种利用扩散模型生成富有表现力的说话头的新方法。最大限度地减少对额外风格参考的依赖。开发了一个去噪网络,用于创建音频驱动的面部动作,并引入了一个风格感知嘴唇专家,以优化口型同步,同时不影响风格表达。此外,设计了一个风格预测器,可以直接从音频中推断说话风格,从而消除了对视频参考的需要。文章来源地址https://www.toymoban.com/news/detail-793882.html

到了这里,关于【论文阅读】DreamTalk: When Expressive Talking Head GenerationMeets Diffusion Probabilistic Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis 笔记

    Talking head synthesis is an emerging technology with wide applications in film dubbing, virtual avatars and online education. Recent NeRF-based methods generate more natural talking videos, as they better capture the 3D structural information of faces. However, a specific model needs to be trained for each identity with a large dataset. In this paper, we pr

    2024年02月20日
    浏览(40)
  • 【论文笔记】GeneFace: Generalized and High-FidelityAudio-Driven 3D Talking Face Synthesis

    这项工作泛化能力弱,存在的两个挑战: (1)训练数据规模小。 (2)容易产生“平均脸”。音频到其对应的面部运动是一对多映射,这意味着相同的音频输入可能具有多个正确的运动模式。使用基于回归的模型学习此类映射会导致过度平滑和模糊结果 (1)为了处理弱泛化

    2024年02月04日
    浏览(45)
  • 【论文精读】 SadTalker:Stylized Audio-Driven Single Image Talking Face Animation(CVPR2023)

    论文: 《SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation》 github: https://github.com/Winfredy/SadTalker 通过人脸图像和一段语音音频生成TalkingHead Generation仍然包含许多挑战: 不自然的头部运动 、 扭曲的表情和身份变化 。 作者认为这些问题

    2024年02月02日
    浏览(42)
  • 多标签分类论文笔记 | ML-Decoder: Scalable and Versatile Classification Head

    个人论文精读笔记,主要是翻译+心得,欢迎旁观,如果有兴趣可以在评论区留言,我们一起探讨。 Paper: https://arxiv.org/pdf/2111.12933.pdf Code: https://github.com/Alibaba-MIIL/ML_Decoder 翻译 本文介绍了一种新的基于注意力的分类头——ML-Decoder。ML-Decoder通过查询预测类标签的存在,与全局

    2024年02月05日
    浏览(43)
  • 论文阅读:Vary论文阅读笔记

    论文:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models Paper | Github | Demo 许久不精读论文了,内心一直想找个专门的时间来细细品读自己感兴趣的论文。现在想来,无异于是自己骗自己了,因为根本就不存在那个专门的时间。所以改变最好的时候就是现在。 因为自己一

    2024年01月19日
    浏览(46)
  • DreamTalk:单张图像即可生成逼真人物说话头像动画,助力AI数字人落地

    “ DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models ” DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语言语音、噪声音频和域外肖像。

    2024年04月15日
    浏览(47)
  • 【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

    2023/04/09:很久没有动笔写东西了,这两周就要被抓着汇报了,痛苦啊呜呜呜呜呜 (CVPR 2023): Temporal Interpolation Is All You Need for Dynamic Neural Radiance Fields (ICCV 2021):Video Autoencoder: self-supervised disentanglement of static 3D structure and motion (CVPR 2023):DINER: Disorder-Invariant Implicit Neural Representat

    2024年02月12日
    浏览(40)
  • 论文阅读:Vary-toy论文阅读笔记

    论文:Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧,之前在写论文阅读:Vary论文阅读笔记文章时,正好看到了Vary-toy刚刚发布。 这次,咱也是站在了时代的前沿,这不赶紧先睹为快。让我看看相比于Vary,Vary-toy做了哪些改进? 从整体结构来看,仍

    2024年01月25日
    浏览(60)
  • 论文阅读:TinyGPT-V 论文阅读及源码梳理对应

    引言 TinyGPT-V来自论文:TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones,是一篇基于较小LLM作为backbone的多模态工作。相关工作已经开源,地址为:Github 之所以选择这篇文章,是因为比较具有落地意义,且便于本地运行,查看和调试。 以下代码只给出核心部分,会省

    2024年01月16日
    浏览(64)
  • 论文阅读1---OpenCalib论文阅读之factory calibration模块

    该论文的标定间比较高端,一旦四轮定位后,可确定标定板与车辆姿态。以下为本人理解,仅供参考。 工厂标定,可理解为车辆相关的标定,不涉及传感器间标定 该标定工具不依赖opencv;产线长度一般2.5米 Factory Calibration Tools:四轮定位+多位姿标定板 1)根据传感器安装位姿

    2024年01月25日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包