SadTalker(CVPR2023)-音频驱动视频生成

这篇具有很好参考价值的文章主要介绍了SadTalker(CVPR2023)-音频驱动视频生成。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


论文: 《SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation》
github: https://github.com/Winfredy/SadTalker
演示效果: https://www.bilibili.com/video/BV1fX4y1675W

摘要

利用一张面部图片及一段音频让其变为一段讲话的视频仍然存在许多挑战:头部运动不自然、表情混乱、人物外表发生变化。作者认为这主要是由于耦合2D运动场导致,但是使用3D信息有的方法也会出现表达混乱、视频不连贯问题。
因此作者提出SadTalker,生成3DMM的三维(头部姿势、表情)系数,利用三维面部渲染器进行视频生成。为了学习逼真的运动场系数,作者建模音频与不同类别运动场系数之间联系。作者提出ExpNet,蒸馏运动场系数与三维渲染人脸学习准确面部表情对于头部姿势,作者设计PoseVAE生成不同风格头部动画。最终生成的三维运动场系数映射至面部渲染器的三维关键点空间进行生成视频。

算法

如图2,作者使用3D运动系数作为中间结果用于头部讲话视频生成。首先从原始图片提取相关系数,利用ExpNet及PoseVAE分别生成3DMM运动系数,最后利用三维面部渲染器生成视频。
SadTalker(CVPR2023)-音频驱动视频生成

3.1. Preliminary of 3D Face Model 3D

在3DMM中,三维面部shape S可解耦为式1,
SadTalker(CVPR2023)-音频驱动视频生成
其中 S ‾ \overline S S表示3D人脸平均shape, U i d U_{id} Uid表示形状正交基, U e x p U_{exp} Uexp表示表达正交基,α、β为相关系数。为保留姿态变化,系数r、t分别表示头部旋转及变换;为了使得参数与人体解耦,作者利用音频仅建模参数 β , r , t {β, r, t} β,r,t,其中头部姿势参数 ρ = [ r , t ] ρ = [r, t] ρ=[r,t],这些参数用于调制面部渲染器生成最终视频。

3.2. Motion Coefficients Generation through Audio

**头部姿势是全局姿态而表情是局部相关,因此一起学习将导致巨大不确定,音频与头部姿态弱相关而与嘴唇变换强相关,**因此作者使用PoseVAE生成头部姿态相关系数,ExpNet生成表情相关系数。

ExpNet

通过音频生成准确表情相关参数有两个难点:
1、不同人体音频到表情有不同表现;
2、表情中有些与音频无关动作,这影响预测准确性;

ExpNet用于降低这些不确定性,对于个人特性问题,通过第一帧表情系数 β 0 β_0 β0建立表情与特定人体关联;为了减少其他面部表情权重,作者使用Wav2Lip生成的嘴唇运动系数作为target,其他微表情通过额外关键点损失约束。
SadTalker(CVPR2023)-音频驱动视频生成
如图3,对于一段音频,生成t帧表情系数,每一帧音频为0.2s梅尔频谱。训练时基于ResNet的音频编码器 Φ A Φ_A ΦA将其映射到隐空间,线性层作为映射网络 Φ M Φ_M ΦM解码表情系数,其引入参考表情 β 0 β_0 β0用于减少个人特征不确定性,训练时仅使用唇部作为真值,因此作者引入眨眼控制信号 Z b l i n k Z_{blink} Zblink及对应眼部关键点损失用于控制生成眨眼,如式2,
SadTalker(CVPR2023)-音频驱动视频生成
对于损失函数,首先使用 L d i s t i l l L_{distill} Ldistill评估唇部表情系数 R e ( W a v 2 L i p ( I 0 , a { 1 , . . . , t } ) ) R_e(Wav2Lip(I_0, a_{\{1,...,t\}})) Re(Wav2Lip(I0,a{1,...,t}))与生成的 β { 1 , . . . , t } β_{\{1,...,t\}} β{1,...,t}之间差异,Wav2Lip使用第一帧生成唇部同步视频,这降低了姿态变量及唇部以外面部表情影响,除此之外,作者使用可微的3D面部渲染器 R d R_d Rd计算额外的感知损失,如图3,计算关键点损失 L l k s L_{lks} Llks用于衡量眨眼范围及整个表情准确率,实时唇部读取损失 L r e a d L_{read} Lread使用预训练的唇部读取网络 Φ r e a d e r Φ_{reader} Φreader,用于保证唇部质量。

PoseVAE

如图4,一个基于VAE的模型PoseVAE用于学习逼真的有个人风格的头部运动 ρ ∈ R 6 ρ ∈ R^6 ρR6,PoseVAE基于n帧训练,编码器与解码器输入包括t帧头部姿势,embed为高斯分布,解码器网络根据采样到的分布学习生成t帧姿态。作者没有直接生成姿势,而是学习与第一帧姿势 ρ 0 ρ_0 ρ0之间残差,这使得本方法在测试阶段基于首帧可以生成更长、更稳定、更连续头部运动。依据CVAE,增加对应音频特征 a { 1 , . . . , t } a_{\{1,...,t\} } a{1,...,t}及风格 Z s t y l e Z_{style} Zstyle作为条件,使得模型关注节奏及个人风格。 L k l L_{kl} Lkl用于衡量生成运动的分布, L m s e L_{mse} Lmse L G A N L_{GAN} LGAN用于确保生成质量。
SadTalker(CVPR2023)-音频驱动视频生成

3.3. 3D-aware Face Render

face-vid2vid需要真实视频作为驱动信号,本文提出的面部渲染器利用3DMM参数进行驱动,如图5,作者利用映射网络学习3DMM运动系数与无监督3D关键点之间关系。
SadTalker(CVPR2023)-音频驱动视频生成
训练过程分两步:第一步自监督训练face-vid2vid;第二步frozen外观编码器、关键点估计、图像生成模块参数进行finetuning,而后通过重构的方式训练映射网络,在关键点空间使用 L 1 l o s s L_1 loss L1loss约束。

实验

SOTA实验

如表1,本文提出方法与其他方法相比具有更高视频质量以及头部姿势多样性。
SadTalker(CVPR2023)-音频驱动视频生成
图6作者展示可视化结果,作者提出方法与原始视频视觉上非常相似,同时正如所期望的具有不用的头部姿势。Wav2Lip产生模糊半脸,PC-AVS和Audio2Head没能保留个体特性,MakeItTalk和Audio2Head由于使用二维warp,因此生成扭曲的面部视频。
SadTalker(CVPR2023)-音频驱动视频生成
作者生成20段不同年龄、姿势、表情视频,20个用户选择质量最佳视频,结果如表2,38%用户认为本文所提方法在唇部同步方面效果最佳;
SadTalker(CVPR2023)-音频驱动视频生成

消融实验

ExpNet

SadTalker(CVPR2023)-音频驱动视频生成
如表3、图7表明学习所有运动系数难以生成逼真视频,初始表情 β 0 β_0 β0,唇部读取损失 L r e a d L_{read} Lread,仅使用唇部系数非常重要,如图8所示;
SadTalker(CVPR2023)-音频驱动视频生成
SadTalker(CVPR2023)-音频驱动视频生成

PoseVAE

如表4,基线Speech2Gesture效果比较差。
SadTalker(CVPR2023)-音频驱动视频生成

Face Render

如图9,第一行作者提出面部渲染器展示更好的表情重建质量,第二行使用面部对齐系数将生成不逼真头部对齐视频。
SadTalker(CVPR2023)-音频驱动视频生成

限制

3DMM无法建模眼睛及牙齿,映射网络难以合成逼真牙齿,这可以通过面部重构网络改进,如图10;
同时作者仅关注嘴唇及眼睛部分表情,对于情感及视线方向不关心,从而降低逼真度.
SadTalker(CVPR2023)-音频驱动视频生成

结论

作者利用3DMM运动系数作为中间表征,学习其与视频之间关系。利用ExpNet、PoseVAE学习逼真表情及多样头部姿势,3D面部渲染器用于建模3DMM系数与真实视频之间关系。本文所提方法也可用于其他方向:个性化二维视觉配音,二维卡通动画、三维面部动画、基于NeRF的四维讲话头部生成。文章来源地址https://www.toymoban.com/news/detail-417458.html

到了这里,关于SadTalker(CVPR2023)-音频驱动视频生成的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • TPS Motion(CVPR2022)视频生成论文解读

    论文: 《Thin-Plate Spline Motion Model for Image Animation》 github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model 问题: 尽管当前有些工作使用无监督方法进可行任意目标姿态迁移,但是当源图与目标图差异大时,对当前无监督方案来说仍然具有挑战。 方法: 本文提出无监督TPS Motio

    2023年04月11日
    浏览(41)
  • 字节跳动CVPR 2023论文精选来啦(内含一批图像生成新研究)

    计算机视觉领域三大顶会之一的 CVPR 今年已经开奖啦。 今年的 CVPR 将于六月在加拿大温哥华举办,和往年一样,字节跳动技术团队的同学们收获了不少中选论文,覆盖文本生成图像、语义分割、目标检测、自监督学习等多个领域,其中不少成果在所属领域达到了 SOTA(当前最

    2023年04月09日
    浏览(26)
  • CVPR 2023 | 用户可控的条件图像到视频生成方法(基于Diffusion)

    注1:本文系“计算机视觉/三维重建论文速递”系列之一,致力于简洁清晰完整地介绍、解读计算机视觉,特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。 本次介绍的论文是: CVPR 2023 | 用户可控的条件图

    2024年02月13日
    浏览(30)
  • 论文阅读: (CVPR2023 SDT )基于书写者风格和字符风格解耦的手写文字生成及源码对应

    引言 许久不认真看论文了,这不赶紧捡起来。这也是自己看的第一篇用到Transformer结构的CV论文。 之所以选择这篇文章来看,是考虑到之前做过手写字体生成的项目。这个工作可以用来合成一些手写体数据集,用来辅助手写体识别模型的训练。 本篇文章将从论文与代码一一对

    2024年02月12日
    浏览(47)
  • 【论文合集】CVPR2023年 部分论文

    参考: CVPR 2023 最全整理:论文分方向汇总 / 代码 / 解读 / 直播 / 项目(更新中)【计算机视觉】-极市开发者社区 (cvmart.net) amusi/CVPR2023-Papers-with-Code: CVPR 2023 论文和开源项目合集 (github.com)   [7]Fine-Grained Face Swapping via Regional GAN Inversion paper [6]Cross-GAN Auditing: Unsupervised Identifica

    2024年02月12日
    浏览(36)
  • CVPR2023(论文笔记)

    基于抽象的鲁棒图像分类模型高效训练与验证方法: 针对问题: 深度神经网络在面对对抗性攻击时的鲁棒性问题 提出了一种基于抽象的、经过认证的训练方法,用于提高深度神经网络对抗性攻击的鲁棒性;提出黑盒验证方法,该方法与神经网络的大小和架构无关,可扩展到

    2024年02月09日
    浏览(45)
  • 【CVPR 2023】FasterNet论文详解

    论文名称:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks 论文地址:https://arxiv.org/abs/2303.03667 作者发现由于效率低下的每秒浮点运算,每秒浮点运算的减少并不一定会导致类似水平的延迟减少。提出通过同时减少冗余计算和内存访问有效地提取空间特征。然后基于PConv进

    2023年04月14日
    浏览(33)
  • CVPR2023对抗攻击相关论文

    Feature Separation and Recalibration for Adversarial Robustness 论文链接:http://arxiv.org/abs/2303.13846v1 代码地址:GitHub - wkim97/FSR: Feature Separation and Recalibration (CVPR 2023) 摘要:由于特征层面的扰动积累,深度神经网络容易受到对抗性攻击,许多研究通过停用导致模型错误预测的非鲁棒特征激活

    2024年02月09日
    浏览(29)
  • CVPR 2023 论文和开源项目合集

    向AI转型的程序员都关注了这个号👇👇👇 Backbone CLIP MAE GAN GNN MLP NAS OCR NeRF DETR Diffusion Models(扩散模型) Avatars ReID(重识别) 长尾分布(Long-Tail) Vision Transformer 视觉和语言(Vision-Language) 自监督学习(Self-supervised Learning) 数据增强(Data Augmentation) 目标检测(Object Detection) 目标跟踪(Visual

    2024年02月07日
    浏览(23)
  • CVPR视频理解论文

    视频理解、图像/视频字幕(Image/Video Caption) 时空Transformer+CLIP的对比学习思路 自监督学习,训练Masked AutoEncoder,为视频人脸生成通用的面部编码 In this paper, our goal is to learn universal and taskagnostic representations in a self-supervised manner for face-related downstream tasks

    2024年02月08日
    浏览(23)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包