【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品

这篇具有很好参考价值的文章主要介绍了【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、概览

论文:FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio,https://arxiv.org/abs/2403.01901

        本文提出了一个新的说话人脸生成任务,即直接从音频中想象出符合音频特征的多样化动态说话人脸,而常规的该任务需要给定一张参考人脸。具体来说,该任务涉及到两个核心的挑战,首先如何从音频中解耦出说话人的身份(性别、年龄等语义信息以及脸型等结构信息)、说话内容以及说话人传递的情绪,其次是如何根据这些信息生成多样化的符合条件的视频,同时保持视频内的一致性。为了解决上述问题,我们首先挖掘了三个人脸相关要素之间的联系,设计了一个渐进式音频解耦模块,以此降低解耦难度,并且提高了各个解耦因子的准确性。对于第二个挑战,我们基于Latent DIffusion Models (LDMs)提出了一个可控一致帧生成模块,因此继承了LDMs的多样化生成能力,并设计了相应模块将音频中的信息准确的表达在生成的动态人脸上,缓解了LDMs可控性差的局限。充分的定量和定性实验证明了FaceChain-ImagineID可以有效且灵活地实现提出的新任务。

【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,ImagineID,说话人生成

二、动机

当人们没有面对面交流时,当听到对方的声音时,往往会脑补出相应的画面,对方是一个怎么样的人,在说什么话,说话的情绪怎么样,我们将这个现实场景抽象为Listening and Imagining。为了实现这个新的任务,直接使用现有技术有以下两个问题:一个是如何从复杂的音频中解耦出人脸相关的各个因子。我们首先分析了音频和人脸之间的天然联系。明显的下巴和突出的眉脊通常伴随着低沉的声音,而女性和儿童的音调通常更高;说话内容和局部的嘴唇运动有关系;说话情绪和人脸的全局运动有关系。目前的研究要么只关注了说话内容和情绪,要么只关注了身份信息,并没有方法能够准确地从音频中解耦以上三个特征。另一个仅仅用一个网络既能实现视频间的多样化,又能保证视频内的一致性。人的想象力是无穷的,同一段音频我们可以想象出很多符合条件的说话人视频,而视频内又是连贯。其中一个方式是将LDMs和SadTalker等主流说话人生成进行结合,另一个是借助text-to-video框架,但是前者涉及到两个独立的模型,往往不能达到最优的效果,而后者很难实现完全的可控,并且这些方法都没有考虑音频信息。所以,一个新的框架来适配这个任务显得尤为重要。

三、方法

两个模块的主图如下:

【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,ImagineID,说话人生成

1.)渐进式音频解耦模块:

该模块使用3DMM作为先验,并采用渐进式的方式逐步解耦每一个因子。我们设置身份,内容,以及情绪作为解耦顺序,其内部的逻辑在于身份相对独立,内容仅仅和嘴巴运动相关,情绪和全局面部运动相关,遵循了简单到复杂,局部到整体的逻辑。具体的,我们先从身份编码器中编码身份语义,并预测人脸结构相关的形状系数。接下来,我们将身份编码冻结,引入可训练的内容编解码器,其中融合了第一阶段输出的形状系数,预测得到表情无关的仅仅和嘴巴运动相关的系数。最后,将身份和内容编码器冻结,引入新的可训练的情绪编解码器,其中融合了前面两个阶段输出的身份和内容特征,预测完整的表情系数,同时提供解耦的情绪表征。

2.)可控一致帧生成模块:

为了满足多样化的生成,LDMs是一个很好的结构。但是作为交换,它在可控生成方面相对较弱。想要不引入两个离线模块来实现多样且一致的说话人脸生成,我们需要解决两个问题,一个是在不牺牲多样化生成的基础上,即冻结LDMs,怎么保证生成的视频内容和给定的条件对齐,第二个是怎么实现帧间的平滑过度,实现高度的时序平滑。针对第一个问题,我们设计了以下三个模块:

Textual Inversion Adapter:该模块负责将语音中推理得到的身份和情绪语义特征,它的核心是inversion技术,其将输入的语义特征映射到CLIP域的word tokens,两者合并后输入到CLIP文本编码器得到最终的表征,该表证通过cross attention的方式注入到UNet主网络。

Spatial Conditional Adapter:该模块负责将显式的空间条件注入到主网络,它的核心借鉴了T2I-Adapter。首先3D Mesh包含了音频对齐的人脸结构信息,即脸型,嘴唇运动以及表情风格,另外随机采样一张同源的参考图片提供人脸的外观以及背景,上述两个条件对常规方法已经足够了,但是对于冻结的LDMs,很难学习很复杂的运动。因此我们进一步引入了嘴巴区域掩盖的相邻帧来提供运动信息,从而降低了形变的学习难度,掩盖嘴巴的目的是防止网络走捷径。

Masked-guided Blending Adapter:该模块负责保证生成视频的背景一致性,它主要作用在VAE中。具体的,我们将VAE decoder的人脸区域特征和VAE encoder的背景区域特征进行融合,由膨胀的mask作为引导。我们只在512分辨率上进行该操作,此时上线了最优的背景一致以及融合边缘的和谐。

以上阐述了设计的可控一致帧生成模块包含了变化的以及不变的生成能力,我们进一步的将其和自回归长视频生成机制Autoregressive Inference进行结合。如下算法图所示,对于第一帧生成,我们将可控一致帧生成模块为变化的模式,即只接收从音频中推理得到的身份语义和身份结构。对于接下来的帧,我们切换为不变的模式,进一步的将参考人脸、相邻帧以及背景图融入进来,从而实现一致的长视频生成。其中参考人脸固定为第一帧,背景图也是从第一帧中提取的。

【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,ImagineID,说话人生成

四、实验

1.)与SOTA相比

我们和SOTA方法进行定性和定量比较。具体的,首先和最近的audio-to-face方法CMP,如下图所示,我们的结果有更准确的几何结构,包括脸型,嘴唇运动,情绪风格,以及更真实的纹理。

【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,ImagineID,说话人生成

其次和主流的说话人生成方法Wav2Lip,PC-AVS,EAMM,以及SadTalker,我们的方法也表达出了更准确的表情、更好的音画一致性以及更高的视频质量。

【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,ImagineID,说话人生成

对应的定量实验见下表:

【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,ImagineID,说话人生成

2.)分析性实验

如下图所示,为了验证人脸各个元素的解耦性,我们采样了两张人脸,并且将两者对应的说话内容,身份语义以及情绪风格进行交换,可以看到我们的方法可以改变期望改变的因子而保持其他的因子不变

【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,ImagineID,说话人生成

进一步的,我们做了定性实验来证明身份解耦的合理性。我们随机采样了四个音频,其中涵盖不同的性别和年龄,并且根据身份语义检索数据集中最相近的几个视频,如下图所示,检索得到的视频和查询的视频有接近的性别和年龄。为了验证情绪解耦的效果,我们可视化了情绪语义的t-sne图,可以看到不同的情绪之间远离,而同一个情绪聚集在特定区域。

【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,ImagineID,说话人生成

【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品,深度 学习论文与相关应用,人工智能,深度学习,AIGC,facechain,ImagineID,说话人生成文章来源地址https://www.toymoban.com/news/detail-840690.html

到了这里,关于【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【人工智能】FaceChain-FACT:秒变丝滑人像大师,无需任何训练!

    摘要: 近年来,人工智能技术的快速发展为图像生成领域带来了许多突破性的进展。本文介绍了一种名为FaceChain-FACT的人像生成技术,该技术通过免训练的方式实现了丝滑体验和秒级别的人像生成。FaceChain-FACT的独特之处在于它不需要进行繁琐的训练过程,而是利用基于深度

    2024年01月19日
    浏览(77)
  • 【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品

    本文介绍被计算机视觉顶级国际会议 ICCV 2023 接收的论文 \\\"TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective\\\" 论文链接:https://arxiv.org/abs/2308.10133 开源代码:https://anonymous.4open.science/r/ TransFace-294C Vision Transformer (ViT) 已经在计算机视觉社区多项视觉任务上

    2024年03月09日
    浏览(59)
  • 阿里Facechain:3张照片就能生成个人写真,开源版本“妙鸭相机”来了!

    FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独属于自己的个人形象数字替身。FaceChain支持在gradio的界面中使用模型训练和推理能力、支持资深开发者使用python脚本进行训练推理,也支持在sd webui中安装插件使用;Face

    2024年04月29日
    浏览(34)
  • 【FaceChain风格DIY手把手教程】无限场景风格LoRA与固定人物LoRA的融合(4Kstar!)

        以上风格LoRA分别为:户外花园婚纱、冬季雪景汉服、火焰女神、仙侠风 在魔搭平台ModelScope 魔搭社区中选择PAI-DSW-GPU环境 进入后打开terminal环境,先检查显存需要20G左右(nvidia-smi),然后下载核心文件。 以下进入正题 1、新建训练人物的文件夹 imgs,注意放在facechain文件

    2024年02月10日
    浏览(28)
  • CVPR2023(论文笔记)

    基于抽象的鲁棒图像分类模型高效训练与验证方法: 针对问题: 深度神经网络在面对对抗性攻击时的鲁棒性问题 提出了一种基于抽象的、经过认证的训练方法,用于提高深度神经网络对抗性攻击的鲁棒性;提出黑盒验证方法,该方法与神经网络的大小和架构无关,可扩展到

    2024年02月09日
    浏览(60)
  • CVPR视频理解论文

    视频理解、图像/视频字幕(Image/Video Caption) 时空Transformer+CLIP的对比学习思路 自监督学习,训练Masked AutoEncoder,为视频人脸生成通用的面部编码 In this paper, our goal is to learn universal and taskagnostic representations in a self-supervised manner for face-related downstream tasks

    2024年02月08日
    浏览(31)
  • CVPR2023

    提交:9155 篇论文 接受:2360 篇论文(接受率 25.8%) 亮点:235 篇论文(接受论文的 10%,提交论文的 2.6%) 获奖候选人:12 篇论文(接受论文的 0.51%,提交论文的 0.13%) Generating Human Motion from Textual Descriptions with High Quality Discrete Representation Jianrong Zhang · Yangsong Zhang · Xiaodong C

    2024年02月04日
    浏览(38)
  • ICCV、ECCV、CVPR

    原文链接:https://blog.csdn.net/m0_46988935/article/details/109378535 ICCV 的全称是 IEEE International Conference on Computer Vision,即国际计算机视觉大会,是公认的三个会议中级别最高的。它的举办地方会在世界范围内选,每两年召开一次。 ECCV的全称是European Conference on Computer Vision,即欧洲计算

    2024年02月04日
    浏览(36)
  • CVPR2023对抗攻击相关论文

    Feature Separation and Recalibration for Adversarial Robustness 论文链接:http://arxiv.org/abs/2303.13846v1 代码地址:GitHub - wkim97/FSR: Feature Separation and Recalibration (CVPR 2023) 摘要:由于特征层面的扰动积累,深度神经网络容易受到对抗性攻击,许多研究通过停用导致模型错误预测的非鲁棒特征激活

    2024年02月09日
    浏览(46)
  • 【图像分割 2023 CVPR】CFNet

    论文题目:CFNet: Cascade Fusion Network for Dense Prediction 中文题目:CFNet:用于密集预测的级联融合网络 论文链接:https://arxiv.org/abs/2302.06052 论文代码: 论文团队: 发表时间: DOI: 引用: 引用数: 多尺度特征对于对象检测、实例分割和语义分割等密集预测任务是必不可少的。 现

    2024年02月17日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包