EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation

这篇具有很好参考价值的文章主要介绍了EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

问题:现存的方法经常忽略面部的情感或者不能将它们从语音内容中分离出来。
方法:本文提出了一种端到端神经网络来分解语音中的不同情绪,从而生成丰富的 3D 面部表情。
1.我们引入了情感分离编码器(EDE),通过交叉重构具有不同情感标签的语音信号来分离语音中的情感和内容。
2.采用情感引导特征融合解码器来生成具有增强的情感的3D说话面部。
3.由于3D情感说话人脸的数据较少,我们借助面部混合形状的监督,从2D情感数据中重建出可信的3D人脸,并提供了一个大规模的3D情感说话人脸数据集(3D-ETF)来训练网络。

EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation,论文总结,人工智能,深度学习
给定表达不同情绪的音频输入,EmoTalk产生具有相应情绪表达的逼真3D面部序列作为输出。

EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation,论文总结,人工智能,深度学习
对于情感分离编码器,引入了两个不同的音频特征提取器,并分别用于为内容和情感提取两个单独的潜在空间,用于解耦情感和内容。使用交叉重建损失来约束学习过程,以更好地从语音中分离情感和内容。
方法:我们提出了一种 3D 面部动画模型,可以从语音信号中重建具有丰富情感的面部表情,使用户能够控制情绪水平和个人风格。用户可控的emotional level l ∈ R2 作为输入,允许用户调节最终面部动画中表达情绪的强度。Personal style p ∈ R24 输入也可以被用户操纵以具有不同的说话习惯。作者使用wav2vec 2.0来提取音频特征。

Aci,ej 表示样本数据,这些数据文章来源地址https://www.toymoban.com/news/detail-760254.html

到了这里,关于EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文笔记】Triplet attention and dual-pool contrastive learning for clinic-driven multi-label medical...

    多标签分类Multi-label classification (MLC)可在单张图像上附加多个标签,在医学图像上取得了可喜的成果。但现有的多标签分类方法在实际应用中仍面临着严峻的临床现实挑战,例如: 错误分类带来的医疗风险, 不同疾病之间的样本不平衡问题 无法对未预先定义的疾病(未见疾

    2024年02月03日
    浏览(47)
  • 论文笔记:MEASURING DISENTANGLEMENT: A REVIEW OF METRICS

    学习解缠和表示数据中的变化因素是人工智能中的一个重要问题。虽然已经取得了许多关于学习这些表示的进展,但如何量化解缠仍然不清楚。 虽然存在一些度量标准,但对它们的隐含假设、真正衡量的内容以及限制了解甚少。 因此,当比较不同的表示时,很难解释结果 本

    2024年02月15日
    浏览(45)
  • .NET使用System.Speech轻松读取文本

    System.Speech是.NET框架的一部分,提供了语音识别和语音合成的功能。通过使用System.Speech命名空间中的类,开发人员可以在.NET应用程序中实现语音识别功能。 在本文中,我将演示如何使用 System.Speech.NET,这是开发语音应用程序比较牛逼的内库。它适用于 .NET 4.x和.NET Core以上版

    2024年02月07日
    浏览(41)
  • AI语音合成——Text to speech

    作者:禅与计算机程序设计艺术 什么是语音合成?语音合成就是把文字转换成人类可以听懂的声音。近几年,随着深度学习的发展,语音合成领域取得了巨大的进步。通过深度学习技术的训练,计算机模型能够从原始文本数据中学习到人类的语音表达模式,并将其转化成声音

    2024年02月04日
    浏览(43)
  • 领域驱动设计(Domain Driven Design)之建立领域模型

    在实际项目中,模型设计者往往过早陷入具体构造块类型的识别,比如实体、聚合、领域服务,而忽略了领域模型表达领域概念的目的。我们应该基于领域概念设计领域模型,然后再采用合适的模式降低领域模型的复杂度,进一步增加领域模型的表达能力。 领域模型的作用,

    2024年02月03日
    浏览(37)
  • Speech | 语音处理,分割一段音频(python)

    本文主要是关于语音数据在处理过程中的一些脚本文件以及实例,所有代码只需要更改所需处理的文件路径,输出路径等,全部可运行。 目录 所需环境 方法1:将一整段音频按时间批量切成一个一个音频 方法2:将一整段音频按语句停顿批量切成一个一个音频 方法3:将一个

    2024年02月08日
    浏览(36)
  • 论文阅读:LSeg: LANGUAGE-DRIVEN SEMANTIC SEGMENTATION

    可以直接bryanyzhu的讲解:CLIP 改进工作串讲(上)【论文精读·42】_哔哩哔哩_bilibili 这里是详细的翻译工作 原文链接 https://arxiv.org/pdf/2201.03546.pdf ICLR 2022 我们提出了一种新的语言驱动的 语义图像分割模型LSeg 。LSeg使用一个 文本编码器来计算描述性输入标签 (例如,“草”或“

    2024年02月04日
    浏览(51)
  • BDD(Behavior-Driven Development)行为驱动开发介绍

    “开发软件系统最困难的部分就是准确说明开发什么” (“The hardest single part of building a software system is deciding precisely what to build” — No Silver Bullet, Fred Brooks) 。 看一下下面的开发场景: 场景一:业务分析人员觉得自己分析的需求已经写的很清晰了,并且跟技术人员进行了足够

    2024年01月18日
    浏览(38)
  • Microsoft Speech Platform 运行库和语音包

    32位:https://download.microsoft.com/download/A/6/4/A64012D6-D56F-4E58-85E3-531E56ABC0E6/x86_SpeechPlatformRuntime/SpeechPlatformRuntime.msi 64位:https://download.microsoft.com/download/A/6/4/A64012D6-D56F-4E58-85E3-531E56ABC0E6/x64_SpeechPlatformRuntime/SpeechPlatformRuntime.msi https://download.microsoft.com/download/4/0/D/40D6347A-AFA5-417D-A9BB-173D937B

    2024年02月16日
    浏览(30)
  • 文本内容转换成语音播放的工具:Speech Mac

    Speech Mac版是一款适用于Mac电脑的语音合成工具 。它将macOS语音合成器的所有功能整合到一个易于使用的界面中。通过Speech Mac版,用户可以选择40多种声音和语言,方便地将文本转换为语音。用户可以将文本拖放或粘贴到Speech中,并随时更改语音和语速。此外,单击一个单词即

    2024年02月05日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包