【思路合集】talking head generation+stable diffusion

这篇具有很好参考价值的文章主要介绍了【思路合集】talking head generation+stable diffusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 以DiffusionVideoEditing为baseline:

改进方向

针对于自回归训练方式可能导致的漂移问题:

  1. 训练时,在前一帧上引入小量的面部扭曲,模拟在生成过程中自然发生的扭曲。促使模型查看身份帧以进行修正。
  2. 在像VoxCeleb或LRS这样的具有不受限制条件的训练集中,训练更多样化的说话人数据。

针对训练速度慢,算力消耗大的问题:

作者尝试在潜空间中进行训练以加快训练速度,但是样本质量下降,因此在像素空间中操作,且只能训练128x128大小的数据。改进模型的训练速度对我们来说是首要任务,这将使我们能够在更大、更多样化的“野外”数据集上进行训练,如VoxCeleb [45]或LRS [12]。

希望尝试用LDM的方法训练,看如何在latent space训练且不降低样本质量。

语音条件:计划探索使用更广泛的语音特征作为模型条件的潜力,例如使用预训练的音频编码器,如Wav2Vec2 [3]、Whisper [52]或DeepSpeech2 [1]。相信结合这些特征可能会提高我们模型的唇部同步性能,并生成更逼真、表现力更强的唇部运动。

针对生成的说话头的抖动问题:

  1. 时间一致性:确保生成的说话头在时间上是连续和平滑的。在模型中引入时间依赖性,使用前一帧或前几帧的信息作为输入,增加生成的连贯性。
  2. 噪声注入:在输入数据中添加噪声或随机性,帮助减少生成结果中的抖动。通过在训练过程中或生成过程中引入适量的噪声,可以使模型更具鲁棒性。
  3. 重复惩罚:在生成过程中,通过记录已生成的特征或帧,并在后续生成中降低其权重,可以减少重复出现的特征或帧。这有助于生成更加平稳和多样化的说话头。
  4. 额外的约束或先验知识:对说话头进行进一步控制。例如,可以限制嘴唇形状的变化范围、语音速度的变化范围等,以减少不自然的抖动。
  5. 数据增强和多样性:用更多的训练数据、数据增强技术和多样性增强方法,使模型更好地学习说话头的多样性,并减少抖动。

用到的方法

1.Palette: Image-to-image diffusion models:通过将前一帧和身份帧连接到遮挡帧上,来训练模型生成所需的帧。

2.可以在我们的解决方案之上应用诸如[Learning trajectory-aware transformer for video superresolution]的视频超分辨率技术,以获得高分辨率的样本。

3.在U-Net内的条件残差块中发送音频特征,来驱动面部动画,对unet的改动详见[Diffused heads: Diffusion models beat gans on talking-face generation. ]

2 以DreamTalk为baseline:

改进方向

1. 风格与内容分离:研究如何将说话头的风格和内容进行有效地分离和控制。通过引入额外的约束或正则化项来实现,在保持风格一致的同时,灵活地修改或替换内容。

一种方法是条件生成模型,将风格信息作为附加输入,使模型能够根据给定的风格,生成相应说话头。通过调整风格输入,可以改变生成结果的风格,例如从正式到随意的转变。

另一种方法是风格迁移,通过将源样本(具有某种风格)与目标样本(希望采用的另一种风格)进行对齐和学习,从而将源样本的内容转移到目标样本的风格中,从而在不改变内容的情况下修改风格。

用到的方法

1.人脸运动由渲染器 [Pirenderer: Controllable portrait image generation via semantic neural rendering] 渲染成视频帧,并对其微调,使渲染器具有情感表达生成能力。还负责将将输出的人脸运动渲染为视频。

2. 人脸运动被参数化为来自3D可变形模型[A morphable model for the synthesis of 3d faces.]的表情参数序列。

3.仅使用标准扩散模型中的去噪损失,会导致不准确的唇部运动。补救方法:由预训练的唇部专家[A lip sync expert is all you need for speech to lip generation in the wild]提供唇动指导。(然而,唇部专家只关注一般的说话风格,这导致生成统一风格的面部运动。)

4.为了从人脸运动m中获取唇动信息,首先将m转换为相应的人脸网格,并选择嘴巴区域的顶点作为唇部运动表示[Styletalk: One-shot talking head generation with controllable speaking styles]。嘴唇运动和音频编码器分别主要由MLPs和1d卷积实现。

5.开发了一个去噪网络:创建富有表现力的、音频驱动的面部动作。风格感知嘴唇专家:优化口型同步,同时不影响风格表达。风格预测器:直接从音频中推断说话风格,从而消除了对视频参考的需要。

基线方法:MakeitTalk[105]、Wav2Lip[49]、PCAVS[104]、AVCT[84]、GC-AVT[37]、EAMM[30]、StyleTalk[46]、DiffTalk[58]、SadTalker[100]、PDFGC[78]和EAT[20]。

3 其他论文及方法

有效利用隐空间:DAE (Diffusion Autoencoder) ,DAE-Talker的前置文章。将DDIM的控制信息编码到类似StyleGAN的隐空间,借此实现与StyleGAN类似的可控图像生成。它将latent code分为两部分,分别是有语义意义的线性隐码和捕捉随机细节的“Noise”。 

DAE-talker:

  • 解决视频抖动的方法:使用相同噪声做起始点,保证latent code的平滑性。
  • 增强音频的表征能力:选择预训练Wav2vec 2.0提取音频特征。
  • 平滑latent code:使用堆叠的Comformer[7]来构建局部和全局的上下文关联,以生成变化更加平滑的latent code。
  • 学习音频和姿态之间的对应关系:在Conformer的Encoder和Decoder之间,加入了姿态控制器(Pose Adaptor),用来学习音频和姿态之间的对应关系。(语音驱动动画的问题是一个一对多的问题。在头部姿态的情况下尤其如此,同一段音频很容易对应许多不同的姿态。为了缓解这个问题,作者提出在speech2latent网络中添加一个特定的组件来建模姿态。姿态预测器从语音中预测姿态,而姿态投影器将姿态添加回网络的中间特征中。通过在此阶段添加姿态损失,可以更好地建模姿态。由于姿态被投影到特征中,可以使用预测的姿态或真实的姿态。)
  • 是否可以将latent code进一步拆分为id, pose, expression的latent representation?
  • 局限性:模型仅在单个演讲者的12分钟数据上进行训练,没有环境变化。实验仅限于一个数据集。除了奥巴马之外,没有其他人的实验结果。且不易训练。

LAUGHING MATTERS:

  • Video diffusion models:采用了可分解的时空U-Net架构,扩展了图像扩散模型中使用的标准2D U-Net。由四个通过残差连接连接的下采样和上采样块组成。
  • Make-a-video:用伪3d卷积层和注意力层来平衡计算效率和网络中的信息共享。对于每一层,不使用完整的3D卷积,而是对空间维度应用2D卷积【思路合集】talking head generation+stable diffusion,stable diffusion,人工智能,深度学习,然后通过合并其他维度对时间维度应用1D卷积【思路合集】talking head generation+stable diffusion,stable diffusion,人工智能,深度学习。对注意力层应用类似的策略。

提高分辨率:加入metaportrait之类的超分算法,或最后接gfpgan进行图像修复,高清细节恢复。 

插帧:RIFE,可以改善说话头生成效果:Real-Time Intermediate Flow Estimation for Video Frame Interpolation

利用面部先验:Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors

TH-PAD (zxyin.github.io)

端到端无监督运动迁移框架:Thin-Plate Spline Motion Model for Image Animation,TPSMM,code:GitHub - yoyo-nb/Thin-Plate-Spline-Motion-Model: [CVPR 2022] Thin-Plate Spline Motion Model for Image Animation.

高清:从GFPGAN 改为 ONNX / TensorRT.文章来源地址https://www.toymoban.com/news/detail-820339.html

到了这里,关于【思路合集】talking head generation+stable diffusion的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • stable diffusion error code:128 stdout:HEAD解决方案

    Python 3.10.10 (main, Mar 21 2023, 18:45:11) [GCC 11.2.0] Commit hash: Traceback (most recent call last): File “/home/xxxxx/PycharmProjects/stable-diffusion-webui/launch.py”, line 355, in prepare_environment() File “/home/xxxx/PycharmProjects/stable-diffusion-webui/launch.py”, line 288, in prepare_environment git_clone(stable_diffusion_repo, repo_dir

    2024年02月06日
    浏览(46)
  • Stable diffusion模型大合集(18个)免费下载

    RealDosMix ChilloutMix DDicon Lyriel Realistic Vision V2.0 国风3 hanfu 汉服 fking_scifi_v2 Dreamlike Photoreal 2.0 墨心 MoXin 小人书•连环画 blindbox/大概是盲盒 epi_noiseoffset Miniature world style XP 3D: C4D,3D style on Midjourney 沁彩 Colorwater majicMIX realistic XXMix realistic 介绍:真人模型    下载地址:https://pan.qu

    2024年02月13日
    浏览(94)
  • 【人工智能·Stable-Diffusion】如何体验到 Stable-Diffusion

    带大家快速体验到AI图片生成 Stable-Diffusion,包含 win本地部署 参考和 云GPU服务器体验 。 Stable Diffusion 是一种通过文字描述创造出图像的 AI 模型. 它是一个开源软件, 使得新手可以在线尝试。 Stable Diffusion 的算法需要计算机有较强的算力,默认是需要配置有英伟达的独立显卡的

    2024年02月11日
    浏览(63)
  • Stable Diffusion人工智能图像合成

    AI 图像生成大有来头。新发布的开源图像合成模型称为Stable Diffusion,它允许任何拥有 PC 和像样的 GPU 的人想象出他们能想象到的几乎任何视觉现实。它几乎可以模仿任何视觉风格,如果你给它输入一个描述性的短语,结果就会像魔术一样出现在你的屏幕上。 一些艺术家 对这

    2024年02月09日
    浏览(48)
  • 人工智能实战:Stable Diffusion技术分享

    背景 Stable Diffusion是计算机图形学和可视化领域中的一项重要技术。在这篇分 享中 ,我们将深入探讨稳定扩散的原理、关键要素和实施步骤 ,通过了解Stable Diffusion的流程化 ,我们可以提升自身的设计能力和创造力 ,为公司 和个人注入更多的价值和创意。 美术制定 美术风

    2024年01月19日
    浏览(50)
  • 神奇的人工智能之神笔马良|Stable Diffusion使用

    1,月球上骑马的宇航员。 image generate by stable-diffusion model 2,下棋的狗 image generate by stable-diffusion model 3,沉迷学习的史努比 image generate by stable-diffusion model 4,鲤鱼跃出海面

    2024年02月09日
    浏览(48)
  • 人工智能AI系列 - java 版的stable diffusion 图像生成

    图像生成 文生图:输入提示词(仅支持英文),生成图片(仅支持英文) GPU版本 StableDiffusionGPU.java CPU版本 StableDiffusionCPU.java 图生图:根据图片及提示词(仅支持英文)生成图片 GPU版本 Img2ImgStableDiffusionGPU.java 显卡CUDA:11.7版本 参考测试数据:分辨率 512*512 25步 CPU(i5处理器

    2024年02月09日
    浏览(74)
  • Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis 笔记

    Talking head synthesis is an emerging technology with wide applications in film dubbing, virtual avatars and online education. Recent NeRF-based methods generate more natural talking videos, as they better capture the 3D structural information of faces. However, a specific model needs to be trained for each identity with a large dataset. In this paper, we pr

    2024年02月20日
    浏览(40)
  • AI创作教程之 Stable Diffusion 为何是人工智能新时代艺术创作的基石

    我们的人脑在当今人类产生的技术进步中发挥着最大的作用。在这种智能的基础上,人类创造了各种各样的产品,但不必说每一个都改变了人类生活的本质。随着模型权重的公开发布以保持稳定性,世界将发生巨大变化。AI稳定扩散文本到图像引擎。有了这个,任何人都可以

    2024年02月15日
    浏览(46)
  • 如何在Mac、Windows和Docker上本地电脑上搭建AI人工智能绘画工具Stable Diffusion

    微信公众号:运维开发故事,作者:double冬 目前,有诸如Midjourney等人工智能绘画网站可供大家来免费使用,但是由于是免费资源肯定会在机器性能和使用次数方面有所限制,因此如果能将人工智能绘画工具部署在本地运行就会突破机器性能和使用次数等方面的限制。可能所

    2024年02月13日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包