TPS Motion(CVPR2022)视频生成论文解读

这篇具有很好参考价值的文章主要介绍了TPS Motion(CVPR2022)视频生成论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


论文: 《Thin-Plate Spline Motion Model for Image Animation》
github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model

解决问题

问题:
尽管当前有些工作使用无监督方法进可行任意目标姿态迁移,但是当源图与目标图差异大时,对当前无监督方案来说仍然具有挑战。
方法:
本文提出无监督TPS Motion,
1、提出thin-plate spline(TPS)运动估计,以生成更灵活光流,将源图特征迁移至目标图特征;
2、为了补全缺失区域,使用多分辨率遮挡mask进行有效特征融合。
3、额外辅助损失函数用于确保网络各模块分工,使得生成高质量图片;

算法

TPS Motion算法整体流程图如图2所示,
TPS Motion(CVPR2022)视频生成论文解读
TPS Motion主要包括以下模块:
1、关键点检测模块 E k p E_{kp} Ekp:生成 K ∗ N K*N KN对关键点用于生成K个TPS变换;
2、背景运动预测 E b g E_{bg} Ebg:估计背景变换参数;
3、稠密运动网络(Dense Motion Network):这是一个hourglass网络,使用 E b g E_{bg} Ebg背景变换及 E k p E_{kp} Ekp的K的K个TPS变换进行光流估计、多分辨率遮挡mask预测,用于指导缺失区域;
4、修复网络(Inpainting Network):同为hourglass网络,使用预测光流扭曲原图特征图,修复每个尺度下特征图缺失区域;

TPS运动估计

1、通过TPS可通过最小扭曲,将原图变换到目标图,如式1, P i X 表示图 X 上第 i 个关键点 P^X_i表示图X上第i个关键点 PiX表示图X上第i个关键点
TPS Motion(CVPR2022)视频生成论文解读
E k p E_{kp} Ekp使用 K ∗ N K*N KN个关键点,计算k个tps变换,每个使用N个关键点(N=5),TPS计算如式2, p 为坐标, A 与 w 为式 1 求解到的系数, U 为偏置项 p为坐标,A与w为式1求解到的系数,U为偏置项 p为坐标,Aw为式1求解到的系数,U为偏置项,
TPS Motion(CVPR2022)视频生成论文解读
2、背景变换矩阵如式4,其中 A b g A_{bg} Abg由背景运动预测器 E b g E_{bg} Ebg生成;
TPS Motion(CVPR2022)视频生成论文解读
3、通过Dense Motion Network将K+1个变换预测contribution map M ~ ∈ R ( K + 1 ) × H × W \tilde M \in R^{(K+1)\times H \times W} M~R(K+1)×H×W,经过softmax得到 M M M,如式5,
TPS Motion(CVPR2022)视频生成论文解读
将其与K+1个变换结合计算光流,如式6,
TPS Motion(CVPR2022)视频生成论文解读
由于训练初期仅有部分TPS变换起作用,由此导致contribution map有的地方为0,因此训练时容易陷入局部最优;
作者使用dropout使得某些contribution map为0,将式5改为式7, b i 服从伯努利分布,概率为 1 − P b_i服从伯努利分布,概率为1-P bi服从伯努利分布,概率为1P,使得网络不会过度依赖某些TPS变换,训练几个epoch后,作者将其去除;

TPS Motion(CVPR2022)视频生成论文解读

4、修复网络(Inpainting Network)的编码器提取原图特征进行变换,解码器进行重构目标图;

多分辨率遮挡Mask

一些论文证明,不同尺度特征图关注区域有区别,低分辨率关注抽象形态,高分辨率关注细节纹理;因此作者在每层进行预测遮挡mask;
Dense Motion Network除了预测光流还预测多分辨率遮挡mask,通过在每层编码器添加一个额外的卷积层实现;
TPS Motion(CVPR2022)视频生成论文解读
Inpaintting Network融合多尺度特征生成高质量图像,细节如图3所示;
1、将原图S送入编码器,光流 T ~ \tilde T T~用于变换每层特征图;
2、使用预测的遮挡mask进行遮挡变换后的特征图;
3、使用skip connection与浅层解码器输出concat;
4、通过两个残差网络及上采样层,生成最终图像;

训练损失函数

重构损失:使用VGG-19计算重构损失,如式9;
TPS Motion(CVPR2022)视频生成论文解读
同变损失:用于约束关键点检测模块,如式10;
TPS Motion(CVPR2022)视频生成论文解读
背景损失:用于约束背景Motion预测器,确保预测更加准确, A b g A_{bg} Abg表示从S到D的背景仿射变换矩阵; A b g ′ A'_{bg} Abg表示D到S的背景仿射变换矩阵,防止预测输出矩阵为0,loss未使用式11,而是式12;
TPS Motion(CVPR2022)视频生成论文解读
TPS Motion(CVPR2022)视频生成论文解读
扭曲损失:用于约束Inpainting Network,使得估计光流更加可靠,如式13,Ei表示网络第i层编码器;
TPS Motion(CVPR2022)视频生成论文解读
整体损失函数如式14
TPS Motion(CVPR2022)视频生成论文解读

测试阶段

FOMM有两种模式:标准、相关;
前者使用驱动视频 D t D_t Dt每一帧及S,依据式6估计motion,但当S与D差异大时(比如S与D中人体身材差异大),表现不佳;
后者用于估计 D 1 D_1 D1 D t D_t Dt的motion,将其应用于S,这要求 D 1 D_1 D1与S的pose接近;
MRAA提出一种新模式,通过解耦进行动画,额外训练网络进行预测motion,应用于S,本文使用相同模式;训练shape及pose编码器,shape编码器学习关键点S的shape,pose编码器学习关键点 D t D_t Dt的pose,解码器重构关键点保留S的shape及 D t D_t Dt的pose,训练过程中使用同一视频两帧,其中一帧关键点进行随机变换仿真另一个体的pose;
对于图像动画而言,将S及 D t D_t Dt的关键点送入shape及pose编码器,经过解码器获取重构的关键点,根据式6估计motion。

实验

评估指标
L1表示驱动图与生成图像素L1距离;
Average keypoint distance (AKD)表示生成图与驱动图关键点距离;
Missing keypoint rate (MKR)表示驱动图中存在但是生成图中不存在的关键点比率;
Average Euclidean distance (AED)表示使用reid模型提取生成图与驱动图特征,比较两者之间L2损失;
视频重构结果如表1;
TPS Motion(CVPR2022)视频生成论文解读
图6展示图像动画结果,在4个数据集上与MRAA比较,
TPS Motion(CVPR2022)视频生成论文解读
表2展示真实用户在连续性及真实性上评价;
TPS Motion(CVPR2022)视频生成论文解读
表4展示消融实验结果;
TPS Motion(CVPR2022)视频生成论文解读
表3比较不同K对结果影响,FOMM、MRAA使用K=5,10,20;本文方式用2,4,8;
TPS Motion(CVPR2022)视频生成论文解读

结论

作者提出的方无监督图像动画方法:
1、通过TPS估计光流,训练初期使用dropout,防止陷入局部最优;
2、多分辨率遮挡mask用于更有效特征融合;
3、设计额外辅助损失;
本文方法取得SOTA,但是当源图与驱动图人物身份极度不匹配时,效果不理想;文章来源地址https://www.toymoban.com/news/detail-409996.html

到了这里,关于TPS Motion(CVPR2022)视频生成论文解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HumanNeRF(CVPR2022 oral)-人体重建论文阅读

    论文: 《HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video》 github: https://github.com/chungyiweng/humannerf 作者提出HumanNeRF,给出复杂动作人体单视角视频,暂停任一帧渲染出任意视角下该人体,甚至360度视角下该人体; HumanNeRF优化了人在标准T姿势下的表征,与运动场相一致,

    2024年02月15日
    浏览(117)
  • Latent Diffusion(CVPR2022 oral)-论文阅读

    论文: 《High-Resolution Image Synthesis with Latent Diffusion Models》 github: https://github.com/CompVis/latent-diffusion 为了使得DM在有限计算资源下训练,同时保留其生成质量及灵活性,作者将其应用于预训练编解码器的隐空间。基于表征训练扩散模型达到降低计算量及细节保留的最优点。作者

    2024年02月11日
    浏览(48)
  • CVPR视频理解论文

    视频理解、图像/视频字幕(Image/Video Caption) 时空Transformer+CLIP的对比学习思路 自监督学习,训练Masked AutoEncoder,为视频人脸生成通用的面部编码 In this paper, our goal is to learn universal and taskagnostic representations in a self-supervised manner for face-related downstream tasks

    2024年02月08日
    浏览(31)
  • 【CVPR 2023 论文解读】TriDet: Temporal Action Detection with Relative Boundary Modeling

    发表时间:CVPR 2023 作者团队:北航,美团,JD Explore 代码链接: GitHub - dingfengshi/TriDet: [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling - GitHub - dingfengshi/TriDet: [CVPR2023] Code for t

    2024年02月05日
    浏览(56)
  • 【论文简述】Cross-Attentional Flow Transformer for Robust Optical Flow(CVPR 2022)

    1. 第一作者: Xiuchao Sui、Shaohua Li 2. 发表年份: 2021 3. 发表期刊: arxiv 4. : 光流、Transformer、自注意力、交叉注意力、相关体 5. 探索动机: 由于卷积的局部性和刚性权重,有限的上下文信息被纳入到像素特征中,并且计算出的相关性具有很高的随机性,以至于大多数

    2024年02月03日
    浏览(56)
  • SadTalker(CVPR2023)-音频驱动视频生成

    论文: 《SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation》 github: https://github.com/Winfredy/SadTalker 演示效果: https://www.bilibili.com/video/BV1fX4y1675W 利用一张面部图片及一段音频让其变为一段讲话的视频仍然存在许多挑战: 头部运动不自然、

    2023年04月18日
    浏览(87)
  • CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑

    视频预测(video prediction)的性能已经通过先进的深度神经网络大幅提高。然而,大多数当前的方法存在着大的模型尺寸和需要额外的输入(如,语义/深度图)以实现良好的性能。出于效率考虑,本文提出了一个动态多尺度体素流网络(Dynamic Multi-scale Voxel Flow Network,DMVFN),

    2024年02月09日
    浏览(80)
  • 字节跳动CVPR 2023论文精选来啦(内含一批图像生成新研究)

    计算机视觉领域三大顶会之一的 CVPR 今年已经开奖啦。 今年的 CVPR 将于六月在加拿大温哥华举办,和往年一样,字节跳动技术团队的同学们收获了不少中选论文,覆盖文本生成图像、语义分割、目标检测、自监督学习等多个领域,其中不少成果在所属领域达到了 SOTA(当前最

    2023年04月09日
    浏览(43)
  • CVPR 2023 | 用户可控的条件图像到视频生成方法(基于Diffusion)

    注1:本文系“计算机视觉/三维重建论文速递”系列之一,致力于简洁清晰完整地介绍、解读计算机视觉,特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。 本次介绍的论文是: CVPR 2023 | 用户可控的条件图

    2024年02月13日
    浏览(43)
  • 论文阅读: (CVPR2023 SDT )基于书写者风格和字符风格解耦的手写文字生成及源码对应

    引言 许久不认真看论文了,这不赶紧捡起来。这也是自己看的第一篇用到Transformer结构的CV论文。 之所以选择这篇文章来看,是考虑到之前做过手写字体生成的项目。这个工作可以用来合成一些手写体数据集,用来辅助手写体识别模型的训练。 本篇文章将从论文与代码一一对

    2024年02月12日
    浏览(69)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包