LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION

这篇具有很好参考价值的文章主要介绍了LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

基于视频的三维人体姿态估计的局部到全局Transformer

作者:马海峰 *,陆克 * †,薛健 *,牛泽海 *,高鹏程† *

           中国科学院大学工程学院,北京100049 

           鹏程实验室,深圳518055

来源:2022 IEEE International Conference on Multimedia and Expo (IEEE ICME)

摘要

基于Transformer的体系结构在序列到序列任务和视觉任务(包括三维人体姿态估计)中取得了很好的效果。然而,基于Transformer的3D人体姿态估计方法在局部信息获取方面不如RNN和CNN强。另外,局部信息在获得3D位置关系中起主要作用。在本文中,我们提出了一种方法,结合局部人体部位和全球骨骼关节使用时间Transformer精细跟踪人体部位的时间运动。首先,我们编码的位置和时间信息,然后我们使用一个局部到全局的时间Transformer,以获得局部和全局信息,最后我们得到的目标三维人体姿态。为了评估我们的方法的有效性,我们在两个流行的标准基准数据集上定量和定性地评估了我们的方法:Human3.6M和HumanEva-I。大量的实验表明,我们在Human3.6M上实现了最先进的性能,并将2D地面实况作为输入。

引言

在本文中,我们使用基于变换的架构,以获得时间信息的2D-3D骨架序列提升。然而,Transformer是薄弱的,在其获取的本地位置信息,并未能联合收割机本地位置和全球位置信息很好地使用现有的方法。受[12]的启发,我们认为将局部、全局和时间信息相结合是有益的;因此,我们创建了一种新颖的方法,使用称为LGFormer的时间Transformer编码器来联合收割机局部和全局信息。LGFormer从现成的2D人体姿势估计器(即,2D人体姿势估计器)接收2D人体姿势序列。CPN [13])。然后,我们使用位置和时间编码将人体骨骼分成五个身体部分。局部Transformer考虑身体部位的局部位置信息并返回潜在特征表示。然后我们融合本地信息。接下来,我们的全球Transformer捕获潜在特征表示的全球依赖关系,并生成3D人体姿势。我们的贡献概述如下:1)提出了一种新的基于变换器的3D HPE框架,称为LGFormer,其可以用于将2D人体关节提升到3D姿态。2)为了缓解3D HPE的问题,设计了一种局部到全局的Transformer网络架构,该架构能够学习人体部位的局部信息以捕获细微的运动,并捕获人体关节中的远程依赖性。3)所提出的方法在具有2D地面真实输入的Human3.6M上实现了最先进的结果。我们在Human3.6M和HumanEva-I数据集上进行了全面的实验。实验结果表明,我们提出的方法在这两个任务上都取得了很好的性能。

方法

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

概述我们提出的框架LGFormer,其中包含一个部分划分和位置时间增强层,补丁嵌入层,局部姿势时间Transformer层,全局姿势时间转换层,和回归头。

在本文中,我们使用基于变换的架构,以获得时间信息的2D-3D骨架序列提升。然而,Transformer是薄弱的,在其获取的本地位置信息,并未能联合收割机本地位置和全球位置信息很好地使用现有的方法。受[12]的启发,我们认为将局部、全局和时间信息相结合是有益的;因此,我们创建了一种新颖的方法,使用称为LGFormer的时间Transformer编码器来联合收割机局部和全局信息。LGFormer从现成的2D人体姿势估计器(即,2D人体姿势估计器)接收2D人体姿势序列。CPN [13])。然后,我们使用位置和时间编码将人体骨骼分成五个身体部分。局部Transformer考虑身体部位的局部位置信息并返回潜在特征表示。然后我们融合本地信息。接下来,我们的全球Transformer捕获潜在特征表示的全球依赖关系,并生成3D人体姿势。

我们的贡献概述如下:

1)提出了一种新的基于变换器的3D HPE框架,称为LGFormer,其可以用于将2D人体关节提升到3D姿态。

2)为了缓解3D HPE的问题,设计了一种局部到全局的Transformer网络架构,该架构能够学习人体部位的局部信息以捕获细微的运动,并捕获人体关节中的远程依赖性。

3)所提出的方法在具有2D地面真实输入的Human3.6M上实现了最先进的结果。

我们在Human3.6M和HumanEva-I数据集上进行了全面的实验。实验结果表明,我们提出的方法在这两个任务上都取得了很好的性能。

METHOD

我们的局部到全局姿态估计器的概述在图1中示出。我们继承了近年来2D-to-3D提升方法的主要架构,首先利用CPN等现成的2D人体位姿估计器估计2D位姿,然后将这些2D位姿序列放入我们的局部到全局位姿提升网中估计中心帧的3D位姿,最后得到目标3D人体位姿T ∈ RJ×3。

1.概述

我们的局部到全局姿态估计器的概述如图1所示。整体框架包含部分分割和位置时间增强层、补丁嵌入层、局部姿态时间Transformer层、全局姿态时间变换器层和回归头。在应用现成的2D人体姿态估计器后,我们获得完整的2D人体骨架序列。然后,我们将完整序列分割成f帧,并使用左填充和右填充。然后,我们获得顺序的2D骨架输入S ∈ Rf×J×2,其中f表示输入帧的长度,J表示输入关节的长度,对于2D姿势,2表示关节的2D坐标,对于3D姿势,第三个参数是3,表示关节的3D坐标。我们得到的2D骨架,然后我们输入这些2D骨架序列到我们的本地到全球的姿势提升网络。最后,我们得到的目标三维人体姿势。

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

2.位置和时间信息编码

为了增强不同帧之间的运动的小变化和末端关节的变化,我们遵循[12]中的位置和时间信息编码。我们的编码方法的概述如图所示。对于输入2D骨架S ∈ Rf×J×2,如图2所示。在图2(a)中,我们首先使用生理结构将2D骨架分成五个身体组,即躯干、左臂、右臂、左腿和右腿。然后,我们增强这些身体部位使用位置和时间信息独立。如图2(B)中,我们首先使用位置和时间信息增强人体骨架,然后通过补丁嵌入重塑矩阵并生成更高维的数据,如[9]中所做的那样。

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

(a)2D骨架序列的身体部位划分。(b)一个部位的位置和时间信息编码的整体过程

位置信息编码用SP ∈ Rf×J×2表示,时间位置信息编码用ST ∈ Rf×J×2表示。计算公式如下:

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

其中j = 1,2,...,J,J是我们接收到的关节编号,X和Y是骨架向量的坐标,x和y是骨架向量中每个关键点的坐标。作为Human3.6M中包含17个关节的示例,我们将骨骼分为:躯干-5个关节、左臂-3个关节、右臂-3个关节、左腿-3个关节和右腿-3个关节。(x0,y 0)指示根关节坐标(即Human3.6M髋关节坐标;因此SP表示每个帧的关节j和根关节之间的相对位置坐标。(Xm,Ym)指示输入序列的中间帧关节坐标;因此ST表示运动变化。我们获得2D骨架输入SE ∈ Rf×J×6:

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

它使用位置和时间信息增强。然后,我们重塑特征,并将其放入补丁嵌入。最后,我们得到了5个人体部位的Xe ∈ Rf×CHid,其中CHid是我们设置的隐维数参数。

3.局部到全局时间Transformer编码器

在编码之后,我们获得五个身体部位的特征Xie,其中i ∈ {躯干,左臂,右臂,左腿,右腿}。如图3,将这些部分的特征分别输入到五个局部位姿时域编码器中。在这项研究中,我们使用了一个四层八头的Transformer编码器。然后,我们融合到一个全局特征,并将其输入到全局姿态时间Transformer。我们按照ViT [9]设计Transformer编码器。如图3,Transformer编码器包含两大部分:多头自注意(MSA)和前馈网络。我们将特征线性地投影到Q、K和V中。接下来我们计算自我注意力,然后,将它们输入到层范数和前馈网络中。对于我们的局部时间Transformer,上述方法计算一个变压器头。在本文中,我们连接八个头部的自我注意和获得局部姿态的时间特征。

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

3.1.多头自我注意

在MSA中,我们将输入x ∈ Rf×d线性投影成查询Q ∈ Rf×d,关键字K ∈ Rf×d,值V ∈ Rf×d,其中f是输入帧序列长度; d是输入x的维数;对于局部时间Transformer器,d是CHid,并且对于全局时间变换器,d是5CHid。按比例缩放的点积注意力为:

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

因此,我们获得了一个注意力头。当我们的头数为n时,我们需要并行重复这个过程n次,并将结果串联起来,MSA计算为:

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

其中WQi ∈ Rd×d,WKi ∈ Rd×d,WVi ∈ Rd×d,WO ∈ Rhd×d,i = 1,2,...,n.

3.2.前馈网络

前馈网络使用MLP的两层作为目标框架。对于来自MSA的输入,局部时间Transformer和全局时间变换器的输入维度分别为CHid和5CHid。MLP可以计算为:

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

其中σ表示GELU激活函数[14]。与ViT [9]类似,我们选择4d作为MLP隐维,使用一个激活函数,使得W1 ∈ Rd×4d,W2 ∈ R4d×d,b1 ∈ R4d,b2 ∈ Rd。

4.损失函数

我们使用在3D HPE中最广泛使用的平均每关节位置误差(MPJPE [11])损失来最小化预测和地面实况姿态之间的误差。MPJPE计算为:

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

其中pk和pk分别是第k个关节的地面实况和估计的3D关节位置。

实验

1.数据集

我们在Human3.6M和HumanEva-I [15]数据集上评估了我们的方法,这些数据集在3D HPE中很受欢迎,并取得了良好的结果。Human3.6M是最受欢迎的3D HPE数据集,包含由运动捕捉系统捕捉的360万张图像。Human3.6M提供了四个视频视图,由11个演员和17个室内动作组成。我们的方法像以前的研究一样划分这些行为:我们使用五个动作(S1、S5、S6、S7、S8)用于训练,并且使用两个动作(S9、S11)用于测试。3D HPE中的主要指标是MPJPE,前面已经介绍过。HumanEva-I数据集包含来自运动捕捉系统的七个校准视频序列。该数据库包含四个受试者执行六种常见动作。HumanEva-I比Human3.6M小得多。我们测试了步行和慢跑行动的方法。

2.实验细节

在我们的实现中,所提出的LGFormer包含五个局部姿态时间变换器和一个全局姿态时间变换器,其中局部姿态时间变换器包含四个变换器编码器层,其具有81的输入序列长度f和256的隐藏维度CHid。全局姿态时间Transformer包含四个变换器编码器层,输入序列长度f为81,隐藏维度CHid为1280。LGFormer在PyTorch框架上实现,并在两个GeForce RTX 3090 GPU上运行。

3.实验结果

表1显示了我们的方法与以前的研究的比较。在我们的实验中,我们使用主要度量MPJPE计算了Human3.6M和HumanEva-I的结果。表1显示,我们的方法在Human3.6M上实现了2D地面实况输入的最新结果,CPN输入的MPJPE为46.3mm。显然,我们的方法比基于变压器的方法高出4.8%[10]。图4显示了我们在Human3.6M上的视觉结果,我们可以看到,通过我们的方法重建的骨架非常接近3D地面真实。表2还显示了我们在HumanEva-I上的结果。

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习 

4.消融实验

为了验证我们提出的模型中每个组件和设计的效果,我们根据方案1使用MPJPE对Human3.6M进行了广泛的消融实验,如表3所示。我们构建了一个全局时间Transformer作为我们的基线模型。为了公平比较,我们将模型的编码维度和帧长度设置为相等。我们通过移除或更换LGFormer的组件设计了3个模型。通过将位置和时间编码添加到基线,MPJPE误差减少了4.0%。采用局部和全局时域Transformer,MPJPE损耗降低了13.3%。对于我们的LGFormer,与基线模型相比,MPJPE误差降低了18.8%(从37.7降低到30.6)。正如我们所看到的,局部Transformer为模型提供了很大的贡献,它专注于人体部位的运动。

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

4.1.输入序列长度

对于基于视频的3D HPE,序列长度对性能有显著影响。表4显示了不同输入帧9、27、81的结果以及我们模型的复杂性。它表明,随着输入帧的增加,我们的模型的性能提高,这证实了我们的模型的能力,远程特征捕获。从接收序列长度9到81,误差减少了17.5%,编码隐藏维度CHid为128。

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

4.2.编码维度长度

表5示出了不同编码维度长度64、128、256的结果,其中输入序列长度为81。结果表明,随着局部姿态时域Transformer输入维数的增加,我们的模型的误差减小。编码隐藏维数CHid从64增加到256,误差降低了16.9%。但模型的参数和FLOPS增加了许多倍;因此,作为折衷,我们使用编码维度长度128。 

LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION,文献,transformer,3d,深度学习

结论

在本文中,我们提出了一种基于2D-3D骨架提升的三维HPE方法,并结合Transformer编码器和位置和时间先验。局部Transformer编码器编码解剖结构中不同人体部位的空间和时间关系,全局变换器编码所有人体关节之间的空间和时间关系。大量的实验表明,我们的模型在两个流行的3D姿势数据集上取得了很好的性能,并在Human3.6M上以2D地面实况作为输入取得了最先进的结果。 文章来源地址https://www.toymoban.com/news/detail-703418.html

到了这里,关于LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插帧的文章,q,kv,来自不同的图像 代码:【here】 传统的插帧方法多用光流,但是光流的局限性在于 第一:它中间会算至少两个 cost volumes,它是四维的,计算量非常大 第二:光流不太好处理遮挡(光流空洞)以及运动的边缘(光流不连续)

    2024年02月09日
    浏览(41)
  • 2019CVPR Semantic Graph Convolutional Networks for 3D Human Pose Regression

    基于语义图卷积网络的三维人体姿态回归 源码 https://github.com/garyzhao/SemGCN 在本文中,我们研究了学习图卷积网络(GCN)回归的问题。GCN的当前体系结构受限于卷积滤波器和共享的变换矩阵为的小感受野。为了解决这些限制,我们提出了语义图卷积网络(SemGCN),这是一种新

    2024年02月10日
    浏览(34)
  • 论文阅读 (79):TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image

    2021:用于WSI分类的Transformer相关多示例 ( TransMIL: Transformer based correlated multiple instance learning for whole slide image classification ) WSI–MIL方法通常基于独立同分布假设,这忽略了不同实例之间的相关性。为了处理这个问题,提出了一个称为 相关多示例 的新框架。基于该框架,部署了

    2024年02月09日
    浏览(44)
  • 【最新视频行人重识别综述】Deep Learning for Video-based Person Re-Identification: A Survey

    论文: https://arxiv.org/abs/2303.11332 视频重识别流行的主要原因是为公共安全提供广泛的服务,如跟踪每个具有 唯一ID 的人,预防犯罪,行为分析,法医调查等。在智能视频监控应用中,视频重识别被定义为从大量图库图像中通过各种不重叠的摄像机识别单个人。 视频重识别算

    2024年04月14日
    浏览(52)
  • Efficient Global 2D-3D Matching for Camera Localization in a Large-Scale 3D Map

    由于paper并没有给出源码,我们找到了相似的源码:https://github.com/nadiawangberg/structure-based-visual-localization。 这是一个相机内部参数的文本文件,其中包含了一个内部参数矩阵K。该矩阵的元素用于将3D世界坐标系中的点转换为2D图像坐标系中的点。这个文件中的矩阵表示相机的内

    2024年02月10日
    浏览(33)
  • 论文阅读——《Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement》

    本文试图从原理和代码简单介绍低照度增强领域中比较新的一篇论文——Retinexformer,其效果不错,刷新了十三大暗光增强效果榜单。 ❗ 论文名称 :Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement 👀 论文信息 :由清华大学联合维尔兹堡大学和苏黎世联邦理工

    2024年01月18日
    浏览(46)
  • GPS-Gaussian:Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis

    1)仿射变换 quad 所谓仿射变换,就是向量经过一次线性变换加一次平移变换,用公式可以表示为: quad 其中,p为变换前原始向量,q为变换后目标向量,A为线性变换矩阵,b为平移变换向量。 quad 对于二维图像而言,p和q分别是某个像素点在原图和仿射变换后的图中的未知(

    2024年02月03日
    浏览(41)
  • Text2Avatar: Text to 3D Human Avatar Generation with Codebook-Driven Body Controllable Attribute

    Q : 这篇论文试图解决什么问题? A : 这篇论文试图解决的问题是如何从文本描述直接生成具有多属性可控性和现实风格的3D人类化身(avatar)。具体来说,它面临的挑战包括: 特征耦合 :在直接从文本生成3D人类模型时,不同属性(如性别、衣服长度、颜色等)之间可能存在

    2024年01月20日
    浏览(45)
  • Ring Co-XOR encryption based reversible data hiding for 3D mesh model

    期刊:Signal Processing 作者:Lingfeng Qu et al. -- 加密域可逆数据隐藏被广泛应用于云存储数字媒体的内容安全、隐私保护和便捷管理。然而,RDH-ED技术在三维网格模型载体中的应用研究仍处于起步阶段。为解决现有针对三维网格模型的RDH-ED算法需要像第三方传输辅助信息,嵌入容

    2024年02月04日
    浏览(39)
  • 【原文链接】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

    原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Tri-Perspective_View_for_Vision-Based_3D_Semantic_Occupancy_Prediction_CVPR_2023_paper.pdf 体素表达需要较大的计算量和特别的技巧(如稀疏卷积),BEV表达难以使用平面特征编码所有3D结构。 本文提出三视图(TPV)表达3D场景。为得到空间

    2024年01月23日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包