Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks

这篇具有很好参考价值的文章主要介绍了Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Cai, Y., Ge, L., Liu, J., Cai, J., Cham, T.-J., Yuan, J., & Magnenat-Thalmann, N. (2019). Exploiting spatial-temporal relationships for 3D pose estimation via graph convolutional networks. IEEE International Conference on Computer Vision, 2272–2281. https://doi.org/10.1109/ICCV.2019.00236

利用图卷积网络(Graph Convolutional Networks)来通过空间-时间关系进行3D姿势估计

尽管在从单视图图像或视频进行的3D姿势估计方面取得了巨大的进展,但由于存在显著的深度模糊和严重的自遮挡,这仍然是一项具有挑战性的任务。受到将空间依赖性和时间一致性纳入以缓解这些问题的有效性的启发,我们提出了一种新颖的基于图的方法,以解决从短序列的2D关节检测中进行3D人体和3D手部姿势估计的问题。特别地,关于人手(身体)配置的领域知识被明确地整合到图卷积操作中,以满足3D姿势估计的特定需求。此外,我们引入了一个局部到全局的网络架构,能够学习用于基于图的表示的多尺度特征。我们在具有挑战性的基准数据集上评估了所提出的方法,用于3D手部姿势估计和3D身体姿势估计。实验结果表明,我们的方法在两项任务上均取得了最先进的性能。

Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks,3d,论文阅读
图1。图示了(a)完整人体和(b)人手之间的图形空间-时间依赖关系。时间边连接相邻帧之间的相同关节,而空间边表示每个帧的自然连接。为了简单起见,我们仅在空间-时间图的前帧上绘制了整个空间连接,包括直接的物理连接(实线)和间接的“对称”关系(虚线曲线)。我们使用颜色对关节进行编码,以显示人体(手)的不同部分。

Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks,3d,论文阅读
图2。我们提出的用于从连续2D姿势估计3D姿势的网络架构的示意概述。输入是从RGB图像估计得到的少量相邻2D姿势,输出是目标帧的3D关节位置。我们在骨架序列上构建一个空间-时间图,并设计了一个层次化的“局部到全局”架构,其中包含图卷积操作,以有效处理和 consol feature 在不同尺度上。为了进一步改进估计结果,应用了一个可以与图卷积网络一起进行端到端训练的姿势细化过程。请注意,这个流程适用于3D人体和手部姿势估计,这里我们只是以3D人体姿势估计为可视化示例。

Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks,3d,论文阅读
图3。可视化了(a)人体和(b)人手的不同邻近节点。邻近节点根据它们的语义含义分为六类:中心节点(蓝色),包括比骨架根节点更近(紫色)和比骨架根节点更远(绿色)的物理连接节点,间接“对称”相关节点(深蓝色),时间向前节点(黄色)和时间向后节点(橙色)。

Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks,3d,论文阅读
图4。展示了“局部到全局”网络架构的示意图,该架构能够有效地处理和整合不同尺度上的特征。为了方便说明,我们仅在空间-时间图的前帧上绘制了整个空间连接。

Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks,3d,论文阅读
图5。定义的分层图池化策略,适用于(a)人体和(b)人手。给定每帧的原始图结构,我们首先根据可解释的骨架结构将节点划分为各个子集,这些子集用相同的颜色表示,然后在每个子集上执行最大池化操作。接下来,缩小的图被最大池化成一个节点,其中包含整个骨架的全局信息。请注意,在随后的自顶向下处理中,上采样被执行为所提出的池化的反向操作,将较粗图中的顶点的特征分配给较细图中的其子顶点。

Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks,3d,论文阅读
图7。我们提出的方法在Human3.6M和STB数据集上的视觉结果。第一行:Human3.6M [18]。第二行:STB [52]。请注意,为了方便比较,骨架以新的视角显示。文章来源地址https://www.toymoban.com/news/detail-829083.html

到了这里,关于Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • BEV学习--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion

    BEV方法最近在多视图3D检测任务中取得了很大进展。Sparse4D通过sparsely sampling和fusing spatial-temporal features 对anchor box进行迭代改进: (1)Sparse 4D Sampling: 对于每个3D anchor,我们分配多个4D关键点,然后将其投影到多视图/尺度/时间戳图像特征,用来采样相应的特征。 (2)Hierarc

    2024年04月13日
    浏览(29)
  • 论文笔记:Traffic Flow Prediction via Spatial Temporal Graph Neural Network

    WWW 2020 图神经网络+图注意力——空间依赖关系 RNN+Transformer——短期长期依赖关系 缺点:运用RNN于较长序列仍然会带来误差积累,并且RNN模型的运算效率并不高   

    2024年02月12日
    浏览(32)
  • Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 论文阅读笔记

    写在前面   这周得加更两篇论文阅读笔记,完成 2023 的 flag。   此论文也是 Arxiv 比较新的文章,设计了一个大一统模型,解决图像和视频的指代分割问题,应该是篇大佬工作。 论文地址:UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 代码地址:https://github.com

    2024年02月03日
    浏览(31)
  • 【论文阅读】Know Your Surroundings: Exploiting Scene Information for Object Tracking

    发表时间 :2020 期刊会议 :ECCV 方向分类 : 目标跟踪 做了什么: 本文提出了一个能够在视频序列中传播目标附近场景信息的跟踪结构,这种场景信息被用来实现提高目标预测的场景感知能力。 解决了什么问题: 已存在的跟踪器只依靠外观来跟踪,没有利用任何周围场景中

    2024年04月23日
    浏览(42)
  • Exploiting Proximity-Aware Tasks for Embodied Social Navigation 论文阅读

    题目 :Exploiting Proximity-Aware Tasks for Embodied Social Navigation 作者 :Enrico Cancelli, Tommaso Campari 来源 :arXiv 时间 :2023 学习如何在封闭且空间受限的室内环境中在人类之间导航,是体现主体融入我们社会所需的关键能力。 在本文中,我们提出了一种端到端架构,该架构利用邻近感

    2024年02月12日
    浏览(30)
  • Spatial Networks for Locations

    Background Spatial Networks for Locations  Locations are connected via roads (we assume traders can travel in both directions!)  These locations form a spatial network.  As traders used horses for travelling, they couldn’t travel too far! Pottery Trade Pottery trade was very active at that times. Each location had its own supply and demandfor pottery. T

    2024年02月22日
    浏览(34)
  • 论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati

    标题:Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction 作者:Martin Josifoski, Marija Sakota, Maxime Peyrard, Robert West 日期:2023 期刊:arxiv preprint   文章提出了一种利用LLM反向生成数据集的方法,并在此基础上提出了SynthIE模型,模型在信息抽取领域

    2024年02月03日
    浏览(52)
  • 论文阅读 - Non-Local Spatial Propagation Network for Depth Completion

    本文提出了一种非局部的空间传播网络用于深度图补全,简称为NLSPN。 (1)为什么需要深度图补全? 在AR、无人机控制、自动驾驶和运动规划等应用当中,需要知道物体的稠密深度信息。现有的大部分深度传感器,如雷达、RGB-D相机等,可以提供RGB图片和准确的稀疏深度图,

    2024年02月19日
    浏览(33)
  • 【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization

    论文:https://arxiv.org/abs/2303.10438 代码:https://github.com/wpy1999/SAT/blob/main/Model/SAT.py 这篇文章的方法应该属于FAM这一类。 额外添加的一个spatial token,从第10-12层开始,利用其得到的attn map (对hea求mean–B, 1, 1, N+2) 作为visual cue去指出oject region,作用方式为将attn map 点乘到 attn weight

    2023年04月14日
    浏览(34)
  • DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks

    ​ 在本文中,我们研究了掩码自动编码器(MAE)预训练的视频基于匹配的下游任务,包括视觉目标跟踪(VOT)和视频对象分割(VOS)。MAE的一个简单扩展是在视频中随机掩码帧块并重建帧像素。然而,我们发现这种简单的基线严重依赖于空间线索,而 忽略了帧重建的时间关

    2024年02月08日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包