论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》

这篇具有很好参考价值的文章主要介绍了论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.简介

在3D人体姿态估计中存在遮挡和模糊问题,使用多相机可能会缓解这些困难,因为不同的视角可以补偿这些遮挡并用于相互一致性。目前的3D人体姿态估计中大多数都是单视角的,有一部分是多视角的,但是他们的方法依赖于相机之间的相对位置,这要用到相机的外参。对于相机内参的缺乏,一些方法可以尝试去估计内参,但是估计的值肯定会不准确。

        作者的工作引入了一个不需要外部参数的多视角运动重建,此工作建立在一个新的概念之上,使用众所周知的关节旋转和骨长。此工作依赖于一个关键的见解,即对于所有视角而言,关节旋转和骨长是确定的,也就是说,骨架部分的3D角度与相机位置是没有关系的,此时预测的是运动信息,而不是3D关节的位置,这就避免了对相机外参的依赖。如下图:

论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》,论文阅读,笔记,3d

        作者的模型名叫FLEX,是一个端到端的深度卷积网络。输入是多视角的2D关节,可以由2D关节检测器检测而来,也可以是真实的2D关节坐标。

        目前3D姿态估计可以分为俩组,一组是直接从图像中回归出3D坐标,第二组是先对图像进行2D姿态估计,然后将得到的2D姿态信息lifting3D空间。第一种方法受益于直接使用图像,与2D关节位置相比,图像的信息更多,第二组通过使用中间监督获益。在3D姿态估计中,通常是对一段视频进行运动重建,但现在很多工作都是使用一帧信息来预测此帧的3D姿态信息,没有考虑到前后帧之间的联系,而作者的工作使用了时间信息来重建运动。

2.模型

        作者工作的baseline是一篇2020年发表在CVPR的论文(MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency),这是一个使用单视角的3D姿态估计的工作,这篇论文为了让预测的运动更加丝滑,首次在3D姿态估计中引入FKforward kinematics,前向运动学),下面先介绍这篇MotioNet的网络架构:

论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》,论文阅读,笔记,3d

2D poses:T帧经过2D姿态估计处理过的2D姿态位置;

Confidence values:用于数据增强,对每个关节的2D位置进行0~360°的偏移,位移距离由置信度值来决定,置信度值的来源是关节的经验分布;

输入:将2D poses经过confidence values数据增强后输入网络之中

EQ:编码器,对输入的2D姿态信息进行处理,预测出T组根位置+关节旋转+脚接触标签,定义两个胯骨之间的关节点为根位置,因为这个关节点被遮挡的概率比较低,而且较易预测出来,由于预测的关节旋转是相对于根位置的旋转,因此需要预测出世界坐标系下根的位置,从而能够重建出世界坐标系下的运动,脚接触标签是为了处理脚步滑动伪影,设定地面位置为T帧图像中脚部位置距离图片底部最低的20%的均值,因为一般都假定人处于图像的中间;

ES:编码器,对输入的2D姿态信息进行处理,只需要预测出一组骨长;

D:鉴别器,判断EQ预测的旋转是否是真实的,由于逆运动学中存在的固有的模糊性,因此产生的旋转和速度可能是不自然的,这可能导致将此旋转信息用到骨架上会导致扭曲。求导操作是因为直接应用于旋转的损失可能不会收敛,而且数据集中不同样本的T-poses未对齐,两个相似的姿势可能由不同的旋转表示(初始位置不同,最终位置相同);

FK:根据旋转信息对T-pose进行旋转操作,下图可以解释FK的过程,其中q表示四元数。

论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》,论文阅读,笔记,3d

下面讲解FLEX的网络架构

论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》,论文阅读,笔记,3d

下面只对FLEX对MotioNet有改变的地方做一些介绍,主要是加了FQ和FS两个融合层。

输入有所改变,使用K个视角的视频经过2D姿态估计而来的2D姿态序列;

FQ:多视角卷积层+多头注意力机制,其中多视角卷积层是为了能够感知来自多个视角和多个帧的特征,

FS:仅有多头注意力机制

EQ:此时预测的根位置就要针对不同的视角分别预测出对应视角的根位置及其旋转信息。

3.实验

论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》,论文阅读,笔记,3d

上图是在数据集Human3.6M下的结果,评测标准为MPJPE(Mean Per Joint Position Error,平均关节位置),可以看出多视图的方法普遍优于单视图的方法。

论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》,论文阅读,笔记,3d

上图是在数据集Ski-Pose PTZ-Camera数据集下的结果,相机参数均为给出,前两种方法使用的相机参数通过参数估计而给出。

论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》,论文阅读,笔记,3d

上图是比较平滑度,根据平均加速度来评价,越小越好

论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》,论文阅读,笔记,3d论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》,论文阅读,笔记,3d

消融实验,验证判断注意力的影响,   上图为了验证视角数量的影响和使用

其中TE:Transformer Encoder,       2D姿态检测与使用GT之间的区别

MHA:Multi-head Encoder,

L:堆叠层数,

h:注意力头的数量文章来源地址https://www.toymoban.com/news/detail-764059.html

到了这里,关于论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PointMixer论文阅读笔记

    MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set

    2024年02月19日
    浏览(34)
  • GAN 论文阅读笔记(6)

    原论文:MyStyle++: A Controllable Personalized Generative Prior 发表于:CVPR2023 注:本篇论文为 《MyStyle: A Personalized Generative Prior》 的改进,当遇到不理解的地方可以参照前一篇阅读笔记 图 1:MyStyle++ 在图像合成,编辑和增强上的表现 1:MyStyle MyStyle 是一种 GAN 模型的改进模型。其打算

    2024年01月18日
    浏览(45)
  • 论文阅读笔记(一)

    发表年份: 2016 主要贡献: 提出了Multimodal Opinion-level Sentiment Intensity (MOSI) 数据集 提出了多模态情绪分析未来研究的基线 提出了一种新的多模态融合方式 在这些在线意见视频中研究情绪主要面临的挑战和解决方法: 挑战 解决方法 这些视频的不稳定性和快节奏性。演讲者经

    2023年04月09日
    浏览(45)
  • GPT-3 论文阅读笔记

    GPT-3模型出自论文《Language Models are Few-Shot Learners》是OpenAI在2020年5月发布的。 论文摘要翻译 :最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调(fine-tuning),在许多NLP任务和基准测试上取得了实质性的进展。虽然这种方法在架构上通常与任务无关,但它

    2024年02月12日
    浏览(39)
  • InstructGPT 论文阅读笔记

    目录 简介 数据集                                 详细实现 实验结果 参考资料 InstructGPT 模型是在论文《Training language models to follow instructions with human feedback》被提出的,OpenAI在2022年1月发布了这篇文章。 论文摘要翻译 :把语言模型做得更大并不意味着让它们更好的遵循

    2024年02月01日
    浏览(54)
  • LIME论文阅读笔记

    这是暗图增强领域一篇经典的传统方法论文,发表在TIP这个顶刊 文章基于的是这样一个公式: L = R ⋅ T L=Rcdot T L = R ⋅ T 其中, L L L 是暗图, R R R 是反射分量, T T T 是illumination map,并且对于彩色图像来说,三通道都共享相同的illumination map。我们可以使用各种方法估计 T

    2024年02月09日
    浏览(42)
  • Retinexformer 论文阅读笔记

    清华大学、维尔兹堡大学和苏黎世联邦理工学院在ICCV2023的一篇transformer做暗图增强的工作,开源。 文章认为,Retinex的 I = R ⊙ L I=Rodot L I = R ⊙ L 假设干净的R和L,但实际上由于噪声,并不干净,所以分别为L和R添加干扰项,把公式改成如下: 本文采用先预测 L ‾ overline L

    2024年01月21日
    浏览(44)
  • 论文阅读笔记2:NetVLAD

    题目:NetVLAD: CNN Architecture for Weakly Supervised Place Recognition:、 团队: PSL Research University/Tokyo Institute of Technology 解决的问题: 我们解决了大规模视觉位置识别的问题,其任务是快速准确地识别给定查询照片的位置 创新点: 这篇文章主要有3个创新点: 1. 为场景识别任务构造出

    2024年02月11日
    浏览(40)
  • 论文阅读笔记整理(持续更新)

    FAST 2021 Paper 泛读笔记 针对LSM树同时优化读写性能的问题,现有方法通过压缩提升读性能,但会导致读放大或写放大。作者利用新存储硬件的性能,随机读和顺序读性能相近,因此提出构建逻辑排序视图优化范围查询,因为减少了真正的压缩操作,同时减少了写放大。 ATC 2

    2024年01月23日
    浏览(44)
  • 3D卷积网络论文阅读笔记

    数据集 BraTS 2020 数据增强方法 • Flipping翻转: 以1/3的概率随机沿着三个轴之一翻转 • Rotation旋转: 从限定范围(0到 15◦或到30◦或到60◦或到90◦)的均匀分布中随机选择角度旋转 • Scale缩放: 通过从范围为±10%或为±20%的均匀分布中随机选择的因子,对每个轴进行缩放 • Br

    2023年04月10日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包