Human Pose Regression with Residual Log-likelihood Estimation

这篇具有很好参考价值的文章主要介绍了Human Pose Regression with Residual Log-likelihood Estimation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Abstract   

        通过似然热图对输出分布进行建模的基于热图的方法在人体姿态估计领域占据主导地位。相比之下,基于回归的方法更有效,但效果较差。 在这项工作中,我们探索了最大似然估计(MLE),以开发一种高效有效的基于回归的方法。从MLE的角度来看,采用不同的回归损失是对输出密度函数做出不同的假设。密度函数越接近真实分布,回归性能越好。有鉴于此,我们提出了一种新的残差对数似然回归范式估计(RLE),以捕获潜在的输出分布。具体来说,RLE学习分布的变化而不是未引用的底层分布,以促进训练过程。通过所提出的重新参数化设计,我们的方法与现成的流动模型兼容。所提出的方法是有效的、高效的和灵活的。我们通过综合实验展示了它在各种人体姿态估计任务中的潜力。与传统的回归范式相比,RLE回归在没有任何测试时间开销的情况下,使MSCOCO提高了12.4mAP。此外,我们的回归方法首次优于基于热图的方法,尤其是在多人姿态估计方面。我们的代码可在https://github.com/Jeff-sjtu/resloglikelihood-regression

1. Introduction

        人体姿态估计在计算机视觉领域得到了广泛的研究[23,24,1,32,21]。最近,随着深度卷积神经网络的发展,已经取得了重大进展。现有的方法可分为两类:基于热图的[60,59,65,4,67,57,49,55]和基于回归的[61,5,56,73,45,64]。这些方法展示了绘制每个关节的热图,并使用argmax[59,67,49]或软argmax[43,34,57]操作将关节定位为点的可能性。尽管具有优异的性能,但基于热图的方法仍存在较高的计算和存储需求。将热图扩展到3D或4D(空间+时间)将是昂贵的。此外,很难用现代单阶段方法部署热图

        基于回归的方法直接将输入映射到输出关节坐标,这对于各种人体姿态估计任务和实时应用来说是灵活高效的,尤其是在终端设备上。标准热图头(3个去卷积层)的成本为ResNet-50主干的1.4×FLOP,而回归头的成本仅为相同主干的1/20000 FLOP。然而,回归表现不佳。在具有挑战性的情况下,如遮挡、运动模糊和截断,基本事实标签本质上是模糊的。基于热图的方法对于
通过利用可能性热图来消除这些模糊性。但目前的回归方法很容易受到这些嘈杂标签的影响。

……介绍省略

3. Method

        在这项工作中,我们的目标是将基于回归的方法的性能提高到基于热图的方法的竞争水平。与基于热图的方法相比,基于回归的方法有很多优点:i)摆脱了高分辨率热图,并且具有较低的计算和存储复杂性。ii)它具有连续输出,不存在量化问题。iii)它可以以最小的成本扩展到各种场景(例如,单阶段方法、基于视频的方法、3D场景)。然而,现有的基于回归的方法性能较差,这是致命的,并限制了其广泛使用。

        在本节中,在介绍我们的解决方案之前,我们首先从§3.1中的最大似然估计的角度回顾了回归的一般公式。然后,在§3.2中,我们提出了残差对数似然估计(RLE),这是一种利用归一化流来捕获潜在的残差对数似然函数并促进人体姿态回归的方法。最后,§3.3中提供了必要的实施细节。

3.1. General Formulation of Regression

        标准的回归范式是将L1或L2损失应用于回归输出Human Pose Regression with Residual Log-likelihood Estimation。损失函数是根据经验,为不同的任务选择的。在这里,我们从最大似然估计的角度来回顾回归问题。给定输入图像Human Pose Regression with Residual Log-likelihood Estimation,回归模型预测分布Human Pose Regression with Residual Log-likelihood Estimation,该分布指示gt真值出现在位置x的概率,其中θ表示可学习的模型参数。
由于标签中固有的模糊性,标记位置Human Pose Regression with Residual Log-likelihood Estimation是标注人员人为标注的真值附近的结果。学习过程是优化模型参数θ,使观察到的标签Human Pose Regression with Residual Log-likelihood Estimation最有可能出现。因此,损失函数该最大似然估计(MLE)过程的最大似然估计被定义为:

 Human Pose Regression with Residual Log-likelihood Estimation

         在这个公式中,不同的回归损失本质上是输出概率分布的不同假设。例如,在物体检测[18,29,28]和密集对应[40]的一些工作中,假设密度是高斯分布。该模型需要预测两个值,Human Pose Regression with Residual Log-likelihood Estimation,以构建密度函数Human Pose Regression with Residual Log-likelihood Estimation。为了最大化观察到的标签Human Pose Regression with Residual Log-likelihood Estimation的可能性,损失函数变为:

Human Pose Regression with Residual Log-likelihood Estimation

         如果我们假设密度函数具有常数方差,即Human Pose Regression with Residual Log-likelihood Estimation是常数,则损失函数退化为标准的L2损耗:Human Pose Regression with Residual Log-likelihood Estimation此外,如果我们假设密度遵循具有恒定方差的拉普拉斯分布,则损失函数成为标准的L1损失”。在推理阶段,Human Pose Regression with Residual Log-likelihood Estimation用于控制分布位置的值,用作回归输出。

         从这个角度来看,损失函数取决于分布Human Pose Regression with Residual Log-likelihood Estimation的形状。因此,更精确的密度函数可以产生更好的结果。然而,由于潜在分布的分析表达式是未知的,该模型不能简单地回归几个值来构建密度函数,如方程2。为了估计潜在分布并促进人体姿势回归,在下一节中,我们通过利用归一化流提出了一种新的回归范式。

 3.2. Regression with Normalizing Flows

        在本小节中,我们介绍了所提出的范式的三种变体,它们利用归一化流进行回归(见图2)。

 Basic Design.

         所提出的具有归一化流的回归范式的基本设计如图所示。

Human Pose Regression with Residual Log-likelihood Estimation

        第2(a)段。这里,归一化流[52,11,26,46,25]学习 通过可逆映射变换简单分布来构造复杂分布。我们考虑随机变量z上的分布Human Pose Regression with Residual Log-likelihood Estimation作为初始密度函数。它是由回归模型Θ的输出Human Pose Regression with Residual Log-likelihood Estimation定义的。为了简单起见,我们假设Human Pose Regression with Residual Log-likelihood Estimation即高斯分布。一个光滑且可逆的映射Human Pose Regression with Residual Log-likelihood Estimation将z变换为x,即Human Pose Regression with Residual Log-likelihood Estimation,其中φ是流模型的可学习参数。

         变换后的变量x遵循另一个分布Human Pose Regression with Residual Log-likelihood Estimation。概率密度函数Human Pose Regression with Residual Log-likelihood Estimation取决于回归模型θ和流量模型fφ,可以计算为:

Human Pose Regression with Residual Log-likelihood Estimation

        其中Human Pose Regression with Residual Log-likelihood Estimation是的倒数,Human Pose Regression with Residual Log-likelihood Estimation。这样,给定任意x,可以通过方程3通过反向计算z来估计相应的对数概率。此外,Human Pose Regression with Residual Log-likelihood Estimation是可学习的,并且只要Human Pose Regression with Residual Log-likelihood Estimation足够复杂,就可以拟合任意分布。在实践中,我们可以通过组合多个简单的映射来成功的表达一个复杂的函数,即Human Pose Regression with Residual Log-likelihood Estimation

        对学习的分布Human Pose Regression with Residual Log-likelihood Estimation执行最大似然过程。因此,损失函数公式化为:

 Human Pose Regression with Residual Log-likelihood Estimation

        请注意,潜在的最优分布Human Pose Regression with Residual Log-likelihood Estimation是未知的。流模型通过最大化标记位置的可能性以无监督的方式学习。例如,具有挑战性的情况(例如,cclusions),对于标注者的标签偏差较大的,预测的分布应该具有较大的方差,以最大化对数概率。 

 Reparameterization.

         虽然基本设计看起来合理,但在实践中并不可行。Human Pose Regression with Residual Log-likelihood Estimation的学习,依赖于损失函数中的Human Pose Regression with Residual Log-likelihood Estimation。因此,φ将学会跨越所有图像拟合Human Pose Regression with Residual Log-likelihood Estimation(真值)的分布。然而,我们想要了解的分布是关于输出如何偏离于输入图像的真值条件,而不是真值本身在所有图像中的分布。

         在这里,为了使我们的回归框架可行并与现成的流模型兼容,我们进一步设计了具有重新参数化策略的回归范式。新的范例如图2(b)所示。我们假设所有潜在分布共享相同的密度函数族,但在输入Human Pose Regression with Residual Log-likelihood Estimation上具有不同的均值和方差条件。首先,利用流量模型fφ来映射零均值初始分布Human Pose Regression with Residual Log-likelihood EstimationHuman Pose Regression with Residual Log-likelihood Estimation到零平均变形分布Human Pose Regression with Residual Log-likelihood Estimation。然后,回归模型Θ预测两个值,Human Pose Regression with Residual Log-likelihood Estimation,以控制分布的位置和规模。通过将x移动和重新缩放到Human Pose Regression with Residual Log-likelihood Estimation来获得最终分布Human Pose Regression with Residual Log-likelihood Estimation,其中Human Pose Regression with Residual Log-likelihood Estimation

         因此,具有重新参数化的损失函数可以写成:Human Pose Regression with Residual Log-likelihood Estimation

         式中,Human Pose Regression with Residual Log-likelihood Estimation通过重新参数化设计,现在流量模型可以专注于学习Human Pose Regression with Residual Log-likelihood Estimation的分布,这反映了输出与真值的偏差。

Residual Log-likelihood Estimation. 

残差对数似然估计。在重新参数化之后,可以以端到端的方式训练回归框架。根据损失函数中的项Human Pose Regression with Residual Log-likelihood Estimation,回归值的训练Human Pose Regression with Residual Log-likelihood Estimation和流量模型Human Pose Regression with Residual Log-likelihood Estimation耦合在一起(等式5)。然而,这两个模型之间存在着复杂的依赖关系。回归模型的训练完全依赖于流量模型Human Pose Regression with Residual Log-likelihood Estimation估计的分布。在训练的初始阶段,分布的形状远远不正确,这增加了训练回归模型的难度,并可能降低模型的性能。

        为了便于训练过程,我们开发了一种gradient shortcut来减少这两个模型之间的依赖性。形式上,由流动模型Human Pose Regression with Residual Log-likelihood Estimation估计的分布试图拟合最优的基本分布Human Pose Regression with Residual Log-likelihood Estimation,它可以分为三项:

 Human Pose Regression with Residual Log-likelihood Estimation

         其中,项Q(x)可以是一个简单的分布,例如高斯分布Human Pose Regression with Residual Log-likelihood EstimationHuman Pose Regression with Residual Log-likelihood Estimation是我们所说的残差对数似然,常数s是为了确保残差项是一个分布。我们假设Human Pose Regression with Residual Log-likelihood Estimation可以大致匹配基本分布,但不能完全匹配。剩余对数似然是为了补偿差异。因此,我们以与等式6相同的方式划分Human Pose Regression with Residual Log-likelihood Estimation的对数概率:

 Human Pose Regression with Residual Log-likelihood Estimation

         其中Human Pose Regression with Residual Log-likelihood Estimation是通过流模型学习的分布。Human Pose Regression with Residual Log-likelihood Estimation的值可以用Human Pose Regression with Residual Log-likelihood Estimation来近似。s的推导见补充文件。

         通过这种方式,Gφ(x)将试图拟合潜在的残差似然Human Pose Regression with Residual Log-likelihood Estimation,而不是学习整个分布。最后,结合重新参数化设计(等式5)和残差对数似然估计(等式7),总损失函数可以定义为:

 Human Pose Regression with Residual Log-likelihood Estimation

 这个过程如图所示。在训练过程中,来自Human Pose Regression with Residual Log-likelihood Estimation的反向传播梯度不依赖于流模型,这加速了回归模型的训练。此外,正如ResNet[16]的假设,优化残差映射比优化原始未引用映射更容易。

        在极端情况下,如果预设近似Human Pose Regression with Residual Log-likelihood Estimation是最优的,那么将残差对数概率推至零比通过fφ中的可逆映射堆栈拟合恒等映射更容易。残差对数似然估计的有效性在§4.1中得到验证 

3.3. Implementation Details 

        在训练阶段,以端到端的方式同时优化回归模型和流模型。我们将标准回归损失L1和L2替换为所提出的残差对数似然估计损失Human Pose Regression with Residual Log-likelihood Estimation。默认初始密度设置为拉普拉斯分布。在测试阶段,预测的平均值Human Pose Regression with Residual Log-likelihood Estimation作为回归输出。因此,在推理过程中不需要运行流模型。这一特性使得所提出的方法灵活且易于应用于各种回归算法,而没有任何测试时间开销。此外,预测置信度可以从Human Pose Regression with Residual Log-likelihood Estimation

 Human Pose Regression with Residual Log-likelihood Estimation

其中,Human Pose Regression with Residual Log-likelihood Estimation是第i个关节的学习偏差,K表示关节的总数。用sigmoid型函数预测偏差Human Pose Regression with Residual Log-likelihood Estimation。因此,我们有Human Pose Regression with Residual Log-likelihood EstimationHuman Pose Regression with Residual Log-likelihood Estimation

Flow Model. 

 所提出的回归范式对流量模型是不可知的。因此,可以应用各种现成的流量模型[52,11,26,46,25]。在实验中,我们采用RealNVP[11]进行快速训练。我们将具有Nn个神经元的Lfc完全连接层的可逆函数表示为Lfc×Nn。默认情况下,我们设置Lfc=3和Nn=64。流模型是轻量级的,几乎不会影响训练速度。补充文件(§A)中提供了流模型体系结构和更多细节。

Task

所提出的回归范式是通用的,可以用于各种人体姿态估计任务。在实验中,我们在五项任务中的七种不同算法上验证了所提出的回归范式:单人2D姿势估计、自上而下的2D姿势估计和一阶段
2D姿态估计、单阶段3D姿态估计和两阶段3D姿态评估。§4和§5提供了详细的培训设置。补充文件中提供了关于单人2D姿势估计的实验。文章来源地址https://www.toymoban.com/news/detail-426217.html

到了这里,关于Human Pose Regression with Residual Log-likelihood Estimation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于人体姿势估计的舞蹈检测(AI Dance based on Human Pose Estimation)

    人体姿势骨架以图形格式表示人的方向。本质上,它是一组坐标,可以连接起来描述人的姿势。骨架中的每个坐标都被称为一个部分(或一个关节,或一个关键点)。两个部分之间的有效连接称为一对(或分支)。下面是一个人体姿势骨架样本。 因此,在本文中,我们将研究如何

    2024年02月11日
    浏览(41)
  • Self-supervised 3D Human Pose Estimation from a Single Image

    基于单幅图像的自监督三维人体姿态估计   主页: https://josesosajs.github.io/ imagepose/ 源码:未开源 我们提出了一种新的自我监督的方法预测三维人体姿势从一个单一的图像。预测网络是从描绘处于典型姿势的人的未标记图像的数据集和一组未配对的2D姿势训练的。通过最小化

    2024年02月10日
    浏览(42)
  • LGFormer:LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION

    基于视频的三维人体姿态估计的局部到全局Transformer 作者:马海峰 *,陆克 * †,薛健 *,牛泽海 *,高鹏程† *            中国科学院大学工程学院,北京100049             鹏程实验室,深圳518055 来源:2022 IEEE International Conference on Multimedia and Expo (IEEE ICME) 基于Transformer的

    2024年02月09日
    浏览(44)
  • 论文阅读:《Deep Learning-Based Human Pose Estimation: A Survey》——Part 1:2D HPE

    目录 人体姿态识别概述 论文框架 HPE分类 人体建模模型 二维单人姿态估计 回归方法 目前发展 优化 基于热图的方法 基于CNN的几个网络 利用身体结构信息提供构建HPE网络 视频序列中的人体姿态估计 2D多人姿态识别 方法 自上而下 自下而上 2D HPE 总结 数据集和评估指标 2D HP

    2024年02月20日
    浏览(46)
  • 论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》

     目录 一、总述 1. 要解决的问题 2. 使用的方法 3. 取得的成果 二、摘要 三、介绍 四、相关工作 五、高分辨率网络 1. HigherHRNet i. HRNet ii. HigherHRNet 2. 分组 3. 反卷积模块 4. 多分辨率监督 5. 热图聚合策略 六、实验 1. COCO数据集关键点预测 2. 消融实验 3. CrowdPose 七、结论      

    2024年04月12日
    浏览(48)
  • 论文复现--lightweight-human-pose-estimation-3d-demo.pytorch(单视角多人3D实时动作捕捉DEMO)

    分类:动作捕捉 github地址:https://github.com/Daniil-Osokin/lightweight-human-pose-estimation-3d-demo.pytorch 所需环境: Windows10,conda 4.13.0; 安装成功 将这tensorRT的三个文件夹复制到CUDA下( 记得复制之前CUDA的原始三个文件夹做好副本 注意路径 ) 很奇怪 我的convert_to_trt.py没法找到上级目录中

    2024年02月10日
    浏览(46)
  • 【论文阅读笔记】Attack-Resistant Federated Learning with Residual-based Reweighting

    个人阅读笔记,如有错误欢迎指出 Arxiv 2019        [1912.11464] Attack-Resistant Federated Learning with Residual-based Reweighting (arxiv.org) 问题:         联邦学习容易受到后门攻击 创新:         提出一种基于残差的重新加权聚合算法         聚合算法将重复中值回归和加权

    2024年02月15日
    浏览(44)
  • Linear Regression in mojo with NDBuffer

    The linear regression is the simplest machine learning algorithm. In this article I will use mojo NDBuffer to implement a simple linear regression algorithm from scratch. I will use NDArray class which was developed by in the previous article. First import the necessary libs and NDArray definition: Let’s assume we want to figure out this function: y = W ⋅

    2024年02月07日
    浏览(55)
  • 论文阅读 - Learning Human Interactions with the Influence Model

    NIPS\\\'01 早期模型 要求知识背景: 似然函数,极大似然估计、HMM、期望最大化 目录 1 Introduction 2 The Facilitator Room 3 T h e I n f l u e n c e M o d e l 3 . 1 ( R e ) i n t r o d u c i n g t h e I n f l u e n c e M o d e l 3 . 2 L e a r n i n g f o r t h e I n f l u e n c e M o d e l 3. 2. 1 期望——影响力最大化模型 3

    2024年02月07日
    浏览(46)
  • Aligning Large Language Models with Human: A Survey

    本文也是LLM相关的综述文章,针对《Aligning Large Language Models with Human: A Survey》的翻译。 在大量文本语料库上训练的大型语言模型(LLM)已成为一系列自然语言处理(NLP)任务的领先解决方案。尽管这些模型具有显著的性能,但它们容易受到某些限制,如误解人类指令、生成潜

    2024年02月14日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包