Learning to Detect Human-Object Interactions 文章解读

这篇具有很好参考价值的文章主要介绍了Learning to Detect Human-Object Interactions 文章解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Learning to Detect Human-Object Interactions,WACV,2018

论文下载
code:http://www.umich.edu/∼ywchao/hico/

摘要

主要研究领域定义了HOI detection任务:在静态图像中检测人-对象交互(HOI)的问题,也就是给定一张图片,预测一个人和一个对象边界框并预测连接他们的交互类别。
主要工作:1)介绍了HICO-DET数据集,一个新的HOI检测基准,是将目前的HICO分类benchmark添加实例标注增强得到的。2)提出了Human-Object Region-based Convolutional Neural Networks (HO-RCNN).这个网络的核心是Interaction Pattern,这个交互模式表征了两个边界框之间的空间关系。

Introduction

目前HOI方法中存在的问题:在有限的HOI类别的小数据集上验证,比如有10个类别的PASCAL VOC数据集和有40个类别的Stanford 40 Actions数据集。并且这些数据集对于每个物体来说只提供有限种类的交互类别。导致没有办法识别一个算法是否真的能够识别交互,或者它是否只是简单地识别当前的物体。这个问题随着HICO(Humans interacting with Common Objects)数据集的提出得到解决,这个数据集是一个大型的数据集包含了600个HOI类别,超过了80个常见的物体类别并且每个对象类别具有不同的交互类别。但是HICO数据集只能用来HOI分类,也就是判断一个HOI类别是不是在图像中出现,并不能准确地定位图像中出现的交互作用及其对象。

定义HOI Detection:正式的,将HOI检测问题定义为预测一对边界框——首先是一个人,第二个是一个对象——并识别交互类别。

contributions:1)介绍了HICO-DET数据集,提供了超过150K个人-对象对的注释实例,跨越了HICO中的600个HOI类别,即每个HOI类别平均有250个实例。2)提出了Human-Object Region-based Convolutional Neural Networks (HO-RCNN).这个网络的核心是Interaction Pattern,这个交互模式表征了两个边界框之间的空间关系。

相关工作

HOI Recognition

Gupta和Malik [11]通过将交互的人和对象连接起来,并标记它们的语义角色,从而得到了增强后的MS-COCO数据集 [22]。Yatskar等人[36]提供了一个用于情况识别的图像数据集,定义为识别活动以及参与的对象及其角色。与HICO不同的是,这两个数据集都没有为每个对象类别提供不同的交互类集。

Object Detection

Sadeghi和Farhadi [31]提出了“视觉短语”,即将每一对相互作用的对象作为一个单元,并利用 object detectors来定位它们。HOI检测进一步扩展了检测中的“视觉短语”来定位每一对对象中的单个对象。

HO-RCNN

HO-RCNN是一个多流网络,它分两步检测HOIs。首先使用最先进的人和对象探测器生成人-物体区域对的proposals。然后,每对人-物体proposal被传递到ConvNet中以生成HOI分类分数。
Learning to Detect Human-Object Interactions 文章解读
整体架构:首先生成人-对象区域对的proposals。多流体系结构由三个流组成,分别为:1)human stream从被检测到的人类中提取局部特征。2)object stream从检测到的对象中提取局部特征。3)pairwise stream提取编码被检测到的人和对象之间的成对空间关系的特征。每个流的最后一层是一个二值分类器,它输出HOI的置信度分数。最终的置信度分数是通过将所有流中的分数相加而获得的。

人和对象分支:给定一个人-物体的proposal,首先使用边界框裁剪完整的输入图像,然后调整大小到固定的大小。然后将这个归一化的图像patch传递到一个卷积网络中提取特征,最后一层是大小为K的全连接层,其中K是感兴趣的HOI类的数量,每个输出对应于一个HOI类的置信度分数。

成对分支:给定一个人-对象proposal,成对流提取编码人和对象之间空间关系的特征,并为每个HOI类生成一个置信分数。在这不是直接将bbox的坐标输入DNN,而是提出了Interaction Patterns来输入DNN。
给定一对边界框,它的Interaction Patterns是一个有两个通道的二值图像:第一个通道中被第一个边界框包围的像素值为1,在其他地方的值为0;第二个通道中被第二个边界框包围的像素值为1,在其他地方的值为0。但有两个细节:1)Interaction Patterns应该具有平移不变性,因此,从交互模式中删除了“attention window注意窗口”之外的所有像素,即包围两个边界框的最紧密的窗口。这使得成对流只关注包含目标边界框的bbox,而忽略全局上下文。2)第二,Interaction Patterns的长宽比可能会随着注意窗口的不同而有所不同。这是有问题的,因为DNN需要固定大小(和长宽比)的输入。因此该文提出resize without/with padding zeros两种,这使得Interaction Patterns的大小标准化,同时保持注意窗口的长宽比。
Learning to Detect Human-Object Interactions 文章解读
训练:HO-RCNN生成HOI置信度分数。正如在[1]中提到的,一个人可以同时出现对目标对象执行不同类型的动作,例如,一个人可以同时“骑着”和“抱着”自行车。因此,HOI识别应该被视为一个多标签的分类问题。因此,该文通过对每个HOI类别的分类输出应用一个sigmod交叉熵损失来训练HO-RCNN。

构建HICO-DET数据集

对于每个图像,注释器都会有一个句子描述,比如“一个骑自行车的人”,并被要求继续进行以下三个步骤:
第一步:在每个人周围画一个边界框:第一步是在所描述的交互中涉及的每个人周围绘制边界框。
步骤2:在每个对象周围绘制一个边界框:第一步是在所描述的交互中涉及的每个对象周围绘制边界框。
步骤3:将每个人链接到对象:第一步是在所描述的交互中涉及的每个对象周围绘制边界框。请注意,如果一个人正在与多个对象交互,那么他可以链接到多个对象;如果一个对象与多个人交互,那么一个对象可以与多个人联系起来。
数据集的数据统计表如下:
Learning to Detect Human-Object Interactions 文章解读

实验

设置:人或者对象的bbox和ground truth之间的最小交并比大于0.5则算作TP样本。指标为mAP。测试了三个不同的HOI类别集的mAP:(a)在HICO中的所有600个HOI类别(完整),(b) 138个训练实例少于10个的HOI类别(Rare),和© 462个HOI类别有10个或更多的训练实例(非罕见)。还考虑了两种不同的评估设置: (1)已知对象Known Object设置:对于每个HOI类别,只在包含目标对象类别的检测上评估,这个时候的挑战就在于定位HoI并对交互进行分类。(2)默认值Default设置:对于每个HOI类别,在完整的测试集上评估检测结果,包括包含和不包含目标对象类别的图像。这是一个更具挑战性的环境还需要区分没有目标的图像。文章来源地址https://www.toymoban.com/news/detail-415593.html

到了这里,关于Learning to Detect Human-Object Interactions 文章解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [文章阅读] EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object ...

    CVPR 2022 论文链接 源代码:Github 1.1 论文试图解决什么问题?这是否是一个新的问题? 试图解决:基于PnPDE的单目物体位姿估计,需要获得图像中点的3D深度(通过深度网络之类的方法)以及2D-3D之间的关联,然后通过PnP求解得到物体位姿;而PnP本质上不可导,使得无法通过反

    2024年02月03日
    浏览(49)
  • 论文阅读-Training a Helpful and Harmless Assistant withReinforcement Learning from Human Feedback

    一、论文信息 论文名称: Training a Helpful and Harmless Assistant withReinforcement Learning from Human Feedback  Github:  GitHub - anthropics/hh-rlhf: Human preference data for \\\"Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback\\\" 作者团队: 发表时间: 2022年4月12日,比insturctgpt晚40天,比

    2024年02月10日
    浏览(51)
  • 【深度学习 video detect】Towards High Performance Video Object Detection for Mobiles

    尽管在桌面GPU上取得了视频目标检测的最近成功,但其架构对于移动设备来说仍然过于沉重。目前尚不清楚在非常有限的计算资源下,稀疏特征传播和多帧特征聚合的关键原则是否适用。在本文中,我们提出了一种适用于移动设备的轻量级视频目标检测网络架构。我们在稀疏

    2024年02月13日
    浏览(46)
  • 论文阅读:《Deep Learning-Based Human Pose Estimation: A Survey》——Part 1:2D HPE

    目录 人体姿态识别概述 论文框架 HPE分类 人体建模模型 二维单人姿态估计 回归方法 目前发展 优化 基于热图的方法 基于CNN的几个网络 利用身体结构信息提供构建HPE网络 视频序列中的人体姿态估计 2D多人姿态识别 方法 自上而下 自下而上 2D HPE 总结 数据集和评估指标 2D HP

    2024年02月20日
    浏览(47)
  • 动态SLAM论文(3) — Detect-SLAM: Making Object Detection and SLAM Mutually Beneficial

    目录 1 Introduction 2 Related Work 3 Detect-SLAM 3.1 移动物体去除 3.2 Mapping Objects 3.3 增强SLAM检测器 4 实验 4.1 动态环境下的鲁棒SLAM 4.2. 提升检测性能 5 结论 Abstract: 近年来,在SLAM和目标检测方面取得了显著进展,但仍存在一系列挑战,例如在动态环境中进行SLAM和在复杂环境中检测

    2024年02月12日
    浏览(38)
  • 论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》

     目录 一、总述 1. 要解决的问题 2. 使用的方法 3. 取得的成果 二、摘要 三、介绍 四、相关工作 五、高分辨率网络 1. HigherHRNet i. HRNet ii. HigherHRNet 2. 分组 3. 反卷积模块 4. 多分辨率监督 5. 热图聚合策略 六、实验 1. COCO数据集关键点预测 2. 消融实验 3. CrowdPose 七、结论      

    2024年04月12日
    浏览(49)
  • 【论文阅读】Learing to summarize from human feedback

    更多关于大模型的文章可见:ShiyuNee/Awesome-Large-Language-Models: Papers about large language models (github.com) 该仓库持续更新 通过训练模型来向着人类偏好优化可以显著提高摘要质量。 High-level methodology 从一个在摘要数据集上使用SFT微调好的初始模型开始,然后经过以下三个步骤: 从已

    2024年02月09日
    浏览(31)
  • End-to-end 3D Human Pose Estimation with Transformer

    基于Transformer的端到端三维人体姿态估计 基于Transformer的架构已经成为自然语言处理中的常见选择,并且现在正在计算机视觉任务中实现SOTA性能,例如图像分类,对象检测。然而,卷积方法在3D人体姿态估计的许多方法中仍然保持SOTA性能。受视觉变换器最近发展的启发,我们

    2024年02月08日
    浏览(65)
  • 解决Docker 启动失败问题,Docker Desktop is unable to detect a Hypervisor.

     1.确认是否开启Hyper-V win11:进入控制面板-程序-启用或关闭windows功能-勾选Hyper-V  2.如果找不到Hyper-V:windows自动隐藏了该功能,设置开启hyper-v。 桌面新建一个记事本文件,将它的后缀改成cmd或bat,复制下面的代码 然后,右键选择:以管理员身份运行。代码执行结束后,重

    2024年02月11日
    浏览(63)
  • 【论文阅读】InstructGPT: Training language models to follow instructions with human feedback

    论文链接:InstructGPT 🤗关注公众号 funNLPer 了解更多AI算法🤗 把语言模型变大并不意味着会让模型更好的理解用户意图,例如大的语言模型会生成一些不真实、有害的、没有帮助的输出给用户,换句话说,这些模型并没有和用户的意图对齐(aligned)。在这篇论文中我们展示了

    2023年04月19日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包