【Paper Reading】CenterNet:Keypoint Triplets for Object Detection

这篇具有很好参考价值的文章主要介绍了【Paper Reading】CenterNet:Keypoint Triplets for Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景

首先是借鉴Corner Net 表述了一下基于Anchor方法的不足:

  1. anchor的大小/比例需要人工来确认
  2. anchor并没有完全和gt的bbox对齐,不利于分类任务。

但是CornerNet也有自己的缺点

  1. CornerNet 只预测了top-left和bottom-right 两个点,并没有关注整体的信息,因此缺少一些全局的信息
  2. 上述的点导致它对边界过于敏感,经常会预测一些错误的bbox。

为了解决该问题,作者提出了Triplet的关键点预测。他follow了top-left和bottom-right的预测,此外增加了中心点的预测。
具体来说,为了使得中心点的预测更加准确,作者提出了Center Pooling的层用来在水平和垂直两个维度进行特征的聚合。使得每个位置的点都可以尽可能的感知到全局的信息。
此外,作者还提出了cascade corner pooling layer来取代原有的corner pooling layer。

作者也从指标的角度量化了上面提到的CornerNet比较容易出现False Positive的情况,如下图所示。作者展示了在不同IoU阈值下 False Discovery Rate。注意这里为什么没有用mAP,mAP是否有缺点?

  1. 框的增加,在recall不变的情况下,precision的下降不会导致mAP的下降。=>因此需要关注PR曲线的分数
  2. mAP是分类别计算的,每个类别都是按照分数排序来计算的,说明每个类别的分数阈值可能会不同,不能用同一个阈值在适应不同的类别。
    【Paper Reading】CenterNet:Keypoint Triplets for Object Detection,论文阅读,深度学习,目标检测,CenterNet,CornerNet

方法

CenterNet的网络结构如下图所示
【Paper Reading】CenterNet:Keypoint Triplets for Object Detection,论文阅读,深度学习,目标检测,CenterNet,CornerNet
整个网络的推理流程如下所示:

  1. 选择top-k个中心点根据他们的分数
  2. 根据对应的offset将其还原到对应的输入图像中
  3. 根据tl-br构成的bbox,判断每个bbox内部的中心区域是否包括上述的中心点。
    3.1 N个tl的点和N个br 的点,组合形成N*N个bbox
    3.2 如果tl和br的embedding相似度小于阈值,则将对应的bbox剔除,否则保留。
  4. 如果中心点在bbox中,则用三者分数(tl、br和center)的平均来表示bbox的置信度。

那么这里涉及到一个问题,那就是如何计算每个bbox的中心区域。作者这里认为大的bbox应该使用小的中心区域,避免precision过低。小的bbox应该使用大的中心区域,避免recall过低。因此这里作者提出了scale-aware的中心区域计算方法,详情如下所示,其中针对大物体,n选择5,针对小物体,n选择3。
【Paper Reading】CenterNet:Keypoint Triplets for Object Detection,论文阅读,深度学习,目标检测,CenterNet,CornerNet
【Paper Reading】CenterNet:Keypoint Triplets for Object Detection,论文阅读,深度学习,目标检测,CenterNet,CornerNet
上述介绍了推理的整体流程,那么我们在从内部逐步解析一下关键的结构,我们分别从center pooling、cascade corner pooling和loss来进行介绍。

center pooling

center pooling的示意图如下图所示。具体来说就是针对每个位置,我们计算其水平和垂直方向的max response,然后想加得到该位置的表征,我们认为这样的表征是包括了全局信息。简化版本的计算如下所示,其中 f , f 3 ∈ R H × W × C f,f_3 \in R^{H \times W \times C} f,f3RH×W×C

f1 = np.max(f, axis=0)
f2 = np.max(f, axis=1)
f3 = f1[None, :, :] + f2[:, None, :]

【Paper Reading】CenterNet:Keypoint Triplets for Object Detection,论文阅读,深度学习,目标检测,CenterNet,CornerNet

cascaded corner pooling

示意图如下所示
【Paper Reading】CenterNet:Keypoint Triplets for Object Detection,论文阅读,深度学习,目标检测,CenterNet,CornerNet

loss

损失函数的定义如下所示。整体上分为三大部分。

  • L d e t c o 、 L d e t c e L_{det}^{co}、L_{det}^{ce} LdetcoLdetce表示的corner 和 center两个heatmap组成的loss,这里采用的是focal loss。

  • L p u l l c o 、 L p u s h c o L_{pull}^{co}、L_{push}^{co} LpullcoLpushco是让属于同一个物体的corner embedding尽可能相似,属于不同物体的embedding尽可能远离。

  • L o f f c o 、 L o f f c e L_{off}^{co}、L_{off}^{ce} LoffcoLoffce 表示预测corner 和 center在原图上的offset,这里采用的是l1-loss。
    【Paper Reading】CenterNet:Keypoint Triplets for Object Detection,论文阅读,深度学习,目标检测,CenterNet,CornerNet

  • QA1:GT是如何计算的?文章来源地址https://www.toymoban.com/news/detail-631019.html

到了这里,关于【Paper Reading】CenterNet:Keypoint Triplets for Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 解读 Centralized Feature Pyramid for Object Detection

    视觉特征金字塔在广泛的应用中显示出其有效性和效率的优越性。 然而,现有的方法过分地 集中于层间特征交互,而忽略了层内特征规则 ,这是经验证明是有益的。 尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任

    2024年02月04日
    浏览(37)
  • Centralized Feature Pyramid for Object Detection解读

    主流的特征金字塔集中于层间特征交互,而 忽略了层内特征规则 。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任务非常重要的被忽略的角点区域。 提出了一种基于全局显式集中式特征规则的中心化特征金字塔(

    2024年02月05日
    浏览(39)
  • 遥感目标检测(3)-DAL(Dynamic Anchor Learning for Object Detection)

    目录 一、概述 二、背景 三、建议 1、旋转RetinaNet 2、动态锚框分布 3、匹配敏感损失  四、实验         由于选择正样本锚框进行回归,不一定能够定位真实的GT,而部分负样本回归甚至可以回归到真实的GT,说明相当多的负样本锚框有着准确定位的能力,这说明IoU进行回归

    2024年02月16日
    浏览(44)
  • 论文阅读 The Power of Tiling for Small Object Detection

    Abstract 基于深度神经网络的技术在目标检测和分类方面表现出色。但这些网络在适应移动平台时可能会降低准确性,因为图像分辨率的增加使问题变得更加困难。在低功耗移动设备上实现实时小物体检测一直是监控应用的基本问题之一。在本研究中,我们解决了在高分辨率微

    2024年02月11日
    浏览(42)
  • 图像 检测 - RetinaNet: Focal Loss for Dense Object Detection (arXiv 2018)

    声明:此翻译仅为个人学习记录 文章信息 标题: RetinaNet: Focal Loss for Dense Object Detection (arXiv 2018) 作者: Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár 文章链接:https://arxiv.org/pdf/1708.02002.pdf 文章代码:https://github.com/facebookresearch/Detectron (推荐:亦可参考 图像 处理 - 开

    2024年02月14日
    浏览(35)
  • 论文阅读:CenterFormer: Center-based Transformer for 3D Object Detection

    目录 概要 Motivation 整体架构流程 技术细节 Multi-scale Center Proposal Network Multi-scale Center Transformer Decoder Multi-frame CenterFormer 小结 论文地址: [2209.05588] CenterFormer: Center-based Transformer for 3D Object Detection (arxiv.org) 代码地址: GitHub - TuSimple/centerformer: Implementation for CenterFormer: Center-base

    2024年02月07日
    浏览(41)
  • 论文笔记 - :DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

    Title: 深入研究单目 3D 物体检测的 输出表示 单目 3D 对象检测旨在从单个图像中识别和定位 3D 空间中的对象。最近的研究取得了显着的进展,而所有这些研究都遵循基于 LiDAR 的 3D 检测中的典型输出表示。 然而,在本文中,我们认为现有的离散输出表示不适合单目 3D 检测。具

    2024年04月09日
    浏览(41)
  • 论文阅读 (88):Adversarial Examples for Semantic Segmentation and Object Detection

    题目 :用于语义分割和目标检测的对抗样本 核心点 :将对抗性样本的概念扩展到语义分割和对象检测,并提出 稠密对抗生成算法 (Dense adversary generation, DAG)。 引用 : 令 X mathbf{X} X 表示包含 N N N 个识别目标 T = { t 1 , t 2 , … , t N } mathcal{T}={t_1,t_2,dots,t_N} T = { t 1 ​ , t 2 ​

    2024年02月01日
    浏览(54)
  • 论文阅读——Large Selective Kernel Network for Remote Sensing Object Detection

    期刊 CVPR 年份 2023 论文地址 https://arxiv.org/pdf/2303.09030.pdf 代码地址 https://github.com/zcablii/LSKNet 遥感目标检测的大选择核网络 相对较少的工作考虑到强大的先验知识存在于遥感图像。航空图像通常是用高分辨率的鸟瞰图拍摄的。特别是,航拍图像中的大多数物体可能体积较小,

    2024年02月08日
    浏览(47)
  • 详解3D物体检测模型:Focal Sparse Convolutional Networks for 3D Object Detection

    用于3D目标检测的焦点稀疏卷积神经网络【CVPR2022】【3D检测】 本文介绍一篇新的 3D 物体检测模型: Focals Conv ,论文收录于 CVPR2022 。在 3D 检测任务中,点云或体素数据 不均匀地 分布在3维空间中, 不同位置的数据对物体检测的贡献是不同的 。然而目前主流的 3D 检测网络(

    2023年04月08日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包