《Dense Distinct Query for End-to-End Object Detection》论文笔记(ing)

这篇具有很好参考价值的文章主要介绍了《Dense Distinct Query for End-to-End Object Detection》论文笔记(ing)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、motivation

作者这里认为传统个目标检测的anchor/anchorpoint其实跟detr中的query作用一样,可以看作query

(1)dense query:传统目标检测生成一堆密集anchor,但是one to many需要NMS去除重复框,无法end to end。

(2)spare query 在one2one:egDETR,100个qeury,数量太少造成稀疏监督,收敛慢召回率低。

(3)dense query在one2one:密集的query会有许多的相似的query,会导致相似的query却分配矛盾的label的情况,优化困难低效。

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

从下面的图(针对one2one)也可以观察【黑色的线,spare-RCNN】:

(1)从50-2000左右,随着query数量增多,AP增大 --> spare query数量太少导致稀疏监督,会影响召回率精度较低(可以看到spareRCNN里300个是不够的);即dense的重要性

(2)2000之后AP随query增大而停滞甚至下降 --> dense query的情况,相似的query很难优化。即distinct的重要性

【补充】相似的query难优化是因为在one2one的匹配中,一个GT对应一个pre,(以detr来说,100个query去学位置信息,decoder输出后要和N个GT去做 二分图匹配,那么就有N个query去分别对应N个GT,剩下的qeury就是no object)。那么在两个相似的query下,一个query对应GT,另一个query就有可能对应的是no object,二者label矛盾,影响优化。

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

二、innovation:

生成密集的但是不同的query.

三、网络

(一)COMPONENT

1)dense query:

直接从feature map的每一个点来初始化query(其实就是follow传统目标检测,在feature map上铺设一堆平移不变形的anchor)【用卷积/线性 & 滑动窗口】

2)distinct query:

用单类NMS去去除掉相似的query,后续只对保留下的query做loss,用来减轻一对一分配的负担,设置了比较激进的IOU threshold(0.7DDQ-FCN,DDQ-RCNN;0.8DDQ-DETR)

看到这突然在想,那不就是把NMS前置了来实现one2ine吗???但是这个非常妙的地方在于,实现end2end,因为在这里NMS是放到训练里来除掉相似query解决难优化问题的,训练与推理阶段一致,但是传统目标检测的one2many则是在训练结束后的推理阶段加上NMS。

3)loss:

1.二分图匹配来进行one to  one

2.辅助损失for dense(leaf query,对密集查询采用软一对多赋值,以允许密集梯度和更多正样本来加速训练??

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

(二)将DDQ放到不同范式【FCN、RCNN、DETR】

(1)DDQ in FCN

这里用FPN得到密集query的同时,作者认为密集query是逐卷积处理得到的,所以不同层的query之间缺少交互,所以提出了金字塔洗牌(参考shufflenet通道洗牌),i和i-1、i+1交换,不同大小的采用双线性插值。

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

1)dense query由FPN得到的不同尺度特征图以及通过滑窗得到dense

2)在cls和reg分支最后两个和一个卷积层做金字塔洗牌来融合不同level之间query的信息。

3)取top1000得到中间黄绿橘(这里取top1000是每个level都取1000?)

4)DDQ:用NMS去保证distinct,这个过程为DQS(dense distinct selection).

5)用DDQ做点积??

6)最后用二分图匹配 one2one

(2)DDQ in R-CNN

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

1)通过FCN DDQ找到的dense distinct query选取top300作为query【这里就是DQS】。

2)将cls和reg得到的融合为embedding(作为content的输入),然后和proposal一起构成query。

3)将上述query放入sparse-rcnn中的refine head做进一步细化。--> 只需要2stage的细化头,原先sparse要6stage,因为sparsercnn的稀疏查询不能覆盖所有实例,并且可能存在相似的query难区分所以迭代次数多。

(3)DDQ in detr

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

1)follow DINO-deformable(删掉CDN和mix qeury selection)得到dense query

2)content embedding和deformable不一样(DINO-deformable是通过变换后的四维坐标来的content embedding,但这样只有位置会导致query相似),这里采用个ddq-rcnn一样,把featuer的映射作为content/,使查询更不同;把feature map embedding特征融合到坐标中,让query更不同。

混合查询选择通过额外初始化内容嵌入来增加查询的不同性,但位置嵌入仍然是从top-k密集回归预测创建的,这些预测可能非常相似,仍然阻碍了优化。

3)用单类NMS来选取不同的query

4)蓝色框的DQS:为了和defomabledetr做对比,选取K个query,类似于定量对比吧。

5)选1.5Kquery来做辅助loss。

四、实验

1、

(1)DDQ FCN

【FCOS*表示用二分图匹配,此时实验结果很不稳定24.5-36.5,这里选了最优结果;PS金字塔洗牌,结果稳定且提点;DQS,说明查询的不同对一对一匹配的重要性;DDQ FCN还加了辅助损失】

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

(2)DDQ R-CNN

【sparsercnn是300query;+7000表示dense query稍微提点,可以看到F非常大,很繁重;+DQS显著提点,不同的重要性;DDQ R-CNN表示前四个refine stage follow FCN,得到了一个性能好且更轻量级的结构】

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

(3)DDQ DETR

【D-DETR,deformable;TStwosatge??初始化位置;+Dense?加了feature;AUX辅助训练;DQS不同的查询;DDQ DETR,加上了DINO的CDN即去噪训练】

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

在crowd上的效果

查一下mCR是啥

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

2、消融

(1)distinct的IOU:

【对于DDQ FCN/R-CNN】可以看到,0.6-0.8鲁棒性较好;0.5抑制太多了,召回率低,影响精度;大于0.8表示要很像才会被抑制,所以删的少了,有部分相似的没被抑制导致难优化精度下降。

还拿ATSS做对比,可以看到ATSS对于参数的敏感,相比之下DDQ更稳定。

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

对于DDQ DETR

(2)

sparse只有300个query明显低于7000&DQS的recall;

DDQRCNN的设计使的在较小的延迟下取得了和7000个查询相当的性能

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能



--- BASIC ---

1、NMS:详解目标检测NMS算法发展历程(收藏版) - 知乎 (zhihu.com)

如果IOU的threshold太小,会导致一些框被删掉(eg两个离得很近但对应不同物体的预测框,置信度较小的那个框可能会被删掉,导致召回率下降);如果太大最后留下来的框比较多,即可能有假阳的情况。

2、DeFCN(end2end)

这里再看一遍FOCS。

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

1)backbone提取图像特征,用FPN【这里FPN有两个作用1.不同尺度的特征融合;2.分而治之】得到不同尺度特征图,GT会根据匹配到对应尺度的特征图,可以达到在不同尺度特征图上对应不同大小的目标进行分而治之,即P3可能对应小目标,P7可能对应大目标;

2)放到不同的head中去做类分类(H*W*C,C对应总类别),centerness,回归:先两个cls和reg分支(x4),然后最后接三个分支的一层卷积,分别做分类、回归、cente rness。

3)上图回归出来的centerness是为了得到一个权重,用来抑制哪些离中心点偏远的低质量预测点。(如下图,橘色比绿色效果更好,所以一致绿色这些低质量点)

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

3.RetonaNet

感觉这里可以参考一下RwtinaNet,忽略前面FPN跟上面的FOCS-like不一样,但是分类和回归的子网络跟上面FCN很类似。

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

4、sparse RCNN

dense distinct query for end-to-end object detection,目标检测,论文阅读,人工智能

1)学习position:可学习proposal Boxes(N*4,N一般取100-300)

2)学习feature:可学习的proposal feature(N*d,d代表维度)

由上面的proposal Box和proposal feature得到ROI feature 去做分类和回归。文章来源地址https://www.toymoban.com/news/detail-822552.html

到了这里,关于《Dense Distinct Query for End-to-End Object Detection》论文笔记(ing)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • DETR-《End-to-End Object Detection with Transformers》论文精读笔记

    End-to-End Object Detection with Transformers 参考:跟着李沐学AI-DETR 论文精读【论文精读】 在摘要部分作者,主要说明了如下几点: DETR是一个端到端(end-to-end)框架,释放了传统基于CNN框架的一阶段(YOLO等)、二阶段(FasterRCNN等)目标检测器中需要大量的人工参与的步骤,例如:

    2024年02月11日
    浏览(52)
  • 【Paper Reading】DETR:End-to-End Object Detection with Transformers

    Transformer已经在NLP领域大展拳脚,逐步替代了LSTM/GRU等相关的Recurrent Neural Networks,相比于传统的RNN,Transformer主要具有以下几点优势 可解决长时序依赖问题,因为Transformer在计算attention的时候是在全局维度进行展开计算的,所以不存在长时序中的梯度消失等问题。 Transformer的

    2024年02月14日
    浏览(52)
  • 目标检测——detr源码复现【 End-to-End Object Detection with Transformers】

    detr源码地址 detr论文地址 自定义coco数据集 在github上面下载 链接:https://pan.baidu.com/s/1fmOYAOZ4yYx_rYquOS6Ycw 提取码:74l5 生成自己所需要的权重文件 main.py 相应位置根据下图更改 model 目录下面的 detr.py 文件相应位置更改类别 num_classes detr的测试对于小物体的检测不是很好,相比来

    2024年02月16日
    浏览(47)
  • 图像 检测 - DETR: End-to-End Object Detection with Transformers (arXiv 2020)

    声明:此翻译仅为个人学习记录 文章信息 标题: DETR: End-to-End Object Detection with Transformers (arXiv 2020) 作者: Nicolas Carion*, Francisco Massa*, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko (* Equal contribution) 文章链接:https://arxiv.org/pdf/2005.12872.pdf 文章代码:https://github.com

    2024年02月13日
    浏览(41)
  • [文章阅读] EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object ...

    CVPR 2022 论文链接 源代码:Github 1.1 论文试图解决什么问题?这是否是一个新的问题? 试图解决:基于PnPDE的单目物体位姿估计,需要获得图像中点的3D深度(通过深度网络之类的方法)以及2D-3D之间的关联,然后通过PnP求解得到物体位姿;而PnP本质上不可导,使得无法通过反

    2024年02月03日
    浏览(50)
  • 论文解读《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》

    论文:《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》 Code:https://github.com/tjiiv-cprg/epro-pnp (909 star) 作者的视频简单介绍:https://www.bilibili.com/video/BV13T411E7kb 摘要: 解决问题: 对于6D位姿估计,基于几何(PnP)的方法性能要好一些,但以前

    2024年02月03日
    浏览(59)
  • 图像 跟踪 - MOTR: End-to-End Multiple-Object Tracking with Transformer (ECCV 2022)

    声明:此翻译仅为个人学习记录 文章信息 标题: MOTR: End-to-End Multiple-Object Tracking with Transformer (ECCV 2022) 作者: Fangao Zeng*, Bin Dong*, Yuang Zhang*, Tiancai Wang, Xiangyu Zhang, and Yichen Wei (*Equal contribution, **Corresponding author) 文章链接:https://arxiv.org/pdf/2105.03247.pdf 文章代码:https://github.co

    2024年02月13日
    浏览(41)
  • 【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

    原文链接:https://arxiv.org/abs/2308.05026 目前的轨迹预测方法多基于道路使用者的真实信息,但在实际自动驾驶系统中这些信息是通过检测和跟踪模块得到的,不可避免的存在噪声。本文将感知模块与轨迹预测整合,进行端到端的检测、跟踪和轨迹预测。 本文感知模块使用单目图

    2024年04月28日
    浏览(39)
  • 图像 检测 - RetinaNet: Focal Loss for Dense Object Detection (arXiv 2018)

    声明:此翻译仅为个人学习记录 文章信息 标题: RetinaNet: Focal Loss for Dense Object Detection (arXiv 2018) 作者: Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár 文章链接:https://arxiv.org/pdf/1708.02002.pdf 文章代码:https://github.com/facebookresearch/Detectron (推荐:亦可参考 图像 处理 - 开

    2024年02月14日
    浏览(36)
  • Trajectory-guided Control Prediction for End-to-end Autonomous Driving论文学习

    端到端自动驾驶方法直接将原始传感器数据映射为规划轨迹或控制信号,范式非常简洁,从理论上避免了多模块设计的错误叠加问题和繁琐的人为规则设计。当前的端到端自动驾驶方法主要有两条独立的研究路线,要么基于规划轨迹来运行控制器,要么直接预测控制信号。端

    2024年02月05日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包