DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

这篇具有很好参考价值的文章主要介绍了DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文名称: DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
发表时间:ICLR2023
作者及组织:Shilong Liu, Feng Li等,来自IDEA、港中文、清华。

前言

 该篇论文在DN-DETR基础上,额外引进3个trick进一步增强DETR的性能:在12epoch下coco上达到了49.0map。本文将分别介绍这3个trick,

1、方法

DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection,目标检测,人工智能,计算机视觉

  上图为模型的总体结构图,改进部分为框中标红的部分,一个是用于第二阶段的query selection模块,另外一部分则是在去噪训练中额外引入了加噪的负样本来进行训练(DN-DETR中只有加噪的正样本)。

1.1.MixQuerySelection

 如下图所示,作者比较了三种从Encoder中query select方式,其中蓝色框表示content query,白色框表示anchor。
 图(a)没有用到Encoder的输出,content query是初始化为0,anchor即object query是可学习的;
 图(b)是Deformable Detr中做法,从Encoder中选择topK个得分高的query并经过线性映射来得到动态可学习的anchor和content query;
 图(c)是本文做法,考虑到模型的Encoder在初始阶段抽取出特征可能会使Decoder困惑,于是本文保持content query初始化为全0,而anchor则是从Encoder中动态挑出来的。
DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection,目标检测,人工智能,计算机视觉

1.2.Contrastive DeNoising Training

 在DN-DETR中是仅给gt增加了正样本的噪声来作为额外的gt。但模型没有判别负样本/困难样本的能力,为了区分gt附近的预测框,作者在训练过程中新增加了负样本gt。如下图所示, < λ 1 \lambda_1 λ1 的加噪gt为正样本,在[ λ 1 \lambda_1 λ1 , λ 2 \lambda_2 λ2]之间的作为加噪负样本。
DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection,目标检测,人工智能,计算机视觉

1.3. Look Forward Twice

 下图左边是每层DecoderLayer在预测box的梯度流向,发现层与层之间其实没有交互,是断开的;于是作者设计了右边的级联形式,使得当前层box预测能够看见前面层的预测信息。
DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection,目标检测,人工智能,计算机视觉

2、实验

 DINO的性能还是很高的,在coco上36epoch达到50.9。
DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection,目标检测,人工智能,计算机视觉

 50.9基本已经饱和了,于是作者用更大的backbone以及更大的数据集Object365进行试验,并在coco上微调。取得了惊人的63.1map。
DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection,目标检测,人工智能,计算机视觉

 消融实验看出,在增加了上述三个trick后,涨了1.4个点。emmm…
DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection,目标检测,人工智能,计算机视觉文章来源地址https://www.toymoban.com/news/detail-800674.html

到了这里,关于DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文精读笔记

    DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 参考:AI-杂货铺-Transformer跨界CV又一佳作!Deformable DETR:超强的小目标检测算法! 摘要 摘要部分,作者主要说明了如下几点: 为了解决DETR中使用Transformer架构在处理图像特征图时的局限性而导致的收敛速度慢,特征空间

    2024年02月10日
    浏览(39)
  • 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection

    上一篇讲完了DETR相关原理和源码,打算继续再学习DETR相关改进。这次要解读的是21年发表的一篇论文: ICLR 2021:Deformable DETR: Deformable Transformers for End-to-End Object Detection 。 先感谢这位知乎大佬,讲的太细了: Deformable DETR: 基于稀疏空间采样的注意力机制,让DCN与Transformer一起玩

    2023年04月16日
    浏览(49)
  • 【计算机视觉 | 目标检测】CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor

    基于区域提示和锚点预匹配的开放词汇检测。 CORA 在目标检测任务中提出了一种新的 CLIP 预训练模型适配方法,主要包括 Region Prompting 和 Anchor Pre-Matching 两部分。 这种方法能够让 CLIP 模型适应目标检测的任务,能够识别出图像中的对象,并提供准确的分类和定位信息。 开放

    2024年02月14日
    浏览(44)
  • 【AIGC】12、DINO | 针对 DETR-like 检测器的提升

    论文:DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 代码:https://github.com/IDEACVR/DINO 出处:香港大学 | 清华大学 时间:2022.07 DINO:Detr with Improved deNoising anchOr boxes DINO 是一个基于 DETR 结构的端到端目标检测器,通过对去噪训练使用对比学习的方式来提高了 DETR

    2024年02月13日
    浏览(68)
  • 【多模态】7、DINO | 针对 DETR-like 检测器的提升

    论文:DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 代码:https://github.com/IDEACVR/DINO 出处:香港大学 | 清华大学 时间:2022.07 DINO:Detr with Improved deNoising anchOr boxes DINO 是一个基于 DETR 结构的端到端目标检测器,通过对去噪训练使用对比学习的方式来提高了 DETR

    2024年02月16日
    浏览(38)
  • PVT v2: Improved Baselines with Pyramid Vision Transformer

    论文地址:https://arxiv.org/pdf/2106.13797.pdf 代码地址: https://github.com/whai362/PVT 最近关于视觉Transformer的研究正在汇聚于主干网络,该主干网络设计用于下游视觉任务,如图像分类、目标检测、实例和语义分割。例如,Vision Transformer(ViT)首先证明了纯Transformer可以实现图像分类最

    2024年02月08日
    浏览(48)
  • 【视觉SLAM】An Improved ORB-SLAM2 in Dynamic Scene with Instance Segmentation

    Cite: H. Qian and P. Ding.An Improved ORB-SLAM2 in Dynamic Scene with Instance Segmentation[C].2019 Workshop on Research, Education and Development of Unmanned Aerial Systems (RED UAS).Cranfield, UK. 2019:185-191. Keyword: 特征提取,图像运动分析,图像分割,移动机器人,姿势估计,机器人视觉,SLAM (机器人) 为了提高动态

    2024年02月01日
    浏览(37)
  • AnoDDPM: Anomaly Detection with Denoising DiffusionProbabilistic Models using Simplex Noise论文学习

    1.在基于重建的异常检测中, 不需要全长马尔可夫链扩散 。这导致我们开发了一种 新的部分扩散异常检测策略 ,可扩展到 高分辨率图像 ,名为 AnoDDPM 。 2.高斯扩散不能捕获较大的异常,因此,我们开发了一个 多尺度的单纯形噪声扩散过程 来 控制目标异常大小。 1.DDPM能够从

    2024年02月09日
    浏览(44)
  • End-to-End Object Detection with Transformers(论文解析)

    我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了许多手工设计的组件的需求,如显式编码我们关于任务的先验知识的非极大值抑制过程或锚点生成。新框架的主要要素,称为DEtection TRansformer或DETR,包括一个基于集合的全

    2024年02月09日
    浏览(44)
  • End-to-end 3D Human Pose Estimation with Transformer

    基于Transformer的端到端三维人体姿态估计 基于Transformer的架构已经成为自然语言处理中的常见选择,并且现在正在计算机视觉任务中实现SOTA性能,例如图像分类,对象检测。然而,卷积方法在3D人体姿态估计的许多方法中仍然保持SOTA性能。受视觉变换器最近发展的启发,我们

    2024年02月08日
    浏览(67)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包