【Paper Reading】DETR:End-to-End Object Detection with Transformers

这篇具有很好参考价值的文章主要介绍了【Paper Reading】DETR:End-to-End Object Detection with Transformers。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景

Transformer已经在NLP领域大展拳脚,逐步替代了LSTM/GRU等相关的Recurrent Neural Networks,相比于传统的RNN,Transformer主要具有以下几点优势

  1. 可解决长时序依赖问题,因为Transformer在计算attention的时候是在全局维度进行展开计算的,所以不存在长时序中的梯度消失等问题。
  2. Transformer的encoder和decoder在某些场景下均可以很好的并行化,提高的计算效率。
  3. Transformer具备比较好的可解释性
  4. Transformer的可扩展性比较强,可以灵活的增加层数。

在视觉领域也有一些方法逐步的在引入Transformer来解决一些视觉挑战任务,例如基于图片分类的ViT。本文是将Transformer引入目标检测领域中来,可以端到端的解决目标检测的问题,相比于传统基于anchor/proposal/NMS的方法而言,本文的方法主要有以下优势:

  1. 摆脱了对原有的基于先验知识的依赖,不再依赖proposal/NMS等基于先验的方法,整个网络是完全learnable的,并且简化了整体的pipeline。
  2. 相比于NMS,可以在全局视角考虑整体的最优性,消除整体的冗余。

方法

本文提出的网络结构整体上如下图所示。接下来我们将从网络结构、损失函数和匹配方法分别展开介绍
【Paper Reading】DETR:End-to-End Object Detection with Transformers,目标检测,人工智能,计算机视觉,DETR

网络结构

整体的网络结构如上图所示,一张图片我们通过CNN抽取其基本的视觉特征(待讨论能不能像ViT那样,做到完全的Transformer)。得到feature map F ∈ R H × W × C F \in R^{H \times W \times C} FRH×W×C,然后我们将其reshape成为 F ∈ R ( H × W ) × C F \in R^{(H \times W) \times C} FR(H×W)×C。那么我们就得到一个长度为 H × W H \times W H×W的序列,每个unit的维度的是 C C C
我们再将得到的序列输入到transformer的encoder进行特征的加工,相当于重构每个unite的表征,使其可以从全局的视角加载特征和。这里的unit相当于就是“Proposal”。
Encoder输出后的feature再会输入给decoder,decoder基于Encoder的特征和位置编码特征输出每个位置应该预测的proposal。如下图所示,object queries就是每个position的embedding。

  • QA1:Encoder和Decoder的position embedding是不是一样的?

    • 答案是不一样的,Encoder的position embedding可以理解是二维的,他针对feature map上的每一个位置进行embedding。而Decoder中的position embedding是“proposal”维度的,先验是一张图片最多会有100个框,所以Decoder中最多会有100个position。Decoder的position embedding是lookup 查表得到的,整体上第一个position代表什么含义?是否有说明?
    • 具体实现上,object queries是 N(100) 个learnable embedding,训练刚开始时可以随机初始化。在训练过程中,因为需要生成不同的boxes,object queries会被迫使变得不同来反映位置信息,所以也可以称为leant positional encoding (注意和encoder中讲的position encoding区分,不是一个东西)。
    • 由于在训练过程中,会预测100个框,然后和gt去做匹配,计算loss,这就会反推每个decoder的position embedding默认代表某个位置的框?但是实验代码并没有可视化说明?
  • QA2:Decoder中的QKV分别是什么?
    Encoder不用说,就是unit的特征。Decoder中

    • Q:查询的信息,一般就是position embedding,由于这里会引入先验,最多100个框,所以Q的size为 R 100 × d R^{100 \times d} R100×d
    • K:和基础的transformer一样,第一层的attention K和V都是上面的Q。第二层的attention K为Encoder的输入,一般大小为 R ( H × W ) × d R^{(H \times W) \times d} R(H×W)×d
    • V:和基础的transformer一样,第一层的attention K和V都是上面的Q。第二层的attention K为Encoder的输入,一般大小为 R ( H × W ) × d R^{(H \times W) \times d} R(H×W)×d
      【Paper Reading】DETR:End-to-End Object Detection with Transformers,目标检测,人工智能,计算机视觉,DETR

损失函数

损失函数整体由三部分组成,分类损失+l1loss+GIoU loss。后面两个算是位置优化的损失函数。为什么需要两个?

  1. L1的劣势:不具备尺度不变性。大物体和小物体之间的loss是不公平的。
  2. GIoU的劣势:收敛过慢(DIoU中有说)
  3. GIoU的定义
    L g i o u = I o U − C − u i o n C L_{giou} = IoU - \frac{C-uion}{C} Lgiou=IoUCCuion
  4. GIoU的特性
    1. 非负性、三角不等性
    2. 尺度不变性
    3. 取值范围[-1, 1],且GIoU <= IoU。

匹配方法

首先将整个问题抽象为匹配问题。给定N个预测的框和M个GT的框。计算min(N, M)个框之间的一个完全匹配。
具体来说,第一步我们根据上述的损失函数定义,计算一个cost矩阵, c o s t i , j cost_{i,j} costi,j代表的含义就是第i个预测框和第j个gt之间的损失函数。我们是希望寻找到一个最佳匹配,使得整体的损失函数是最小的。这里作者采用的是匈牙利算法。详情可以参考wiki。文章来源地址https://www.toymoban.com/news/detail-628689.html

  • QA1:没有被匹配上的预测框是否计算loss。
    这部分从代码来看,会计算分类的loss。而不会计算pos的loss。
    • pos loss
      【Paper Reading】DETR:End-to-End Object Detection with Transformers,目标检测,人工智能,计算机视觉,DETR
  • QA2:匈牙利算法简化版本:
    1. 给定矩阵C
    2. 选择每一行中最小的数,并从C中减去,得到C1
    3. 选择每一列中最小的数,并从C1中减去,得到C2
    4. 基于C2判断,必须用尽可能少的列或行标记来覆盖矩阵中的所有零。下面的过程是完成这个要求的一种方法:
      4.1 首先,尽可能多地分配任务。
      【Paper Reading】DETR:End-to-End Object Detection with Transformers,目标检测,人工智能,计算机视觉,DETR
      4.2 标记所有未分配的行(第 3 行)。
      4.3 标记所有新标记的行中 0所在(且未标记)的对应列(第 1 列)。
      4.4 标记所有在新标记的列中有分配的行(第 1 行)。
      4.5 对所有未分配的行重复上述过程。
    5. 现在划掉所有已标记的列和未标记的行(第 1 列和第 2, 4 行)。
      【Paper Reading】DETR:End-to-End Object Detection with Transformers,目标检测,人工智能,计算机视觉,DETR
    6. 现在删除已画线的行和列。这将留下一个矩阵如下:重新开始步骤2。
      【Paper Reading】DETR:End-to-End Object Detection with Transformers,目标检测,人工智能,计算机视觉,DETR

到了这里,关于【Paper Reading】DETR:End-to-End Object Detection with Transformers的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文精读笔记

    DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 参考:AI-杂货铺-Transformer跨界CV又一佳作!Deformable DETR:超强的小目标检测算法! 摘要 摘要部分,作者主要说明了如下几点: 为了解决DETR中使用Transformer架构在处理图像特征图时的局限性而导致的收敛速度慢,特征空间

    2024年02月10日
    浏览(39)
  • 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection

    上一篇讲完了DETR相关原理和源码,打算继续再学习DETR相关改进。这次要解读的是21年发表的一篇论文: ICLR 2021:Deformable DETR: Deformable Transformers for End-to-End Object Detection 。 先感谢这位知乎大佬,讲的太细了: Deformable DETR: 基于稀疏空间采样的注意力机制,让DCN与Transformer一起玩

    2023年04月16日
    浏览(49)
  • End-to-End Object Detection with Transformers(论文解析)

    我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了许多手工设计的组件的需求,如显式编码我们关于任务的先验知识的非极大值抑制过程或锚点生成。新框架的主要要素,称为DEtection TRansformer或DETR,包括一个基于集合的全

    2024年02月09日
    浏览(44)
  • 《Dense Distinct Query for End-to-End Object Detection》论文笔记(ing)

    作者这里认为传统个目标检测的anchor/anchorpoint其实跟detr中的query作用一样,可以看作query (1)dense query:传统目标检测生成一堆密集anchor,但是one to many需要NMS去除重复框,无法end to end。 (2)spare query 在one2one:egDETR,100个qeury,数量太少造成稀疏监督,收敛慢召回率低。 (

    2024年01月25日
    浏览(46)
  • 图像 跟踪 - MOTR: End-to-End Multiple-Object Tracking with Transformer (ECCV 2022)

    声明:此翻译仅为个人学习记录 文章信息 标题: MOTR: End-to-End Multiple-Object Tracking with Transformer (ECCV 2022) 作者: Fangao Zeng*, Bin Dong*, Yuang Zhang*, Tiancai Wang, Xiangyu Zhang, and Yichen Wei (*Equal contribution, **Corresponding author) 文章链接:https://arxiv.org/pdf/2105.03247.pdf 文章代码:https://github.co

    2024年02月13日
    浏览(41)
  • 【Paper Reading】CenterNet:Keypoint Triplets for Object Detection

    首先是借鉴Corner Net 表述了一下基于Anchor方法的不足: anchor的大小/比例需要人工来确认 anchor并没有完全和gt的bbox对齐,不利于分类任务。 但是CornerNet也有自己的缺点 CornerNet 只预测了top-left和bottom-right 两个点,并没有关注整体的信息,因此缺少一些全局的信息 上述的点导致

    2024年02月14日
    浏览(39)
  • End-to-end 3D Human Pose Estimation with Transformer

    基于Transformer的端到端三维人体姿态估计 基于Transformer的架构已经成为自然语言处理中的常见选择,并且现在正在计算机视觉任务中实现SOTA性能,例如图像分类,对象检测。然而,卷积方法在3D人体姿态估计的许多方法中仍然保持SOTA性能。受视觉变换器最近发展的启发,我们

    2024年02月08日
    浏览(67)
  • 【论文笔记】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

    原文链接:https://arxiv.org/abs/2308.05026 目前的轨迹预测方法多基于道路使用者的真实信息,但在实际自动驾驶系统中这些信息是通过检测和跟踪模块得到的,不可避免的存在噪声。本文将感知模块与轨迹预测整合,进行端到端的检测、跟踪和轨迹预测。 本文感知模块使用单目图

    2024年04月28日
    浏览(39)
  • 【论文阅读】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相较于传统的视觉里程计,端到端的方法可以认为是把特征提取、匹配、位姿估计等模块用深度学习模型进行了替代。不同于那种用深度学习模型取代里程计框架一部分的算法,端到端的视觉里程计是直接将整个任务替换为深度学习,输入依然是图像流,结果也依然是位姿,

    2024年03月18日
    浏览(54)
  • [文章阅读] EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object ...

    CVPR 2022 论文链接 源代码:Github 1.1 论文试图解决什么问题?这是否是一个新的问题? 试图解决:基于PnPDE的单目物体位姿估计,需要获得图像中点的3D深度(通过深度网络之类的方法)以及2D-3D之间的关联,然后通过PnP求解得到物体位姿;而PnP本质上不可导,使得无法通过反

    2024年02月03日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包