DETRs Beat YOLOs on Real-time Object Detection

这篇具有很好参考价值的文章主要介绍了DETRs Beat YOLOs on Real-time Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


DETRs在实时目标检测中击败YOLO

问题:DETR的高计算成本,实时检测效果有待提高

解决:提出了一个实时的目标检测器

具体来说,设计了一个高效的混合编码器,通过解耦尺度内的交互和跨尺度融合来有效处理多尺度特征,并提出IoU感知查询选择,通过提供更高质量的初始对象查询编码器,进一步提高性能。

了解的知识:

NMS是目标检测后处理算法,用于消除检测器输出的重叠预测框。操作中,低于阈值的框直接过滤掉,当两个预测框的LoU超过阈值时,得分较低的预测框被舍弃,迭代执行这一过程,直到所以类别的盒子被处理完毕。因此NML的执行时间主要取决于预测框个数和两个阈值超参数。

1、模型架构

DETRs Beat YOLOs on Real-time Object Detection,目标检测,目标检测,目标跟踪,人工智能
rt - detr概述。我们首先利用主干{S3, S4, S5}的最后三个阶段的特性作为编码器的输入。高效的混合编码器通过尺度内特征交互(AIFI)和跨尺度特征融合模块(CCFM)将多尺度特征转化为图像特征序列。iou感知的查询选择被用来选择固定数量的图像特征作为解码器的初始目标查询。最后,带辅助预测头的解码器迭代优化目标查询,生成框和置信度评分。

1.1高效混合编码器

提高训练收敛速度&性能–>多尺度特征&可变形注意力–>减少计算量

虽然注意力机制改进降低了计算开销,但输入序列长度的增加—》编码器计算量增大,阻碍了DETR的实时实现

高级特征是从具有丰富语义信息的低级特征中提取出来的。直观上看,多尺度特征间的交互是多余的。
DETRs Beat YOLOs on Real-time Object Detection,目标检测,目标检测,目标跟踪,人工智能
两个模块组成,即基于注意力的尺度内特征交互模块(AIFI)和基于cnn的跨尺度特征融合模块(CCFM)。

1.1.1 尺度内特征交互模块AIFI

AIFI减少了计算冗余,该变量仅在S5上进行尺度内交互。

作者认为对语义特征更丰富的高层特征进行自注意操作,可以捕捉图像中概念实体的关系,用于后续的检测识别。同时认为低级特征与高级特征有交互重复和混淆的风险,所以认为低级特征的尺度内交互是不必要的。(ap值提高了0.4%,快了35%速度

1.1.2 跨尺度特征融合CCFM

在融合路径中插入多个卷积层组成的融合块,融合块的作用是将相邻的特征融合成一个新的特征
DETRs Beat YOLOs on Real-time Object Detection,目标检测,目标检测,目标跟踪,人工智能
融合块包含N个RepBlocks,两条输出通过主元素添加的方式进行融合,过程如下
DETRs Beat YOLOs on Real-time Object Detection,目标检测,目标检测,目标跟踪,人工智能
Attn是多头自注意力,reshape与flaten是逆操作

1.2IoU感知查询选择

DETR中的目标查询是一组可学习的嵌入,由解码器优化,并通过预测头映射到分类分数和边界框。然而,这些目标查询很难解释和优化,因为它们没有明确的物理意义。

但由于分类分数和位置置信度分布的不一致,部分预测盒分类分数高但与GT盒不接近,导致分类分数高、IoU分数低的预测盒被选中,而分类分数低、IoU分数高的预测盒被丢弃。这降低了检测器的性能。

为了解决这一问题,我们提出了基于IoU感知的查询选择方法,通过约束模型,在训练过程中对IoU分数高的特征产生高分类分数,对IoU分数低的特征产生低分类分数。因此,模型根据分类分数选择的前K个编码器特征对应的预测框,其分类分数和IoU分数都很高。我们重新制定探测器的优化目标如下:
DETRs Beat YOLOs on Real-time Object Detection,目标检测,目标检测,目标跟踪,人工智能
其中:y‘和y分别表示预测和真实标记的图像,y’ = {c‘, b’}和y = {c, b}, c和b分别表示类别和边界框。我们将IoU分数引入到分类分支的目标函数中(类似于VFL[47])来实现对阳性样本分类和定位的一致性约束。

总结

问题:目前的实时检测器的推理速度被NMS延迟

为了避免NMS造成的延迟,我们设计了一个实时端到端检测器,其中包括两个关键的改进组件:可以有效地处理多尺度特征和IoU感知查询选择的混合编码器改进了对象查询的初始化。文章来源地址https://www.toymoban.com/news/detail-702315.html

到了这里,关于DETRs Beat YOLOs on Real-time Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Why choose Flink for real-time processing

    Why choose Flink [1] Streaming data more truly reflects our lifestyle (real-time chat); [2] Traditional data architecture is based on limited data sets (Spark is based on micro-batch data processing); [3] Our goal: low latency, high throughput (distributed architecture, there may be confusion in the order, for example, within 1 hour of statistics, some data

    2024年03月20日
    浏览(48)
  • 【论文阅读】【yolo系列】YOLACT Real-time Instance Segmentation

    论文链接:https://arxiv.org/pdf/1904.02689.pdf 【 实例分割 】 鉴于其重要性,大量的研究投入到实例分割的准确性。 两阶段 :Mask-RCNN [18]是一种具有代表性的两阶段实例分割方法,它首先生成候选感兴趣区域(roi),然后在第二阶段对这些roi进行分类和分割。后续工作试图通过提

    2024年02月16日
    浏览(42)
  • Publishing real-time financial data feeds using Kafka

    Good morning and welcome to this session on publishing real time financial data feeds using CCA. If you\\\'re a data feed provider, you may already have customers who are asking you to deliver your feed directly on AWS. And by the time we end this session, you should have a pretty good understanding of how to do that. My name is Rana. I am a Principal Solutions

    2024年02月03日
    浏览(50)
  • 【GAMES202】Real-Time Global Illumination(in 3D)—实时全局光照(3D空间)

    上篇我们介绍了PRT,并以Diffuse的BRDF作为例子分析了预计算的部分,包括Lighting和Light transport,如上图所示。 包括我们还提到了SH,可以用SH的有限阶近似拟合球面函数,然后计算。 这里和上篇的推导方式不太一样,我们上篇是把Lighting项用SH分解然后交换积分和求和符号,最

    2024年02月10日
    浏览(43)
  • 【论文笔记】3D Gaussian Splatting for Real-Time Radiance Field Rendering

    原文链接:https://arxiv.org/abs/2308.04079 网孔和点是最常见的3D场景表达,因其是显式的且适合基于GPU/CUDA的快速栅格化。神经辐射场(NeRF)则建立连续的场景表达便于优化,但渲染时的随机采样耗时且引入噪声。本文的方法结合了上述两种方法的优点:使用3D高斯表达和基于ti

    2024年02月04日
    浏览(43)
  • 3D Gaussian Splatting for Real-Time Radiance Field Rendering 阅读笔记

    感谢B站意の茗的讲解。 论文地址:https://arxiv.org/abs/2308.04079 项目主页:https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/ 从已有点云模型出发(sfm),以每个点为中心建立可学习的3D高斯表达,Splatting方法进行渲染,实现高分辨率实时渲染。(推动NERF加速方向) 能用训练好的点云

    2024年01月16日
    浏览(51)
  • 论文笔记《3D Gaussian Splatting for Real-Time Radiance Field Rendering》

    项目地址 原论文 最近辐射场方法彻底改变了多图/视频场景捕获的新视角合成。然而取得高视觉质量仍需神经网络花费大量时间训练和渲染,同时最近较快的方法都无可避免地以质量为代价。对于无边界的完整场景(而不是孤立的对象)和 1080p 分辨率渲染,目前没有任何方法

    2024年02月09日
    浏览(43)
  • 【读论文】3D Gaussian Splatting for Real-Time Radiance Field Rendering

    What kind of thing is this article going to do (from the abstract and conclusion, try to summarize it in one sentence) To simultaneously satisfy the requirements of efficiency and quality, this article begins by establishing a foundation with sparse points using 3D Gaussian distributions to preserve desirable space. It then progresses to optimizing anisotrop

    2024年04月09日
    浏览(46)
  • 带你读论文丨S&P2019 HOLMES Real-time APT Detection

    本文分享自华为云社区《[论文阅读] (09)SP2019 HOLMES Real-time APT Detection(溯源图)》,作者: eastmount 。 本文提出了一种实现了检测高级持久性威胁(Advanced Persistent Threat,APT)新的方法,即HOLMES系统。HOLMES的灵感来自现实世界中APT活动的一些共同目标。简而言之,HOLMES旨在产生

    2024年02月11日
    浏览(67)
  • [SIGGRAPH-23] 3D Gaussian Splatting for Real-Time Radiance Field Rendering

    pdf | proj | code 本文提出一种新的3D数据表达形式3D Gaussians。每个Gaussian由以下参数组成:中心点位置、协方差矩阵、可见性、颜色。通过世界坐标系到相机坐标系,再到图像坐标系的仿射关系,可将3D Gaussian映射到相机坐标系,通过对z轴积分,可得到对应Splatting 2D分布。 针对

    2024年02月04日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包