DEFORMABLE DETR详解

这篇具有很好参考价值的文章主要介绍了DEFORMABLE DETR详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.解决问题

  • DETR需要比现有的目标检测器更长的训练时间来收敛。 
  • DETR在检测小物体方面的性能相对较低,并且无法从高分辨率特征地图中检测到小物体。
  • 可变形卷积可以识别重要特征,但是无法学习重要特征之间的联系

        transformer组件在处理图像特征图中的不足。在初始化时,注意模块对特征图中的所有像素施加了几乎一致的注意权重。长时间的训练周期是为了学习注意权重,以关注稀疏的有意义的位置。另一方面,transformer编码器中的注意权值计算是二次计算w.r.t.像素数。因此,处理高分辨率的特征映射具有非常高的计算和内存复杂性。

2.核心思想

        Deformable DETR,它的注意模块只关注一个目标周围的一小部分关键采样点。Deformable DETR可以获得比DETR(特别是在小物体上)更好的性能,在训练时间少10×的时期。 

3.实施细节

        可变形注意模块无论特征图的空间大小如何,都只关注参考点周围的一小组关键采样点(reference point)。通过为每个queries只分配少量固定数量的keys,可以缓解收敛性和特征空间分辨率的问题。 

        对于初始化,首先初始化采样附近的n个点(默认为4),即认为附近的点的特征对该点的关系最强,但是一定是吗?不一定,那么我们可以通过网络学习,偏移到关系最强的点。但是神经网络学习到的偏移不一定是小数,怎么办呢?那么我们就可以通过周围的点进行插值得到该点的特征。

deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉

 公式详解:

deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉

        deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉 表示初始的采样的关键点,deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉表示偏移量,deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉表示特征的权重,即表示特征映射,deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉

表示queries与keys的点乘,即注意力,其中deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉都是通过全连接而来。

        如下图所示, 表示特征图上的原始特征,经过全连接层做特征映射,同时采样出3个采样点。同时经过全连接层可得到注意力权重(qk)

deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉

  Multi-scale Deformable Attention Module. 

deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉为输入的多尺度特征映射(特征金字塔),其中deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉。表示尺度信息,deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉为每个queries的参考点的归一化坐标,即因为有多个尺度,需要将绝对坐标转为相对坐标,则应用多尺度可变形注意模块为

deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉

        外部的m表示多头注意力机制,L表示特征金字塔的维度,作者可能认为不同尺度同一位置的特征相似,因此,做相加操作。K表示采样的特征点

4.整体架构

         对于输入图片,首先经过Multi-scale Deformable self-Attention选取特征点,并做特征映射,生成向量,对于位置编码,有两种,一种是在相对位置编码加上绝对level级别编码,另外一种是加入可学习的level编码。然后输入decoder中,对于decoder,首先初始化300个初始化向量,经过self-Attention的处理,然后与ecoder特征做注意力运算,最后做预测。deformable detr,transformer,人工智能,深度学习,transformer,计算机视觉

 5.预测头的设置

        Iterative Bounding Box Refifinement. 建立了一种简单有效的迭代边界框细化机制,以提高检测性能。在这里,每个解码器层根据上一层的预测来细化边界框。        

        Two-Stage Deformable DETR. 在原始的DETR中,解码器中的对象查询与当前图像无关。受两阶段目标探测器的启发,我们探索了可变形DETR的一种变体,用于生成区域建议作为第一阶段。生成的区域建议将被输入解码器作为对象查询以进一步细化,形成一个两阶段可变形的DETR。
        在第一阶段,为了实现高召回率的建议,多尺度特征图中的每个像素都将作为一个对象查询。然而,直接将对象查询设置为像素会给解码器中的自注意模块带来不可接受的计算和内存成本,其复杂度随着查询的数量呈二次增长。为了避免这个问题,我们去掉了解码器,并形成了一个仅限编码器的可变形的DETR,用于区域提案的生成。在它中,每个像素被分配为一个对象查询,它直接预测一个边界框。得分最高的边界框被选为区域提案。在将区域提案提交到第二阶段之前,不应用NMS。

 文章来源地址https://www.toymoban.com/news/detail-780381.html

到了这里,关于DEFORMABLE DETR详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Deformable DETR源码解读

    传统DETR 提出的 encoder-decoder 结构,将transformer运用到了目标检测领域,在我看来属于Resnet相对于Alexnet的 里程碑级别 , 思路很开辟但是细节还欠打磨 ,我分析一下DETR中的缺点: 收敛速度慢。因为keys的选取自整个特征图上的每个像素点,复杂度是指数级别的暴增。注意力初

    2024年02月04日
    浏览(39)
  • 目标检测算法——deformable-detr源码调试

    环境 版本 torch 1.11.0+cu113 torchvision 0.12.0+cu113 论文 源码 自定义数据集 这一步出问题了请检查自己的环境,之前用的pytorch1.10.0报错,换成pytorch1.11.0就好了 ImportError: .conda/lib/python3.7/site-packages/MultiScaleDeformableAttention-1.0-py3.7-linux-x86_64.egg/MultiScaleDeformableAttention.cpython-37m-x86_64-linu

    2024年02月16日
    浏览(50)
  • 【vision transformer】DETR原理及代码详解(一)

      论文: https://arxiv.org/pdf/2005.12872.pdf 代码: https://github.com/facebookresearch/detr (pytorch) https://github.com/BR-IDL/PaddleViT/tree/develop/object_detection/DETR(PaddlePaddle) DETR 是vision transformer 中目标检测的开山之作,是 Facebook 团队于 2020 年提出的基于 Transformer 的端到端目标检测,克服了传

    2024年02月08日
    浏览(45)
  • Transformer | DETR目标检测中的位置编码position_encoding代码详解

    本文主要描述的是DETR论文中的position_encoding,详细DETR论文解析可参考  论文篇 | 2020-Facebook-DETR :利用Transformers端到端的目标检测=>翻译及理解(持续更新中)_夏天|여름이다的博客-CSDN博客_dert目标检测 Transformer不像RNN可以根据位置顺序接受和处理单词,所以为了得到词的

    2023年04月08日
    浏览(49)
  • Transformer实战-系列教程15:DETR 源码解读2(整体架构:DETR类)

    有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Pycharm中进行 本篇文章配套的代码资源已经上传 点我下载源码 DETR 算法解读 DETR 源码解读1(项目配置/CocoDetection类/ConvertCocoPolysToMask类) DETR 源码解读2(DETR类) DETR 源码解读3(位置编码:Joiner类/PositionEmbeddingSine类)

    2024年02月20日
    浏览(43)
  • 详细理解(学习笔记) | DETR(整合了Transformer的目标检测框架) DETR入门解读以及Transformer的实操实现

    DETR ,全称 DEtection TRansformer,是Facebook提出的基于Transformer的端到端目标检测网络,发表于ECCV2020。 原文: 链接 源码: 链接 DETR 端到端目标检测网络模型,是第一个将 Transformer 成功整合为检测pipline中心构建块的目标检测框架模型。基于Transformers的端到端目标检测,没有NMS后

    2024年02月04日
    浏览(56)
  • 详解可变形注意力模块(Deformable Attention Module)

    Deformable Attention(可变形注意力)首先在2020年10月初商汤研究院的《Deformable DETR: Deformable Transformers for End-to-End Object Detection》论文中提出,在2022CVPR中《Vision Transformer with Deformable Attention》提出应用了Deformable Attention(可变形自注意力)机制的通用视觉Transformer骨干网络DAT( D

    2024年02月03日
    浏览(42)
  • Transformer实战-系列教程21:DETR 源码解读8 损失计算:(SetCriterion类)

    有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Pycharm中进行 本篇文章配套的代码资源已经上传 点我下载源码 DETR 算法解读 DETR 源码解读1(项目配置/CocoDetection类/ConvertCocoPolysToMask类) DETR 源码解读2(DETR类) DETR 源码解读3(位置编码:Joiner类/PositionEmbeddingSine类)

    2024年02月19日
    浏览(43)
  • 基于DETR (DEtection TRansformer)开发构建MSTAR雷达影像目标检测系统

    关于DETR相关的实践在之前的文章中很详细地介绍过,感兴趣的话可以自行移步阅读即可: 《DETR (DEtection TRansformer)基于自建数据集开发构建目标检测模型超详细教程》 《书接上文——DETR评估可视化》 基于MSTAR雷达影像数据开发构建目标检测系统,在我前面的文章中也有过实

    2024年02月13日
    浏览(71)
  • 遥感影像目标检测:从CNN(Faster-RCNN)到Transformer(DETR)

    我国高分辨率对地观测系统重大专项已全面启动,高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成,将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB,遥感大数据时代已然来临。随着小

    2024年02月22日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包