Group DETR论文阅读笔记

这篇具有很好参考价值的文章主要介绍了Group DETR论文阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

先大概分析了现阶段加速DETR训练的两条线:

1)改进cross-attention部分,关注更有效的feature

2)稳定二分图匹配

这篇论文用到的方法是从第二条线出发,稳定二分图匹配,但是并不像DN那样去噪训练稳定匹配,而是通过引入更多的监督。

一、motivation:

1)稳定二分图匹配

2)传统目标检测中一对多分配的性能好

二、innovation

通过将一对多分配解耦为多组一对一分分配来引入更多的监督。

三、方法

Group DETR论文阅读笔记,论文阅读,笔记先说一下上图abc:

【c】:直接进行原始一对多分配,这里把decoder画一整个就是指decoder里面的self-attention和cross-attention和FNN都是所有query一起的;

【b】:在c的基础上进行分组,每组一对一分配,这里的self-attention也是所有query一起;

【a】:分组,每组进行一对一,但是这里不一样的点在于画了很多个decoder是指每个组内单独进行self-attention,然后cross-attention和FNN就可以一起(因为cross-attention是encoder的输出和query进行交互,query之间并不会进行交互,所以作者此举本质上是让组和组之间的query不要进行交互


本文提出的group-detr采用的就是方法a啦!

1.architecture

Group DETR论文阅读笔记,论文阅读,笔记

1)每组单独进行self-attention:Group DETR论文阅读笔记,论文阅读,笔记(SA即self-attention)

2)然后一起cross-attention & FNN(因为这两个中,query之间是没有交互的,所以是可行的),如下列公式

Group DETR论文阅读笔记,论文阅读,笔记

ps.参数共享!

2.Loss Function

Group DETR论文阅读笔记,论文阅读,笔记(σk(·)是第k个解码器的N个query对应GT的最优排列)


 下面是论文中的一些详细分析:主要集中于group detr中的稳定一对一分配、query增强、加强了encoder和decoder、内存的占用情况。

3.analysis

1)参数共享:

(作者在论文里提到,group detr可以看成同时训练K个detr模型,所以encoder、decoder、FNN都是共享权重的,但是其实不这样理解也行我觉得),主要是指在group detr中权值共享,所以会有更多反向传播的梯度-->train fast & better &stable

同时也给了下图来指出该方法的附加作用:一对一匹配更稳定(这个IS越低表示匹配更稳定,IS这个指标是在DNdetr中提出,具体可以去看DN detr),但是其实这个有点相辅相成的感觉,因为匹配更稳定也就意味着收敛更快,就train fast了。

Group DETR论文阅读笔记,论文阅读,笔记

2)query增强:

直接用图说话,一个GT里面好多点,就是group detr的一对多,可以看到匹配到同一个GT的都是相似的,每组得到的AP差不多,然后global Loss=loss[原始detr]+loss[group detr],即lossfunction有更多分量,所以group里面的query可以当成是原始detr中query的数据增强,这里叫做query增强。

Group DETR论文阅读笔记,论文阅读,笔记

Group DETR论文阅读笔记,论文阅读,笔记

3)加强了encoder和decoder(其实这里也可以用前面提到的更多反向传播的梯度来解释)

ok继续看图说话:用的conditional detr去训练完整个model;(a)encoder不重新训练,decoder重新训练一下;(b)encoder不重新训练,decoder加上group去训练;(c)encoder和decoder都加上group去重新训练; --> 由图得a<b即加强了decoder,b<c加强了encoder

Group DETR论文阅读笔记,论文阅读,笔记

4)算力&内存

采用机制就是用并行的self-attention,即单独的self-attention取代原始的全部一起self-attention,然后cross-attention和FNN用的单个解码器和FNN就可以不用并行(以防大家云里雾里,再把图放上来一遍吧,知道的就当我爱啰嗦吧)

Group DETR论文阅读笔记,论文阅读,笔记

 当然采用self-attention的并行处理带来计算量增加和训练时间加长是必不可免,但是其实采用这种策略gpu并没有升很多。(另外论文里也非常严谨地证明了group性能提高和训练时长的增加无关,实验指明再和baseline相似的时长性能更高,具体可以看论文)

Group DETR论文阅读笔记,论文阅读,笔记

5)这里提到了DN-DETR【简单带过,通过在GT加上noise来作为正查询去train,从而可以提高box回归和分类】,因为dn-detr的去噪训练其实跟作者的分组有点像。但是DN-detr对于重复预测是没有作用的因为都是正样本,groupdetr是自学习,就可以进一步去除重复预测,直接看图,这里主要指出DN-dtr和group之间是互补

Group DETR论文阅读笔记,论文阅读,笔记

四、实验

1.

(1)实验部分就不多细说了,group加到detr的一些变体上性能都提升,可见其泛化性

一个12epoch,一个36/50epoch

Group DETR论文阅读笔记,论文阅读,笔记Group DETR论文阅读笔记,论文阅读,笔记

(2)放在3D目标检测和实例分割

Group DETR论文阅读笔记,论文阅读,笔记

Group DETR论文阅读笔记,论文阅读,笔记

2.消融实验

1.一对多分配 & 单独的self-attention

b没有NMS有大量重复预测精度很低;(b)VS(c)说明o2m有效;(c)VS(d)说明单独的自注意力有效

(o2m:一对多;a是原始detr;b的native指原始的一对多;Sep.SA:单独的自注意力)Group DETR论文阅读笔记,论文阅读,笔记

2.group数量

不断增加到11趋于稳定 --> K=11

Group DETR论文阅读笔记,论文阅读,笔记 文章来源地址https://www.toymoban.com/news/detail-813179.html

到了这里,关于Group DETR论文阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

    Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning 这是一篇发表在NeurIPS2022的论文,文章提出了一种分组算法,旨在提高算法零样本泛化能力 1 论文背景 CTDE :集中训练分散执行,在训练阶段将所有智能体的Q值加到一起去训练,训练完了之后在执行阶段大家各自执行自己

    2024年01月25日
    浏览(58)
  • DETR-《End-to-End Object Detection with Transformers》论文精读笔记

    End-to-End Object Detection with Transformers 参考:跟着李沐学AI-DETR 论文精读【论文精读】 在摘要部分作者,主要说明了如下几点: DETR是一个端到端(end-to-end)框架,释放了传统基于CNN框架的一阶段(YOLO等)、二阶段(FasterRCNN等)目标检测器中需要大量的人工参与的步骤,例如:

    2024年02月11日
    浏览(52)
  • DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文精读笔记

    DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 参考:AI-杂货铺-Transformer跨界CV又一佳作!Deformable DETR:超强的小目标检测算法! 摘要 摘要部分,作者主要说明了如下几点: 为了解决DETR中使用Transformer架构在处理图像特征图时的局限性而导致的收敛速度慢,特征空间

    2024年02月10日
    浏览(39)
  • 论文笔记: Trajectory Clustering: A Partition-and-Group Framework

    07 Sigmoid 使用类DBSCAN的思路对轨迹聚类 现有的轨迹聚类算法是将相似的轨迹作为一个整体进行聚类,从而发现共同的轨迹。 但是这样容易错过一些共同的子轨迹( sub-trajectories )。 而在实际中,当我们对特殊感兴趣的区域进行分析时,子轨迹就特别重要。 图中有五条轨迹,

    2024年02月06日
    浏览(41)
  • 论文阅读:Vary论文阅读笔记

    论文:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models Paper | Github | Demo 许久不精读论文了,内心一直想找个专门的时间来细细品读自己感兴趣的论文。现在想来,无异于是自己骗自己了,因为根本就不存在那个专门的时间。所以改变最好的时候就是现在。 因为自己一

    2024年01月19日
    浏览(46)
  • 论文阅读:Vary-toy论文阅读笔记

    论文:Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧,之前在写论文阅读:Vary论文阅读笔记文章时,正好看到了Vary-toy刚刚发布。 这次,咱也是站在了时代的前沿,这不赶紧先睹为快。让我看看相比于Vary,Vary-toy做了哪些改进? 从整体结构来看,仍

    2024年01月25日
    浏览(60)
  • [论文阅读笔记18] DiffusionDet论文笔记与代码解读

    扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记. 论文地址: 论文 代码: 代码 首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩散模型就是这一类中的

    2023年04月08日
    浏览(67)
  • 论文阅读:Segment Anything之阅读笔记

    引言 论文:Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳,这不抽空拿来学习了一下。 该算法的代码写得很清楚、简洁和规范,读来让人赏心悦目。推荐去看源码,很有意思。 本篇文章,将以问答形式来解读阅读过程中遇到的困

    2024年02月13日
    浏览(37)
  • PointMixer论文阅读笔记

    MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set

    2024年02月19日
    浏览(39)
  • 论文阅读笔记2:NetVLAD

    题目:NetVLAD: CNN Architecture for Weakly Supervised Place Recognition:、 团队: PSL Research University/Tokyo Institute of Technology 解决的问题: 我们解决了大规模视觉位置识别的问题,其任务是快速准确地识别给定查询照片的位置 创新点: 这篇文章主要有3个创新点: 1. 为场景识别任务构造出

    2024年02月11日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包