DETRs with Collaborative Hybrid Assignments Training论文笔记-Toy模板网

这篇具有很好参考价值的文章主要介绍了DETRs with Collaborative Hybrid Assignments Training论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Title：[DETRs with Collaborative Hybrid Assignments Training

Code

1. Motivation

当前的DETR检测器中，为了实现端到端的检测，使用的标签分配策略是二分匹配，使得一个ground-truth只能分配到一个正样本。分配为正样本的queries太少，从而导致对encoder的输出监督过于稀疏（sparse）。

与二分匹配相反，在传统的检测器（如Faster-RCNN、ATSS）中，一个ground-truth会根据位置关系分配到多个anchor作为正样本。这种标签分配方式能够为特征图上的更多区域提供位置监督，就能让检测器的特征学习得更好。

Co-DETR的关键就是利用通用的one-to-many label assignments来提高DETR检测器训练encoder和decoder的有效性及效率。

2. one to one VS one to many

为了比较这两种不同的标签分配方法在Encoder特征图上的差异，论文直接把Deformable-DETR的decoder换成了ATSS head，使用相同的可视化方法进行了比较，效果如下：
DETRs with Collaborative Hybrid Assignments Training论文笔记,# 目标检测,论文阅读,深度学习,人工智能
很明显，一些显著区域中的特征在one to many matching方法中被充分激活，但在one to one matching中很少被激活。因此，论文认为正是这两种分配方式的差异使得DETR模型中的encoder特征表达能力减弱了。

DETRs with Collaborative Hybrid Assignments Training论文笔记,# 目标检测,论文阅读,深度学习,人工智能
同时，作者还对encoder生成的特征表示和decoder中的attention进行了定量分析：

左边的IoF-IoB曲线表明ATSS相较于Defomable DETR更容易区分前景和背景；
右边的IoF-IoB曲线表明Group DETR（其将更多的正样本query引入到decoder中）和Co-Deformable-DETR拥有更多的正样本query，其更有利于cross attention的学习。

最终的结论同样是：一对一匹配相比于一对多匹配会分别损害encoder特征和decoder中attention的学习。