基于 Transformer 的旋转目标检测框架 D2Q-DETR
01 背 景
图 1:遥感影像中的目标检测
与自然影像数据集不同,遥感影像中的目标通常以任意角度出现,如图 1所示。自然影像常用的水平框目标检测方法,在遥感影像上的效果通常不够理想。一方面,细长类目的待检测目标(比如船舶、卡车等),使得水平框检测的后处理很困难(因为相邻目标的水平框的重合度很高)。另一方面,因为目标的角度多变,水平框不可避免引入过多的背景信息。针对这些问题,遥感目标检测更倾向于检测目标的最小外接矩形框,即旋转目标检测。旋转目标检测最近因其在不同场景中的重要应用而受到越来越多的关注,包括航空图像、场景文本和人脸等。特别是在航空图像中,已经提出了许多设计良好的旋转目标检测器,并在大型数据集上(比如 DOTA-V1.0)获得了较好的结果. 与自然图像相比,航拍图像中的物体通常呈现密集分布、大纵横比和任意方向。这些特点使得现有的旋转对象检测器变得复杂。我们的工作重点是简化旋转对象检测,消除对复杂手工组件的需求,包括但不限于基于规则的训练目标分配、旋转 RoI 生成、旋转非最大值抑制 (NMS) 和旋转 RoI 特征提取器。
我们的方法基于 DETR,一个最近提出的使用 Transforemer 的端到端对象检测框架。与我们最相关的工作是 O2DETR,它为 DETR 添加了额外的角度回归,从而用于旋转对象检测。角度的直接回归会导致两个问题:一是角度周期性导致的边界不连续;另一个是角度(以弧度为单位)和目标框尺寸(以像素为单位)之间的单位不匹配。与 O2DETR 直接回归角度不同,我们提出的方案是,为每个旋转框预测一组点,预测的这组点的最小外接矩形框将用来表示待预测的旋转目标。点的学习更加灵活,并且一组点的分布可以反映目标旋转框的角度和框的大小。据我们所知,与直接角度回归相比,我们是第一个将点预测与 Transformer 相结合,并在旋转目标检测方面取得了卓越的性能。
我们的主要贡献如下:
-
我们提出一个新型端到端旋转对象检测框架,命名为 DQ-DETR。据我们所知,我们是第一个将点预测与 Transformer 结合起来进行旋转目标检测的工作。
-
我们提出了一种新颖的动态查询设计,它在不牺牲模型性能的情况下减少了对象查询数量。
-
我们首次在解码器层将查询特征解耦为分类和回归特征,显著提高了检测性能。
-
我们提出一种有效的标签重新分配策略以获得更好的性能。文章来源:https://www.toymoban.com/news/detail-455967.html
-
与现有的 NMS-based 和 NMS-free 的旋转对象检测方法相比,我们在具有挑战性的 DOTA-v1.0文章来源地址https://www.toymoban.com/news/detail-455967.html
到了这里,关于技术分享 | 遥感影像中的旋转目标检测系列(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!