解读 Centralized Feature Pyramid for Object Detection

这篇具有很好参考价值的文章主要介绍了解读 Centralized Feature Pyramid for Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Centralized Feature Pyramid for Object Detection

摘要

视觉特征金字塔在广泛的应用中显示出其有效性和效率的优越性。

然而,现有的方法过分地集中于层间特征交互,而忽略了层内特征规则,这是经验证明是有益的。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任务非常重要的被忽略的角点区域。为了解决这一问题,本文提出了一种基于全局显式集中式特征规则的集中式特征金字塔(CFP)对象检测方法。具体而言,我们首先提出了一种空间显式视觉中心方案其中使用轻量级MLP来捕捉全局长距离依赖关系并使用并行可学习视觉中心机制来捕捉输入图像的局部角区域在此基础上,我们以自上而下的方式对常用特征金字塔提出了一种全局集中的规则,其中使用从最深层内特征获得的显式视觉中心信息来调整正面浅层特征。与现有的特征金字塔相比CFP不仅能够捕获全局长距离依赖关系,而且能够有效地获得全面但有区别的特征表示。在具有挑战性的MS-COCO上的实验结果验证了我们提出的CFP能够在最先进的YOLOv5和YOLOX目标检测基线上实现一致的性能增益。该代码发布于:CFPNet。

I. INTRODUCTION

对象检测是计算机视觉领域中最基本但最具挑战性的研究任务之一,其目的是为输入图像中的每个对象预测一个唯一的边界框,该边界框不仅包含位置,还包含类别信息。在过去几年中,这项任务已被广泛开发并应用于广泛的潜在应用,例如,自动驾驶[2]和计算机辅助诊断。

成功的目标检测方法主要基于卷积神经网络(CNN)作为主干,然后是两阶段(例如,快速/快速R-CNN)或单阶段(例如SSD和YOLO)框架。

然而,由于目标尺寸的不确定性,单个特征尺度不能满足高精度识别性能的要求。为此,提出了基于网络内特征金字塔的方法(例如SSD和FPN)这些方法背后的统一原则是为每个不同大小的对象分配感兴趣区域,并提供适当的上下文信息,使这些对象能够在不同的特征层中识别。

尽管这些方法可以解决CNN中有限的接受域和局部上下文信息,但一个明显的缺点是它们的计算复杂性很大。例如,与输入大小为224×224的性能相当的CNN模型RegNetY相比,Swin-B几乎有3倍模型FLOP(即47.0 G vs 16.0 G),这很容易忽略对于密集预测任务很重要的一些角区域(例如,“飞机引擎”、“摩托车车轮”和“蝙蝠”)。这些缺点在大规模输入图像上更为明显。为此,我们提出了一个问题:是否有必要在所有层上使用变压器编码?为了回答这个问题,我们从分析浅层特征开始。浅层特征主要包含一些一般的对象特征模式,例如纹理、颜色和方向,这些通常不是全局的。相比之下,深度特征反映了对象特定信息,通常需要全局信息。因此,我们认为transformer在所有层中都是不必要的。

在这项工作中,我们提出了一种用于对象检测的集中式特征金字塔(CFP)网络,该网络基于全局显式集中式规则方案。具体而言,基于从CNN主干提取的视觉特征金字塔,我们首先提出了一种显式视觉中心方案,其中使用轻量级MLP架构来捕获长距离依赖关系,并使用并行可学习视觉中心机制来聚集输入图像的局部关键区域。考虑到最深的特征通常包含浅层特征中稀缺的最抽象的特征表示[33]这一事实,基于所提出的调节方案,我们随后以自上而下的方式对提取的特征金字塔提出了一种全局集中调节,其中从最深特征获得的空间显式视觉中心用于同时调节所有的额叶浅特征。与现有的特征金字塔相比,如图1(c)所示,CFP不仅具有捕获全局长距离依赖关系的能力,而且能够有效地获得全面但有区别的特征表示。

为了证明其优越性,在具有挑战性的MS-COCO数据集上进行了大量实验。结果验证了我们提出的CFP能够在最先进的YOLOv5和YOLOX目标检测基线上实现一致的性能增益。
解读 Centralized Feature Pyramid for Object Detection
我们的贡献总结如下:

  1. 我们提出了一种空间显式视觉中心方案,该方案包括一个用于捕获全局长距离依赖的轻量级MLP和一个用于聚集局部关键区域的可学习视觉中心。
  2. 我们以自上而下的方式为常用特征金字塔提出了一个全球集中的规则。
  3. CFP在强目标检测基线上实现了一致的性能增益。

II RELATED WORK

第二点就不说了,感兴趣可以看一下原文,主要介绍第三点。

III. OUR APPROACH

在本节中,我们将介绍所提出的集中式特征金字塔(CFP)的实现细节。我们首先在第III-A节中概述了CFP的架构描述。

然后,我们在第III-B节中展示了显式可视化提交4中心的实现细节。最后,我们展示了如何在图像特征金字塔上实现显式视觉中心,并在第III-C节中提出了我们的全局集中规则。

A、 集中式特征金字塔(CFP)

尽管现有的方法主要集中在层间特征交互上,但它们忽略了层内特征规则,这已被经验证明有利于视觉识别任务。在我们的工作中,受先前关于密集预测任务的工作[的启发,我们提出了一种基于全局显式集中层内特征规则的CFP对象检测方法。与现有的特征金字塔相比,我们提出的CFP不仅能够捕获全局长距离依赖关系,而且能够实现全面和差异化的特征表示。如图2所示,CFP主要由以下部分组成:输入图像、CNN主干用于提取视觉特征金字塔、提议的显式视觉中心(EVC)、提议的全球集中调节(GCR)以及用于对象检测的解耦头部网络(包括分类损失、回归损失和分割损失)。在图2中,EVC和GCR在提取的特征金字塔上实现。

具体来说,我们首先将输入图像馈送到骨干网络(即,改进的CSP v5]),以提取五层的特征金字塔X,其中特征Xi(i=0,1,2,3,4)的每一层的空间大小分别为输入图像的1/2,1/4,1/8,1/16,1/32。基于此特征金字塔,我们的CFP得以实现。提出了一种轻量级MLP架构来捕获X4的全局长距离依赖关系,其中标准变压器编码器的多头自关注模块被MLP层所取代。与基于多头注意机制的变压器编码器相比,我们的轻量级MLP架构不仅结构简单,而且体积更轻,计算效率更高(参见第III-B节)。此外,一个可学习的视觉中心机制与轻量级MLP一起用于聚集输入图像的局部角区域。

我们将上述并行结构网络命名为空间EVC,它在特征金字塔的顶层(即X4)上实现。基于所提出的ECV,为了使特征金字塔的浅层特征能够同时以高效模式从最深特征的视觉集中信息中受益,其中从最深的层内特征获得的显式视觉中心信息用于同时调节所有的前浅特征(即X3至X2)。最后,我们将这些特征聚合到一个解耦的头部网络中进行分类和回归。
解读 Centralized Feature Pyramid for Object Detection
解读 Centralized Feature Pyramid for Object Detection

B. Explicit Visual Center (EVC)

如图3所示,我们提出的EVC主要由两个并行连接的块组成,其中轻量级MLP用于捕获顶层特征X4的全局长程依赖关系(即全局信息)。

同时,为了保留局部角点区域(即局部信息),我们在X4上实现了一种可学习的视觉中心机制,以聚集层内局部区域特征。这两个块的结果特征图沿着信道维度连接在一起,作为用于下游识别的EVC的输出。在我们的实现中,在X4和EVC之间,Stem块用于特征平滑,而不是直接在原始特征图上实现。Stem块由输出通道大小为256的7×7卷积组成,随后是批量标准化层和激活功能层。

MLP:使用的轻量级MLP主要由两个剩余模块组成:基于深度卷积的模块和基于通道MLP的块,其中基于MLP的模块的输入是基于深度卷曲的模块的输出。这两个块之后都是信道缩放操作和DropPath操作,以提高特征泛化和鲁棒性能力。

具体而言,对于基于深度卷积的模块,从Stem模块Xin输出的特征首先被馈送到深度卷积层中,该层已通过组归一化处理(即,特征图沿信道维度分组)。与传统的空间卷积相比,深度卷积可以提高特征表示能力,同时降低计算成本。

然后,实现信道缩放和丢弃路径。之后,Xin的剩余连接被实现。Xin输出的特征首先被馈送到a组归一化,然后基于这些特征实现信道MLP。与空间MLP相比,通道MLP不仅可以有效降低计算复杂度,而且可以满足一般视觉任务的要求。之后,通道缩放,丢弃路径,
LVC:LVC是一个具有固有字典的编码器,具有两个组件:1)固有码本:B={b1,b2,…,bK},其中N=H×W是输入特征的总空间数,其中H和W分别表示特征图的高度和宽度的空间大小;2) 可学习视觉中心的一组缩放因子S={s1,s2,…,sK}。具体而言,来自stem的Xin的特征首先通过一组卷积层(由1×1卷积、3×3卷积和1×1褶积组成)的组合进行编码。然后,编码特征由CBR块进行处理,该块由3×3卷积与BN层和ReLU激活函数组成。通过上述步骤,编码特征“Xin”被输入到码本中。为此,我们使用一组比例因子s按照顺序地使xi和bk映射相应的位置信息。整个图像的信息关于第k个码字可以通过以下方式计算:解读 Centralized Feature Pyramid for Object Detection
中,xi是第i个像素点,bk是第k个可学习的视觉码字,sk是第k种比例因子。 xi− bk是关于相对于码字的每个像素位置的信息。K是视觉中心的总数。之后,我们使用φ融合所有ek,其中φ包含BN层和ReLU层以及平均池化层。基于此,整个图像相对于K个码字的完整信息计算如下。
解读 Centralized Feature Pyramid for Object Detection
在获得码本的输出后,我们进一步将e送到全连接层和1×1卷积层,以预测突出关键类的特征。之后,我们使用Stem块Xin的输入特征与缩放因子系数δ之间的逐通道乘法。

上述过程表示为解读 Centralized Feature Pyramid for Object Detection
δ(·) 是sigmoid函数
在从Stem块输出的特征Xin和局部角区域特征Z之间执行信道相加,其公式为:
解读 Centralized Feature Pyramid for Object Detection⊕ 是通道加法

C. Global Centralized Regulation (GCR)

EVC是一种广义的层内特征调节方法,它不仅可以提取全局长距离相关性,而且可以尽可能地保留输入图像的局部角点区域信息,这对于密集预测任务非常重要。然而,在特征金字塔的每一级使用EVC将导致大量的计算开销。

为了提高层内特征调整的计算效率,我们进一步以自顶向下的方式提出了一种特征金字塔的GCR。具体而言,如图2所示,考虑到最深的特征通常包含最抽象的特征表示,这在浅层特征中是罕见的,我们的空间EVC首先在特征金字塔的顶层(即X4)上实现。然后,使用所获得的包括空间显式视觉中心的特征X来同时调节所有额叶浅特征(即X3至X2)。在我们的实现中,在每个对应的低层特征上,将在深层中获得的特征上采样到与低层特征相同的空间尺度,然后沿信道维度进行连接。在此基础上,通过1×1卷积将级联特征下采样为256的信道大小。通过这种方式,我们能够显式地增加自顶向下路径中特征金字塔每一层的全局表示的空间权重,从而我们的CFP可以有效地实现全面但有区别的特征表示。

IV. EXPERIMENTS

在这项工作中,使用MS-COCO来验证我们提出的CFP的优越性。在我们的实验中,为了公平比较,所有的训练图像都被调整为640×640的固定大小。为了增强数据,我们在实验中采用了常用的Mosaic和MixUp。

评估指标。我们主要遵循实验中常用的目标检测评估指标——平均精度(AP),包括AP50、AP75、APS、APM和APL。此外,为了量化模型效率,还使用了GFLOP、每秒帧数(FPS)、延迟和参数(参数)。特别是,延迟和FPS在没有进行后处理的情况下进行测量,以便进行公平比较。

为了公平比较,我们选择YOLOv5(即修改的CSPNet v5)作为骨干网络。输出的特征图是第5阶段的特征图,它包括三个卷积(Conv、BN和SiLU[61])操作和一个空间金字塔池[62]层(5×5、9×9和13×13)。
解读 Centralized Feature Pyramid for Object Detection文章来源地址https://www.toymoban.com/news/detail-440618.html

到了这里,关于解读 Centralized Feature Pyramid for Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【目标检测论文阅读笔记】FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection

             由于其固有的特性, 小目标在多次下采样后的特征表示较弱 ,甚至在背景中消失 。 FPN简单的特征拼接  没有充分利用多尺度信息 , 在信息传递中引入了不相关的上下文 ,进一步降低了小物体的检测性能 。为了解决上述问题,我们提出了简单但有效的 FE-YOLO

    2024年02月07日
    浏览(51)
  • MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 论文解读

    单目目标检测在自动驾驶领域,一直是一个具有挑战的任务。现在大部分的方式都是沿用基于卷积的2D 检测器,首先检测物体中心,后通过中心附近的特征去预测3D属性。 但是仅仅通过局部的特征去预测3D特征是不高效的,且并没有考虑一些长距离的物体之间的深度关系,丢

    2024年02月09日
    浏览(45)
  • 论文解读:Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions

    发布时间:2022.4.4 (2021发布,进过多次修订) 论文地址:https://arxiv.org/pdf/2112.08088.pdf 项目地址:https://github.com/wenyyu/Image-Adaptive-YOLO 虽然基于深度学习的目标检测方法在传统数据集上取得了很好的结果,但从在恶劣天气条件下捕获的低质量图像中定位目标仍然具有挑战性。现有

    2024年02月11日
    浏览(47)
  • 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection

    上一篇讲完了DETR相关原理和源码,打算继续再学习DETR相关改进。这次要解读的是21年发表的一篇论文: ICLR 2021:Deformable DETR: Deformable Transformers for End-to-End Object Detection 。 先感谢这位知乎大佬,讲的太细了: Deformable DETR: 基于稀疏空间采样的注意力机制,让DCN与Transformer一起玩

    2023年04月16日
    浏览(49)
  • 【代码解读】RRNet: A Hybrid Detector for Object Detection in Drone-captured Images

    首先我们将代码从GitHub上下载下来:代码地址 找到程序的主入口train.py这个类,可以看到这个类比较简单,大部分是引用其他类。具体每一个类的定义可以从不同小节中查看 2.1 init函数 首先来看这个类的初始化函数 2.2 train函数 2.3 dist_training_process函数 来看一下 init_operator 函

    2024年02月14日
    浏览(40)
  • 【论文阅读】 Few-shot object detection via Feature Reweighting

    Few-shot object detection的开山之作之一 ~~ 属于Metric-based Methods 特征学习器使用来自具有足够样本的基本类的训练数据来 提取 可推广以检测新对象类的meta features。The reweighting module将新类别中的一些support examples转换为全局向量,该全局向量indicates meta features对于检测相应物体的重

    2023年04月09日
    浏览(42)
  • Feature Prediction Diffusion Model for Video Anomaly Detection 论文阅读

    文章标题:Feature Prediction Diffusion Model for Video Anomaly Detection 文章信息: 发表于:ICCV 2023 原文链接:https://openaccess.thecvf.com/content/ICCV2023/papers/Yan_Feature_Prediction_Diffusion_Model_for_Video_Anomaly_Detection_ICCV_2023_paper.pdf 源代码:https://github.com/daidaidouer/FPDM 在视频异常检测是一个重要的研

    2024年01月17日
    浏览(54)
  • 《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解

    对身体器官的射线扫描结果图片中展示了详细的结构化信息,充分利用这种身体各个部分之间的结构化信息,对检测出身体存在的异常非常重要; 提出了使用空间感知队列来进行图片绘制和检测图片中存在的异常的方法(称为SQUID); 在两个胸部X射线基准数据集上,本文所

    2024年02月15日
    浏览(42)
  • 特征金字塔(Feature Pyramid Networks )

    前言:现在的很多网络都使用了利用单个高层特征(比如说Faster R-CNN利用下采样四倍的卷积层——Conv4,进行后续的物体的分类和bounding box的回归),但是这样做有一个明显的缺陷,即小物体本身具有的像素信息较少,在下采样的过程中极易被丢失,为了处理这种物体大小差异十

    2024年02月14日
    浏览(40)
  • DiffusionDet: Diffusion Model for Object Detection

    论文题目:DiffusionDet: Diffusion Model for Object Detection 论文来源:arXiv preprint 2022 论文地址:https://arxiv.org/abs/2211.09788 论文代码:https://github.com/ShoufaChen/DiffusionDet DDPM DDIM 传统方法根据经验设计region proposals/anchor boxes/queries等 本文可从随机初始化的boxes进行回归和分类 方法概述:

    2024年02月12日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包