即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

这篇具有很好参考价值的文章主要介绍了即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

Title: Task-Specific Context Decoupling for Object Detection

Paper: https://arxiv.org/pdf/2303.01047v1.pdf

导读

相比于图像分类任务而言,目标检测还需要定位出图像中每个感兴趣目标所在的位置。以最流行的YOLOv5检测器为例,输出端一般有三个不同的感受野分支,每个分支均是一个耦合的头部(Coupled Head),直接一步到位预测出分类和回归任务,如下图所示:

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

当然,这种用于分类和定位的共享头最早可追溯到来两阶段网络的Fast RCNN中,在早期的目标检测中几乎是标配。不过,正如TSD中指出的,两个子任务互相耦合其实是会极大的影响网络收敛的,它们之间存在一种空间不对齐(spatial misalignment)的问题,简单点理解就是两个子任务Focus的点并不同:

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

如图所示,某些显着区域的特征可能具有丰富的分类信息,而边界周围的特征可能擅长边界框回归。另外,还有Double-Head-Ext中也提到了类似的问题,作者同样通过实验分析并发现了一个有趣的事实,即两个头部结构对这两个子任务的偏好相反。根据文章的结论,作者提出全连接头可能更适合分类任务,而卷积头则更适合定位任务,这是因为fc-headconv-head具备更高的空间敏感性,具有更强的区分完整对象和部分对象的能力,但对于回归整个对象并不稳健。因此,作者提出了如下图所示的解耦头方法:

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

再接下来便是YOLOX直接把解耦头用上了,直接在YOLOv3的基础上提升了1.1个百分点的mAP

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

最后,便是主流的PPYOLO-EYOLOv6甚至是YOLOv5官方新出版的YOLOv8均采用了这种范式。本文同样围绕这个方向提出了一种新颖的即插即用的特定于任务的上下文解耦头(Task-Specific COntext DEcoupling, TSCODE),通过进一步解开两个任务的特征编码来提升网络整体的性能。实验表明,所提方法可以有效的提升现有目标检测器的性能!

动机

可能不少小伙伴还在纳闷,检测头解耦,不就是拆成两个独立分支分别做分类和定位,这还能怎么改?或者你以为是加点注意力去改善,但对不起,这次可能要让你失望了。如上所述,我们知道这两个子任务对特征上下文的偏好并不一致,其中,定位需要更多的边界感知特征来准确地回归边界框,而分类任务则需要更多的语义上下文信息。

而现有的方法通常都是利用解耦头来为每个任务学习不同的特征上下文。然而,不同head输入的特征却是相同的(没看懂的仔细观察上面的图片),作者认为这必然会导致分类和定位之间的仍然会有影响。于是,本文提倡对于分类任务应该生成空间粗糙但语义信息更强的的特征编码,而对于定位任务则需要提供包含更多边缘信息的高分辨率特征图,以更好地回归对象边界。笔者第一次看到的时候顿时有种“退一步海阔天空”的感觉。下面一起看看具体的实验分析:

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

图中显示的是NMS之前的结果,上半部分展示了利用原始FCOS推理结果,而下半部分则是插入TSCODE模块的效果。其中,与GT具有最高 IoU 的边界框以绿色框表示,而具有最高类别分数的前 3 个边界框以其他颜色标记。从图中可以明显的看出,原始的检测头机制存在明显的竞争关系,即具有最佳IoU(图中绿色框)的边界框反而具有较低的分类置信度,而具有最佳类别得分(图中蓝色框)的边界框却没有很好的贴齐目标,这岂不是乱了?

另一方面,我们可以观察到,加入TSCODE之后,图片瞬间变得清晰多了,即类别得分高的其目标框回归的也约贴近原始GT。这个方法也很简单,今天主要介绍下思想,下面快速的带大家过一遍,Let's go!

方法

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

一图胜千言,其实看图就知道作者在做什么了,但是遵循国际惯例,我们还是简单的讲解下凑下篇幅。

分类和定位是目标检测中两个高度相关但互相“矛盾”的任务。对于每个对象,分类属于粗粒度的戏细分任务,需要更丰富的语义上下文,而定位则相当细粒度,需要能提供更多丰富细节的边界信息。这一点不难理解,分类通常需要站在全局的角度去审时度势,这也是为什么大多数分类任务会采用全局上下文池化(Global Average Pooling, GAP)的原因。

如上所述,诸如YOLOX等常规的解耦头设置中,分类和回归分支都是共享来自Neck输出的相同输入特征。虽然它们使用单独的参数进行学习,以便为每个任务提供不同的特征上下文,即参数解耦,但这种简单的设计并不能从本质上解决问题。这是因为不同的输入特征其涵盖的语义和空间细节信息是并相同的。通常来说,低层特征具备更丰富的细节信息而缺乏语义信息,而高层特征则与之相反,这必然不能最大限度的发挥这种“解耦头”的优势。

如图所示,TSCODE整体的网络架构与常规的单阶段目标检测器并无多大差异,都是包含BackboneNeckHead。其中骨干网络充当特征提取器从输入图像生成多尺度特征图。随后通过类似于FPNBiFPN之类的特征金字塔结构进行深、浅层的特征融合,最后再分别输入到头部进行相应的解码输出。需要注意的是,这里TSCODE接收来自中间三个层级输出的特征图,并生成用于分类和定位的解耦特征图。更重要的是,TSCODE是即插即用的,可以很容易地集成到大多数流行的检测器中,无论是Anchor-based还是Anchor-free

至于为什么会选择中间三层特征,笔者猜想这是因为这三层在语义和细节信息的获取上是均衡的,严谨一点当然还是要做下消融实验验证下。下面一起看下这两个分支的具体操作流程。

Semantic Context Encoding for Classification

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

正如我们前面所提及的,分类任务需要更丰富的上下文语义信息。而深层特征便是具备这一特性,因此,一种自然而然的想法便是融合来自深层的特征,将丰富的语义信息嵌入到当前特征图中。

Detail-Preserving Encoding for Localization

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

另一方面,回归任务则需要更丰富的空间细节信息,这一点浅层特征能够提供所需要的。因此,很容易想到的一点便是将浅层的信息引导回流至下一层特征图中。一般而言,当前层级的特征以两个相邻层特征相关度较高,而其它层级的输出特征由于跨度太大可能会导致“语义鸿沟”(Semantic Gap),因此通常都会优先考虑相邻层的特征融合。作者此处便借鉴了U-Net的思想完成了一次改造。

效果

Ablation Studies

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

如表1所示,仅应用SCE可将基线模型的AP提高 0.6∼0.9 点,同时将FLOPs降低 9%。当同时应用SCEDPE时可以进一步提升模型性能,这说明两种机制本质上是互相促进的。

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

表2展示了SCE模块的消融实验,其表明了下采样方式采用 3 × 3 3\times3 3×3的步长卷积能取得最佳性能。

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

表3展示了DPE模块的消融实验,可以看出融合相邻层特征能获取最优的结果,并不是“越多越好”!

Generality to Different Detectors

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!

总结

本文深入的探讨了目标检测任务中分类和定位分支之间的"冲突"原因,并提出了一种新颖的特定于任务的上下文解耦头机制来极大的缓解这种现象。TSCODE通过语义上下文编码用于保留局部细节编码两种高效的设计将两个任务的语义上下文进行解耦,分别引入了更丰富的语义信息和用于定位的更多边缘信息的特征。最后,通过大量的实验验证表明了所提方法可以轻松插入各大主流的目标检测器小痛涨点!

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!

同时欢迎添加小编微信: cv_huber,备注CSDN,加入官方学术|技术|招聘交流群,一起探讨更多有趣的话题!文章来源地址https://www.toymoban.com/news/detail-450697.html

到了这里,关于即插即用! | 国防科大联合慕尼黑工业大学提出新型解耦头 TSCODE: 助力目标检测器轻松涨点!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CBAM——即插即用的注意力模块(附代码)

    论文:CBAM: Convolutional Block Attention Module 代码: code 目录 前言 1.什么是CBAM? (1)Channel attention module(CAM) (2)Spatial attention module(SAM) (3)CAM和SAM组合形式 2.消融实验 (1)Channel attention (2)Spatial attention (3)Channel attention+spatial attention 3.图像分类 4.目标检测 5.CBAM可视

    2024年02月02日
    浏览(69)
  • Ubuntu系统安装在移动固态硬盘,实现在不同电脑即插即用

    一个用于制作系统启动盘的U盘 UltraISO软件:直接百度搜索,下载试用版即可 DiskGenius软件(用于磁盘分区) 待安装系统的移动固态硬盘SSD 2.1 Ubuntu20.04系统下载 到Ubuntu官网找到自己想要的版本,比如20.04.5版本,下载对应的 ubuntu-20.04.5-desktop-amd64.iso 文件。 如果下载太慢,可以

    2024年02月03日
    浏览(50)
  • 改进YOLOv8系列:即插即用新的注意力机制RFAConv

    空间注意力已被广泛用于提高卷积神经网络的性能,使其能够专注于重要信息。然而,它有一定的局限性。在本文中,我们对空间注意的有效性提出了一个新的观点,那就是它可以解决卷积核参数共享的问题。尽管如此,由空间注意产生的注意图中所包含的信息对于大尺寸卷

    2023年04月21日
    浏览(82)
  • 即插即用篇 | YOLOv8 Gradio 前端展示页面 | 支持 【分类】【检测】【分割】【关键点】 任务

    Gradio 是一个开源库,旨在为机器学习模型提供快速且易于使用的网页界面。它允许开发者和研究人员轻松地为他们的模型创建交互式的演示,使得无论技术背景如何的人都可以方便地试用和理解这些模型。使用Gradio,你只需几行代码就可以生成一个网页应用程序,该应用程序

    2024年02月02日
    浏览(52)
  • 基于YoloV5的CFPNet---ECVBlock的小目标检测,即插即用,助力检测涨点

    论文地址: https://arxiv.org/abs/2210.02093 CFPNet即插即用,助力检测涨点,YOLOX/YOLOv5/YOLOV7均有效 如图2所示,CFP主要由以下部分组成:输入图像、用于提取视觉特征金字塔的CNN主干、提出的显式视觉中心(EV

    2023年04月20日
    浏览(48)
  • 改进YOLOv7系列:结合最新即插即用的动态卷积ODConv,有效涨点

    💡该教程包含大量的原创首发改进方式, 所有文章都是原创首发改进内容🌟 降低改进难度,改进点包含最新最全的Backbone部分、Neck部分、Head部分、注意力机制部分、自注意力机制部分等完整教程🌟 💡本篇文章为 基于 YOLOv7、YOLOv7-Tiny 、YOLOv5、YOLOv6、YOLOX、YOLOv4 结合 即插即用

    2024年02月07日
    浏览(52)
  • [AI绘画] 即插即用!SDXL+T2I-Adapters 高效可控的生成图片

    标题:T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models 论文:https://arxiv.org/pdf/2302.08453.pdf 博客:https://huggingface.co/blog/t2i-sdxl-adapters 代码:https://github.com/TencentARC/T2I-Adapter 使用地址:https://huggingface.co/spaces/TencentARC/T2I-Adapter-SDXL 大家好,AI 绘画太火

    2024年02月04日
    浏览(86)
  • CVPR‘2023 即插即用系列! | BiFormer: 通过双向路由注意力构建高效金字塔网络架构

    Title: BiFormer: Vision Transformer with Bi-Level Routing Attention Paper: https://arxiv.org/pdf/2303.08810.pdf Code: https://github.com/rayleizhu/BiFormer 众所周知, Transformer 相比于 CNNs 的一大核心优势便是借助自注意力机制的优势捕捉 长距离上下文依赖 。正所谓物极必反,在原始的 Transformer 架构设计中,这

    2023年04月09日
    浏览(44)
  • YOLOV8改进:顶刊TIP 2023 | CFP:即插即用的多尺度融合模块,有效涨点!

      特征金字塔网络现代识别系统中的一种基础网络结构,可有效地用于检测不同尺度的物体。 SSD  是最早使用特征金字塔结构表示多尺度特征信息的方法之一, FPN  则依赖于自下而上的特征金字塔结构,通过建立自上而下的路径和横向连接从多尺度高级语义特征图中获取特

    2024年02月09日
    浏览(84)
  • Pointnet++改进注意力机制系列:全网首发ShuffleAttention注意力机制 |即插即用,实现有效涨点

    简介: 1.该教程提供大量的首发改进的方式,降低上手难度,多种结构改进,助力寻找创新点! 2.本篇文章对Pointnet++特征提取模块进行改进,加入 ShuffleAttention 注意力机制,提升性能。 3.专栏持续更新,紧随最新的研究内容。 目录 1.理论介绍 2.修改步骤 2.1 步骤一        

    2024年01月18日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包