OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

这篇具有很好参考价值的文章主要介绍了OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

地址:https://arxiv.org/pdf/2207.02255.pdf

1. 摘要

    OSFormer为基于transformer的伪装实例分割(CIS)框架,有两个关键设计,首先是位置敏感transformer(LST),通过【位置引导查询】和【混合卷积前向传播网络】获得定位标签和实例级参数;第二,开发粗糙到精细融合模块(CFF)合并来自LST和CNN骨干的上下文信息。这两个组件的耦合使OSFormer能有效混合局部特征和远程上下文依赖,以预测伪装的实例。与两阶段框架比,OSFormer达到41%的AP,无需大量训练数据就能得到好的收敛效果(3040个样本,60个epoch)

代码:https://github.com/PJLallen/OSFormer

2. OSFormer

结构

4个基本组件:

(1) CNN骨干提取目标特征

(2) 局部敏感transformer(LST)产生实例级embedding

(3) 粗糙到精细融(CFF)合集成多尺度低级到高级特征,产生高分辨率mask特征

(4) 动态伪装实例归一化(DCIN)用于预测最后的实例掩码,如图2.

2.1 CNN骨干

    采用多尺度特征C2-C5,为减少计算代价,直接flatten和concate最后的3个特征图(C3、C4、C5)到一个256个channel的序列Xm,输入到LST编码器。对于C2特征,将其输入CFF模块中,作为高分辨率、低级特征去捕捉更多伪装实例线索。

2.2 位置敏感transformer

    transformer需要大量训练样本和高计算代价支持,由于CIS的数据有限,我们目的是设计一个收敛更快,精度相匹配的有效结构,图3展示了位置敏感trasnformer(LST)

LST编码器

    接收多尺度特征Xm取得丰富信息,将卷积运算引入到前馈网络中,称为混合卷积前馈网络(BC-FFN)。首先,根据Ci的形状将特征向量恢复到空间维度;然后,进行核大小为3×3的卷积层来学习归纳偏差;最后,添加GN和GELU形成前馈网络。在3×3卷积层之后,将特征flatten回一个序列。给定输入特征Xb,BC-FFN可表示为:

​整体生LST编码器可描述为:

Pm表示为位置编码,MDAttn和LN分别表示多头可变形自注意和层归一化。

位置引导查询

    对象查询在transformer中扮演着关键角色,它被用作解码器的初始输入,并通过解码器层获得输出嵌入;然而,普通DETR收敛速度较慢的原因之一是对象查询是零初始化的,为此,我们提出位置敏感查询,充分利用LST编码器的多尺度特征图Ti,i=3,4,5.受【SOLO】的启发,我们首先将恢复后的特征图T3-T5调整为Si×Si×D,i = 1,2,3的形状;然后,将resize后的特征划分为Si×Si的特征网格,并将其flatten,以生成位置引导查询Q。在这种情况下,所提出的位置引导查询可以利用不同位置的可学习的局部特征来优化初始化,并有效地聚合伪装区域的特征。与零初始化或随机初始化相比,该查询生成策略提高了transformer解码器中查询迭代的效率,加快了训练的收敛速度。

LST解码器

    LST解码器对于与(LST编码器产生的)全局特性和位置引导查询进行交互是必要的,以产生具有实例感知的嵌入。空间位置编码也被添加到我们的位置引导查询QL和编码器存储Xe中。之后,它们被可变形的交叉注意层融合。BC-FFN也用于可变形的注意操作后,类似于LST编码器。给定位置引导的查询QL,我们的LST解码器的pipeline被总结为:

其中,Ps表示基于特征网格的位置编码,MDCAttn表示为多头可变形的交叉注意操作。Xd是实例感知表示的输出嵌入。最后,Xd被恢复后,输入到DCIN模块用于预测mask

2.3 粗糙的精细的融合

    OSFormer致力于利用LST编码器输出的多级全局特性来产生共享mask特征,为了合并不同的上下文信息,我们还融合了来自CNN主干的低级特征C2作为补充,得到了一个统一的高分辨率特征图F,详细结构如图4.我们以多级特征C2、T3、T4和T5作为级联融合的输入。

    考虑到伪装的边缘特征的捕获更具有挑战性,设计了一个嵌入在CFF中的反向边缘注意(REA)模块来监督迭代过程中的边缘特征。REA操作于边缘特征,而不是预测的二进制mask。此外,用于监督的边缘标签是通过侵蚀实例mask标签获得的,没有任何手动标签。输入特征同时由AvgPool和MaxPool操作。然后,将它们连接并转发到一个7×7卷积和一个sigmoid函数中。之后,将注意力权重反转,并通过元素乘法将其应用到融合特征Ff中。最后,我们使用3×3卷积来预测边缘特征。假设输入特征为Ti,每个REA模块的整个过程可以表述如下:

[;]表示channel上的连接。总之,所提出的CFF提供了一个共享的mask特征F来输入DCIN,以预测每个实例的最终伪装mask.

2.4 动态伪装实例归一化

    引入动态伪装实例规范化(DCIN)来预测最终mask。当DCIN从LST解码器接收到输出嵌入Xd时,使用全连接层(FC)来获得位置标签。同时,多层感知机(MLP)来获得大小为D(即256)的实例参数。在训练阶段,根据GT指定正例、负例位置。利用正例位置的实例感知参数来生成分割掩码。在测试阶段,利用位置标签的置信度来过滤(见图5)无效的参数(例如阈值> 0.5)

    随后,对过滤后的位置感知参数进行两层线性操作,获得仿射权值ω和偏置β。最后,它们与共享mask特征F一起使用来预测伪装实例,可以描述为:

P为预测mask(HxWxN),N为预测实例的数量,Ux4为上采样4倍。最后,使用Matrix NMS【参考SOLOV2】去获得最终的实例。

2.5 损失函数

    整体损失函数可写为:

其中Ledge是监督我们的CFF中不同级别的边缘的边缘损失.

边缘损失可定义为:

J表示用于监督的边缘特征级别的总数,λedge是边缘损失的权重,默认设置为1。由于CIS任务是类别不可知的,我们使用每个位置的伪装存在(Lloc)的置信度,而不是一般实例分割中的分类置信度。Lloc由Focal loss实现,Lmask为Dice loss,λloc和λmask分别设置为1和3,以平衡总损失。

 文章来源地址https://www.toymoban.com/news/detail-519088.html

3. 实验

文章同步自公众号【卫超cv】

OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

 

 

 

到了这里,关于OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

    Paper name FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection Paper Reading Note URL: https://arxiv.org/pdf/2104.10956.pdf 基于 Fcos 改进的 3d 检测方案,在 NeurIPS 2020 的 nuScenes 3d 检测比赛上取得了第一名成绩 Fcos3d 方案 将 7-DoF 3D 目标解耦为 2D 和 3D 的属性 考虑对象的二维比例,将对象分布到

    2023年04月08日
    浏览(54)
  • 论文精读:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》

    单目三维目标检测具有成本低的优点,是自动驾驶的一项重要任务。 由于其固有的不适定特性,其主要表现为缺乏深度信息,因而比传统的二维情形更具挑 战性。 二维检测的最新进展为更好地解决这一问题提供了机会。 然而,使一个通用的自适应二维探测器在这种三维任务

    2024年02月06日
    浏览(40)
  • 论文阅读——《Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement》

    本文试图从原理和代码简单介绍低照度增强领域中比较新的一篇论文——Retinexformer,其效果不错,刷新了十三大暗光增强效果榜单。 ❗ 论文名称 :Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement 👀 论文信息 :由清华大学联合维尔兹堡大学和苏黎世联邦理工

    2024年01月18日
    浏览(38)
  • 【半监督学习】5、Efficient Teacher | 专为 one-stage anchor-based 方法设计的半监督目标检测方法

    论文:Efficient Teacher: Semi-Supervised Object Detection for YOLOv5 出处:阿里 时间:2023.03 目标检测近年来的进展离不开大量的标注数据,但数据标识昂贵且耗时。 故此,半监督方法被提出,通过自动生成伪标签来利用大量的未标注数据。 目前的半监督学习有如下三个最重要的挑战:

    2024年02月05日
    浏览(50)
  • 论文阅读《Hierarchical Aggregation for 3D Instance Segmentation》

    Hierarchical Aggregation for 3D Instance Segmentation是一个用于实例分割的方法,他主要利用了点以及点集之间的空间关系,以此进行实例分割。大概步骤如下: 首先进行低带宽点汇集得到初步的实例以避免过度分割 之后进行动态带宽集合汇集以得到完整的实例 引入实例内网络进行去

    2024年02月04日
    浏览(36)
  • 目标检测-One Stage-YOLOx

    根据前文CenterNet、YOLOv4等可以看出学界和工业界都在积极探索使用各种tricks(anchor-free、各种组件、数据增强技术等等)来改进One Stage网络的表现,2021年旷视科技结合先进的改进技巧,产出了多种改进模型,在多种情况下达到速度和精度的SOTA。 值得一提的是,YOLOx使得YOLO系

    2024年01月23日
    浏览(28)
  • 目标检测-One Stage-YOLOv7

    自YOLOv4之后,其作者提出一些新的trciks,YOLOv7诞生主要贡献分为以下3个方面 设计了几种训练tricks(bag-of-freebies),使得实时目标检测可以在不增加推理成本的情况下大大提高检测精度 针对目标检测领域现有的两个问题提出解决方案:一是模块重参化如何高效合并,二是动态

    2024年01月25日
    浏览(27)
  • 目标检测-One Stage-YOLOv6

    YOLOv6 是美团视觉智能部研发的一款目标检测框架,致力于工业应用。论文题目是《YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications》。 和YOLOv4、YOLOv5等不同的是,YOLOv6对网络结构的改动较大。 除了模型的结构之外,YOLOv6的数据增强和YOLOv5的保持一致;而标签分配

    2024年01月23日
    浏览(26)
  • 目标检测-One Stage-YOLOv8

    终于到了YOLO系列最新最火爆的网络–YOLOv8,前面YOLOv5中已经提到ultralytics团队集成了先进的YOLO系列目标检测最佳实践,YOLOv8则是他们的最新力作。 YOLOv8本身的创新点不多,偏向工程实践。 提示:以下是本篇文章正文内容,下面内容可供参考 YOLOv8同样根据缩放给出了以下版本

    2024年01月19日
    浏览(28)
  • 目标检测-One Stage-YOLOv5

    前文目标检测-One Stage-YOLOv4提到YOLOv4主要是基于技巧的集成,对于算法落地具有重大意义,YOLOv5则在工程应用方面更近一步,将算法深度集成,使得使用者不用再过多关注算法实现,且提供了多种预训练模型,到目前为止,由ultralytics团队开发的 ultralytics 包,已经支持 YOLOv3

    2024年01月23日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包