OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

这篇具有很好参考价值的文章主要介绍了OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

地址：https://arxiv.org/pdf/2207.02255.pdf

1. 摘要

OSFormer为基于transformer的伪装实例分割(CIS)框架，有两个关键设计，首先是位置敏感transformer（LST），通过【位置引导查询】和【混合卷积前向传播网络】获得定位标签和实例级参数；第二，开发粗糙到精细融合模块（CFF）合并来自LST和CNN骨干的上下文信息。这两个组件的耦合使OSFormer能有效混合局部特征和远程上下文依赖，以预测伪装的实例。与两阶段框架比，OSFormer达到41%的AP，无需大量训练数据就能得到好的收敛效果（3040个样本，60个epoch)

代码：https://github.com/PJLallen/OSFormer

2. OSFormer

结构

4个基本组件：

(1) CNN骨干提取目标特征

(2) 局部敏感transformer（LST）产生实例级embedding

(3) 粗糙到精细融(CFF)合集成多尺度低级到高级特征，产生高分辨率mask特征

(4) 动态伪装实例归一化（DCIN）用于预测最后的实例掩码，如图2.

2.1 CNN骨干

采用多尺度特征C2-C5，为减少计算代价，直接flatten和concate最后的3个特征图（C3、C4、C5）到一个256个channel的序列Xm，输入到LST编码器。对于C2特征，将其输入CFF模块中，作为高分辨率、低级特征去捕捉更多伪装实例线索。

2.2 位置敏感transformer

transformer需要大量训练样本和高计算代价支持，由于CIS的数据有限，我们目的是设计一个收敛更快，精度相匹配的有效结构，图3展示了位置敏感trasnformer(LST)

LST编码器：

接收多尺度特征Xm取得丰富信息，将卷积运算引入到前馈网络中，称为混合卷积前馈网络（BC-FFN）。首先，根据Ci的形状将特征向量恢复到空间维度；然后，进行核大小为3×3的卷积层来学习归纳偏差；最后，添加GN和GELU形成前馈网络。在3×3卷积层之后，将特征flatten回一个序列。给定输入特征Xb,BC-FFN可表示为：

整体生LST编码器可描述为：

Pm表示为位置编码，MDAttn和LN分别表示多头可变形自注意和层归一化。

位置引导查询：

对象查询在transformer中扮演着关键角色，它被用作解码器的初始输入，并通过解码器层获得输出嵌入；然而，普通DETR收敛速度较慢的原因之一是对象查询是零初始化的，为此，我们提出位置敏感查询，充分利用LST编码器的多尺度特征图Ti,i=3,4,5.受【SOLO】的启发，我们首先将恢复后的特征图T3-T5调整为S_i×S_i×D，i = 1,2,3的形状；然后，将resize后的特征划分为S_i×S_i的特征网格，并将其flatten，以生成位置引导查询Q。在这种情况下，所提出的位置引导查询可以利用不同位置的可学习的局部特征来优化初始化，并有效地聚合伪装区域的特征。与零初始化或随机初始化相比，该查询生成策略提高了transformer解码器中查询迭代的效率，加快了训练的收敛速度。

LST解码器

LST解码器对于与（LST编码器产生的）全局特性和位置引导查询进行交互是必要的，以产生具有实例感知的嵌入。空间位置编码也被添加到我们的位置引导查询QL和编码器存储Xe中。之后，它们被可变形的交叉注意层融合。BC-FFN也用于可变形的注意操作后，类似于LST编码器。给定位置引导的查询QL，我们的LST解码器的pipeline被总结为:

其中，Ps表示基于特征网格的位置编码,MDCAttn表示为多头可变形的交叉注意操作。Xd是实例感知表示的输出嵌入。最后，Xd被恢复后，输入到DCIN模块用于预测mask

2.3 粗糙的精细的融合

OSFormer致力于利用LST编码器输出的多级全局特性来产生共享mask特征，为了合并不同的上下文信息，我们还融合了来自CNN主干的低级特征C2作为补充，得到了一个统一的高分辨率特征图F，详细结构如图4.我们以多级特征C2、T3、T4和T5作为级联融合的输入。

考虑到伪装的边缘特征的捕获更具有挑战性，设计了一个嵌入在CFF中的反向边缘注意（REA）模块来监督迭代过程中的边缘特征。REA操作于边缘特征，而不是预测的二进制mask。此外，用于监督的边缘标签是通过侵蚀实例mask标签获得的，没有任何手动标签。输入特征同时由AvgPool和MaxPool操作。然后，将它们连接并转发到一个7×7卷积和一个sigmoid函数中。之后，将注意力权重反转，并通过元素乘法将其应用到融合特征F_f中。最后，我们使用3×3卷积来预测边缘特征。假设输入特征为Ti，每个REA模块的整个过程可以表述如下:

[;]表示channel上的连接。总之，所提出的CFF提供了一个共享的mask特征F来输入DCIN，以预测每个实例的最终伪装mask.

2.4 动态伪装实例归一化

引入动态伪装实例规范化（DCIN）来预测最终mask。当DCIN从LST解码器接收到输出嵌入Xd时，使用全连接层（FC）来获得位置标签。同时，多层感知机（MLP）来获得大小为D（即256）的实例参数。在训练阶段，根据GT指定正例、负例位置。利用正例位置的实例感知参数来生成分割掩码。在测试阶段，利用位置标签的置信度来过滤（见图5）无效的参数（例如阈值> 0.5）

随后，对过滤后的位置感知参数进行两层线性操作，获得仿射权值ω和偏置β。最后，它们与共享mask特征F一起使用来预测伪装实例，可以描述为:

P为预测mask(HxWxN),N为预测实例的数量，Ux4为上采样4倍。最后，使用Matrix NMS【参考SOLOV2】去获得最终的实例。

2.5 损失函数

整体损失函数可写为：

其中Ledge是监督我们的CFF中不同级别的边缘的边缘损失.

边缘损失可定义为：

J表示用于监督的边缘特征级别的总数，λ_edge是边缘损失的权重，默认设置为1。由于CIS任务是类别不可知的，我们使用每个位置的伪装存在（Lloc）的置信度，而不是一般实例分割中的分类置信度。Lloc由Focal loss实现，Lmask为Dice loss,λloc和λmask分别设置为1和3，以平衡总损失。

文章来源地址https://www.toymoban.com/news/detail-519088.html

3. 实验

文章同步自公众号【卫超cv】

OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers