用于弱监督语义分割的多类token transformer

这篇具有很好参考价值的文章主要介绍了用于弱监督语义分割的多类token transformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

摘要

本文提出了一种新的基于Transformer的框架，将特定于类的对象定位映射学习为弱监督语义分割(WSSS)的伪标签。
标准视觉Transformer中一个类Token 的参与区域可以被利用来形成一个类不确定的定位映射
本文研究了Transformer模型是否也可以通过学习Transformer中的多个类Token 来有效地捕获特定于类的注意力，以进行更具鉴别性的对象定位。

本文提出了一个Multi-class Token Transformer ，称为MCTformer，它使用多个类Token 来学习类Token 和patch Token 之间的交互。MCTformer可以成功地从对应的不同类token 的 class-to-patch attentions生成类区分对象定位图。

作者还建议使用patch级的成对affinity关系，这是从patch到patch Transformer中提取的，以进一步细化局部图。此外，所提出的框架被证明完全补充了类激活映射(CAM)方法，在PASCAL VOC和MS COCO数据集上获得了非常出色的WSSS结果。这些结果强调了类token对于WSSS的重要性。

用于弱监督语义分割的多类token transformer
图(a)在之前的vit中，只有一个类token(红色方框)用于从patch token(蓝色方框)中聚合信息。与类token相对应的学习patch attention生成一个类不可知的定位映射。
(b)提议的MCTformer使用多个类token来学习类token和patch token之间的交互。学习到的不同类token的类到patch attention生成特定于类的对象定位映射。

本文方法

MCTformer-V1

用于弱监督语义分割的多类token transformer
首先将输入的RGB图像分割并转换为补丁标记序列。我们建议学习C个额外的类token，其中C是类的数量。C类token与patch token连接，并添加位置嵌入(PE)，然后通过连续的L变压器编码层。

最后，输出C类token用于通过平均池生成类分数。将最后K层和多头注意力聚集在一起，生成最终的注意图，从中我们可以分别从类到patch和patch到patch的注意中提取特定于类的对象定位映射和patch级的成对亲和映射。patch级的成对亲和可以用于细化特定类的注意力图，以生成改进的对象定位图

MCTformer-V2

用于弱监督语义分割的多类token transformer
在MCTformer-V1中引入了CAM模块
CAM模块由卷积层和全局平均池(GAP)层组成。
将来自最后一个转换器编码层的经过reshape的输出patch token作为输入，并输出类分数
对于MCTformer-V1，我们也使用输出类token来生成类分数。因此，通过将两种分类损失分别应用于两类预测，优化了整个模型。