用于弱监督语义分割的多类token transformer

这篇具有很好参考价值的文章主要介绍了用于弱监督语义分割的多类token transformer。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

摘要

本文提出了一种新的基于Transformer的框架,将特定于类的对象定位映射学习为弱监督语义分割(WSSS)的伪标签。
标准视觉Transformer中一个类Token 的参与区域可以被利用来形成一个类不确定的定位映射
本文研究了Transformer模型是否也可以通过学习Transformer中的多个类Token 来有效地捕获特定于类的注意力,以进行更具鉴别性的对象定位。

本文提出了一个Multi-class Token Transformer ,称为MCTformer,它使用多个类Token 来学习类Token 和patch Token 之间的交互。MCTformer可以成功地从对应的不同类token 的 class-to-patch attentions生成类 区分对象定位图。

作者还建议使用patch级的成对affinity关系,这是从patch到patch Transformer中提取的,以进一步细化局部图。此外,所提出的框架被证明完全补充了类激活映射(CAM)方法,在PASCAL VOC和MS COCO数据集上获得了非常出色的WSSS结果。这些结果强调了类token对于WSSS的重要性。

用于弱监督语义分割的多类token transformer
图(a)在之前的vit中,只有一个类token(红色方框)用于从patch token(蓝色方框)中聚合信息。与类token相对应的学习patch attention生成一个类不可知的定位映射。
(b)提议的MCTformer使用多个类token来学习类token和patch token之间的交互。学习到的不同类token的类到patch attention生成特定于类的对象定位映射。

本文方法

MCTformer-V1

用于弱监督语义分割的多类token transformer
首先将输入的RGB图像分割并转换为补丁标记序列。我们建议学习C个额外的类token,其中C是类的数量。C类token与patch token连接,并添加位置嵌入(PE),然后通过连续的L变压器编码层。

最后,输出C类token用于通过平均池生成类分数。将最后K层和多头注意力聚集在一起,生成最终的注意图,从中我们可以分别从类到patch和patch到patch的注意中提取特定于类的对象定位映射和patch级的成对亲和映射。patch级的成对亲和可以用于细化特定类的注意力图,以生成改进的对象定位图

MCTformer-V2

用于弱监督语义分割的多类token transformer
在MCTformer-V1中引入了CAM模块
CAM模块由卷积层和全局平均池(GAP)层组成。
将来自最后一个转换器编码层的经过reshape的输出patch token作为输入,并输出类分数
对于MCTformer-V1,我们也使用输出类token来生成类分数。因此,通过将两种分类损失分别应用于两类预测,优化了整个模型。

在推理时,我们融合了MCT attention和PatchCAM图,通过从patch-to-patch transformer注意中提取patch affinity来进一步细化结果,从而生成最终的目标定位图。

其他细节:
模块融合:
用于弱监督语义分割的多类token transformer
Class-specific object localization map refinement:
用于弱监督语义分割的多类token transformer
patch2patch优化上面融合的模块

实验结果

用于弱监督语义分割的多类token transformer
用于弱监督语义分割的多类token transformer文章来源地址https://www.toymoban.com/news/detail-408115.html

到了这里,关于用于弱监督语义分割的多类token transformer的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】Swin Transformer Embedding UNet用于遥感图像语义分割

    Swin Transformer Embedding UNet for Remote Sensing Image Semantic Segmentation 全局上下文信息是遥感图像语义分割的关键 具有强大全局建模能力的Swin transformer 提出了一种新的RS图像语义分割框架ST-UNet型网络(UNet) 解决方案:将Swin transformer嵌入到经典的基于cnn的UNet中 ST-UNet由Swin变压器和CNN并联

    2024年02月08日
    浏览(38)
  • 医学影像系统弱监督语义分割集成的探索

    利用复杂数据集的低质量CAM预测来提高结果的准确性 使用低阈值CAMs以高确定性覆盖目标对象 通过组合多个低阈值cam,在突出显示目标对象的同时均匀地消除它们的错误 代码链接 文章链接 首先,在目标数据集上训练分类器模型(resnet) 其次,使用Grad-CAM为不同的分类器创建

    2023年04月09日
    浏览(28)
  • 弱监督语义分割(Weakly-Supervised Semantic Segmentation)

    语义分割是指将图像中的每个像素分类为一个实例,其中每个实例都对应于一个类。 这项技术一直是计算机视觉图像领域的主要任务之一。而在实际应用中,由于能准确地定位到物体所在区域并以像素级的精度排除掉背景的影响,一直是精细化识别、图像理解的可靠方式。

    2024年02月09日
    浏览(23)
  • 二十三章:抗对抗性操纵的弱监督和半监督语义分割的属性解释

            弱监督语义分割从分类器中生成像素级定位,但往往会限制其关注目标对象的一个小的区域。AdvCAM是一种图像的属性图,通过增加分类分数来进行操作。这种操作以反对抗的方式实现,沿着像素梯度的相反方向扰动图像。它迫使最初被认为不具有区分度的区域参与

    2024年02月15日
    浏览(50)
  • 语义分割任务中的Transformer

    Transformer 在语义分割中的使用主要有两种方式: patch-based Transoformer query-based Transformer Transformer最初应用于NLP领域,在NLP中称每个单词为token,而在CV中就是将图像切割成不重叠的Patch序列(其实就是token)。Patch-basedTransformer实际上是模仿NLP任务,将语义分割任务视为了一个 S

    2024年02月12日
    浏览(21)
  • 第一章 SegFormer(语义分割篇)——SegFormer: 简单高效的基于Transformer的语义分割设计

    原文:《SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers》 引用:Xie E, Wang W, Yu Z, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 12077-12090. 原文链接: https://proceedings.neurips.cc/paper/2021/file/6

    2024年02月16日
    浏览(29)
  • 语义分割系列26-VIT+SETR——Transformer结构如何在语义分割中大放异彩

    SETR:《Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers》 重新思考语义分割范式,使用Transformer实现语义分割。 论文链接:SETR VIT:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》 首次提出使用Transformer进行图像分类。 至于为什么要在介绍

    2024年02月07日
    浏览(27)
  • CutLER:一种用于无监督目标检测和实例分割的方法

    本文分享自华为云社区《CutLER:一种用于无监督目标检测和实例分割的方法》,作者:Hint。 目标检测是计算机视觉中的一种重要任务,使AI系统感知、推理、理解目标。训练定位模型需要特别的标注,比如目标的框、掩膜、定位点等。本文的工作研究了无监督的目标检测和实

    2024年02月12日
    浏览(28)
  • grad-CAM用于自己的语义分割网络【亲测】

    参考链接:https://github.com/jacobgil/pytorch-grad-cam  我遇到了 如下错误 解决方法: 将base_cam.py的第81行修改为:  就不报错了! 拿下!    

    2024年02月02日
    浏览(30)
  • [CVPR2022] 用于 3D 医学图像分析的 Swin Transformers 的自监督预训练

    Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis 摘要 Vision Transformer(ViT)在全局和局部表示的自监督学习方面表现出了出色的性能,这些表示它可以转移到下游任务的应用中。 提出模型:提出一种新的自监督学习框架Swin UNETR,它具有定制的代理任务,用于医学图像

    2024年02月15日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包