【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS

这篇具有很好参考价值的文章主要介绍了【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分享一篇阅读的用于弱监督分割的论文

论文标题:

TransCAM: Transformer Attention-based CAM Refinement for Weakly Supervised Semantic Segmentation

作者信息:

【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习

代码地址:

https://github.com/liruiwen/TransCAM

Abstract

大多数现有的WSSS方法都是基于类激活映射(CAM)来生成像素级的伪标签,用于监督训练。但是基于CNN的WSSS方法只是凸出最具有区别性的地方,即CAM部分激活而不是整体对象。作者提出了TransCAM模型,它基于Conforme的backbone结构,利用transformer的attention权重来细化CNN分支的CAM。

Introduction

【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习

现有的方法: 基于CNN训练分类网络的激活CAM,然后训练一个完整的监督网络。
现有方法的缺点:主要是部分激活问题,由类模型生成的CAM倾向于突出对象中最具区别性的部分而不是整体(如图1所示)。作者认为这个根本是CNN造成的,它的局部性质的接受阈只捕获小范围的特征依赖性。(就是说CNN还是感受野小了,偏向Local).
作者的motivation: 和CNN相比,Transformer更加具备整体性,利用多头自注意和多层感知器来捕获远程语义关联。并且Transformer不太注重局部细节信息,这都比较利好WSSS任务。
作者的方法: 使用Conformer作为主干网络(一种结合CNN和Transformer的结构)。原本的Conformer仅仅通过隐形的方式(FCU结构)对transformer分支的注意力权重进行调整,导致WSSS任务表现不佳。作者提出了TransCAM模型,直接利用transformer的注意力权重微调cnn分支生成CAM。另外Transformer也跟CNN类似,低层次block和高层次block各有其特点,具体方法上,作者通过对所有的多头注意力权重值进行平均,进而构建同时embedding低level和高level特征affinity的注意图。

Methodology

【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习

3.1. Preliminaries

The Conformer network: 一个由CNN和trasformer组成的双主干网络(主要结构见figure2红色部分),上方是resnet,下方是vit,中间通过FCU模块继进行连接。
Class Activation Map: 常规的CAM方法,计算公式如下:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习

3.2. CAM Generation from Conformer

先通过CNN的分支,获得初始的CAM,记为 M M M
(作者分析了这种CAM比一般的单backbone的强,因为有transformer分支提供的fcn进行隐形的调节,没有充分利用注意权重的特征亲和信息进行定位。

3.3. Attention Map Generation

首先计算第 l l l层transformer block的attention权重,公式如下:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习
其实就是Q跟K的点集加上softmax(常规attention计算中,除了v的其他部分),然后在这个基础上,对每个head取平均值,然后再在多个transformer block上也求平均值(浅层block和深层block都一起算)
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习
同时这里剔除transformer中的cls token,因为后面用不到,即:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习

3.4. Attention-based CAM refinement

利用前面计算的attention权重,对初始的CAM进行refine。利用矩阵的乘法即可:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习
后面这个操作是reshape,让feature map重塑到相当的尺寸。

3.5 Training and Pseudo Label Generation

模型的分类的logits是由cnn分支和transformer分支共同作用输出的(见figrue2),即:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习
模型仅有分类损失函数,计算方法为:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习
其余设置和常规的WSSS任务一样,给背景手动设置score:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习
使用argmax获得伪标签:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习

Experiments

消融实验
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习

一阶段的结果:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习
二阶段的结果:
【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS,论文阅读,transformer,深度学习,语义分割,弱监督学习文章来源地址https://www.toymoban.com/news/detail-568707.html

到了这里,关于【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插帧的文章,q,kv,来自不同的图像 代码:【here】 传统的插帧方法多用光流,但是光流的局限性在于 第一:它中间会算至少两个 cost volumes,它是四维的,计算量非常大 第二:光流不太好处理遮挡(光流空洞)以及运动的边缘(光流不连续)

    2024年02月09日
    浏览(33)
  • EfficientViT: Memory Efficient Vision Transformer withCascaded Group Attention论文阅读

    高效的记忆视觉transformer与级联的群体注意 摘要。 视觉transformer由于其高模型能力而取得了巨大的成功。然而,它们卓越的性能伴随着沉重的计算成本,这使得它们不适合实时应用。在这篇论文中,我们提出了一个高速视觉transformer家族,名为EfficientViT。我们发现现有的tran

    2024年01月22日
    浏览(34)
  • Multi-Task Learning based Video Anomaly Detection with Attention 论文阅读

    文章信息: 原文链接:https://ieeexplore.ieee.org/document/10208994/ 源代码:无 发表于:CVPR 2023 基于多任务学习的视频异常检测方法将多个代理任务结合在不同的分支中,以便在不同情境中检测视频异常。然而,大多数现有方法存在以下一些缺点: I) 它们的代理任务组合方式不是以

    2024年01月20日
    浏览(34)
  • 论文阅读:CenterFormer: Center-based Transformer for 3D Object Detection

    目录 概要 Motivation 整体架构流程 技术细节 Multi-scale Center Proposal Network Multi-scale Center Transformer Decoder Multi-frame CenterFormer 小结 论文地址: [2209.05588] CenterFormer: Center-based Transformer for 3D Object Detection (arxiv.org) 代码地址: GitHub - TuSimple/centerformer: Implementation for CenterFormer: Center-base

    2024年02月07日
    浏览(31)
  • VL系列 Exchanging-based Multimodal Fusion with Transformer 论文阅读笔记

    写在前面   又是一个周末 教师节,祝老师们节日快乐呀。依惯例,论文读起来~   这是一篇多模态融合的文章,也算是这些年新出的一种方式了,具体还不知道啥情况,代码已开源,一试便知。 论文地址:Exchanging-based Multimodal Fusion with Transformer 代码地址:https://github.

    2024年02月05日
    浏览(45)
  • 论文阅读---《Unsupervised Transformer-Based Anomaly Detection in ECG Signals》

    题目:基于Transformer的无监督心电图(ECG)信号异常检测         异常检测是数据处理中的一个基本问题,它涉及到医疗感知数据中的不同问题。技术的进步使得收集大规模和高度变异的时间序列数据变得更加容易,然而,为了确保一致性和可靠性,需要复杂的预测分析模

    2024年02月14日
    浏览(33)
  • 论文阅读 (79):TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image

    2021:用于WSI分类的Transformer相关多示例 ( TransMIL: Transformer based correlated multiple instance learning for whole slide image classification ) WSI–MIL方法通常基于独立同分布假设,这忽略了不同实例之间的相关性。为了处理这个问题,提出了一个称为 相关多示例 的新框架。基于该框架,部署了

    2024年02月09日
    浏览(35)
  • 论文阅读:GameFormer: Game-theoretic Modeling and Learning of Transformer-based Interactive Prediction

    论文链接: https://arxiv.org/pdf/2303.05760.pdf 在复杂的现实环境中运行的自动驾驶车辆需要准确预测交通参与者之间的交互行为。本文通过用层次博弈论来表述交互预测问题并提出 GameFormer 模型来解决它的实现。该模型结合了一个 Transformer 编码器,可以有效地模拟场景元素之间的

    2024年02月20日
    浏览(35)
  • 论文阅读——《Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement》

    本文试图从原理和代码简单介绍低照度增强领域中比较新的一篇论文——Retinexformer,其效果不错,刷新了十三大暗光增强效果榜单。 ❗ 论文名称 :Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement 👀 论文信息 :由清华大学联合维尔兹堡大学和苏黎世联邦理工

    2024年01月18日
    浏览(39)
  • 【论文笔记】Attention和Visual Transformer

    Attention机制在相当早的时间就已经被提出了,最先是在计算机视觉领域进行使用,但是始终没有火起来。Attention机制真正进入主流视野源自Google Mind在2014年的一篇论文\\\"Recurrent models of visual attention\\\"。在该文当中,首次在RNN上使用了Attention进行图像分类 。 然而,Attention真正得到

    2024年02月07日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包