【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS

这篇具有很好参考价值的文章主要介绍了【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一篇CVPR2022上的论文,用于弱监督分割

论文标题:

Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segmentation

作者信息:

【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS

代码地址:

https://github.com/chenqi1126/SIPE

论文链接:

https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Self-Supervised_Image-Specific_Prototype_Exploration_for_Weakly_Supervised_Semantic_Segmentation_CVPR_2022_paper.pdf

Abstract

现有的WSSS方法通常依赖于类激活映射(CAM),它度量图像像素和分类器权重之间的相关性。然而,分类器只关注鉴别区域,而忽略了每幅图像中的其他有用信息,导致了不完整的定位映射。作者提出了一种自监督的Self-supervised Image-specific Prototype Exploration (SIPE)模型,包括一个Image-specific Prototype Exploration (IPE)模块(获得精细化的IS-CAM) 和 General-Specific Consistency (GSC) 损失函数(度量CAM和IS-CAM的差距)。

1.Introduction

【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
现有的方法: WSSS非常节省标注资源,大多数现有的方法都是利用类激活映射(CAM)[53]技术来提供目标对象的定位线索。这些方法训练一个分类器,并将其学习到的权重视为每个类的一般表示,即类中心(作者给出的自己的一个解释)。然后,利用该类中心与图像像素进行关联,得到定位图。
现有方法的缺点: CAM倾向于专注于一些主要区域(猫的头部),而忽略了其他有用的线索(猫的身体)。(这个缺点经常在很论文中提到)。
作者的motivation: 作者使用 t-SNE可视化相关方法,从训练好的分类网络中提取的前景的像素级特征可视化(Figure1),作者发现类中心(CAM)总是给离得近得像素(对应于一些主要区域)的高激活,而忽略了远处的像素。不平衡的激活导致了不完整的定位图。作者提出通过特征的中心(Figure1粉色,通过IPE模块提取原型获得)来辅助进行激活。
作者的方法: 作者提出了SIPE模型,包括提出了图像原型探索模型(IPE),获得图像的"原型"。IPE模块包括两步,第一步,利用像素间语义来探索空间结构线索,定位每个类的鲁棒种子区域。第二步,给定种子区域,提取特定于图像的原型,然后通过原型相关性生成的IS-CAM。另外,作者提出了一个通用特定一致性(GSC)损失来有效地规范原始的CAM和ISCAM,增强特征表示(监督refine CAM)。

2.Related Work

现有的方法大多采用类激活映射(CAM)来生成定位映射,然后将其细化为伪标签,以训练一个完全监督的分割模型。目前又这样几种策略来提高CAM的质量(具体不详细写了):

  • Erasure and accumulation.
  • Cross-image mining.
  • Background Modeling.
  • Self-supervised Learning

作者的这个方法也属于Self-supervised Learning,引入特定图像的原型来发现完整的区域,并构建自监督方式来增强特征表示(CAM)。

3. Approach

整体的方法的思路如下图:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS

3.1. Class Activation Mapping

常规的CAM的公式如下:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
公式(1)Mk表示对第k个特定类别激活获得的CAM,对于背景采用下列公式进行激活:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
公式(2)即减去所有的1减去其他类最大的 M k M_k Mk,然后乘以一个稀疏,得到对于背景的CAM。
总的激活即concat M k M_k Mk M b M_b Mb 即可获得。

3.2. Image-specific Prototype Exploration

IPE模块,主要包括两步:1.获取seeds区域。2.获取原型和更精细的IS-CAM。

Structure-aware Seed Locating:

作者认为尽管CAM比较注重关键的区分区域,但是仍在其余区域也能产生弱激活。作者提出了一种结构化的seeds处理方法,并以cam作为模板来匹配每个像素的最优类别。
具体做法如下图figure3所示:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
首先对于任意像素 i i i,将其和其他像素 j j j计算相关性,这个是计算它们所对应的语义特征的相关性,即从Figure2中获得Semantic features,在对应的每个像素出求余弦相似度。即:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
上述公式中的 f i f^i fi F s ( j ) F_s(j) Fs(j)在代码里面是一样的,relu是取非负。公式(3)就表示各个像素之间的相似度。作者认为高相关的像素可以突出空间结构。这里的 S S S作者称为struction map。
接着作者定义了一种评估方式,类似于 structure similarity,对于每一类,将器CAM和公式计算的 S i ( j ) S^i(j) Si(j)计算其IOU(可以理解为CAM和这个结构相似性 S i ( j ) S^i(j) Si(j)的重叠度),即:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
那么对一个具体的像素 i i i和类别 k k k C k i C_k^i Cki它们结构相似性。Figure3就想表达这个含义(前景像素(绿星)与猫的身体相关,与猫类的CAM达到最高的IoU,背景像素(红星)与前景像素没有关联,因此它更有可能属于背景类)
对于每个像素而言,根据公式(4)计算的最大的miou来确定该像素的类别,即:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
这里的 R R R作者称为seeds region(效果见figure 2)

Background-aware Prototype Modeling

作者改变了原resnet骨干网络的特征提取方式,用了类似于FPN(金字塔池化)那种多层次的方式,如下图:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
这样提取到的多层次的特征记为 F h F_h Fh,作者认为图像的原型就是表示为在种子区域上的多层次特征的中心。用公式表示如下:【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
公式中的双 L L L符号表示取真符号。(这个公式描述的是这个意思,但是代码里面用的两者相乘,然后再GAP)。(这里可以这样理解,这个就是一个原型就是按照seeds region所处位置,对特征的加权平均,像是一个关键点(中心点)代码中的格式是:prototypes:[n,21,c,1,1],c:768),总共输出有 k k k个类别原型和一个背景原型。)
接下来作者求取精细化的IS-CAM,利用公式:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
公式(7)是计算特征图在原型上的余弦相似度(从figure1来看,可以理解为特征图和图像中心点(原型)的相似程度),作者将其作为更加精细化的CAM(IS-CAM)。

简单总结一下作者获取IS-CAM的过程: backbone特征---->structure map(两两像素的余弦相似度)----->seeds region(计算和CAM的miou,按照最大的miou给像素分配类别)---->图像原型Prototype(分层特征在seeds region上取加权平均)—>IS-CAM(Prototype和分层特征的余弦相似度。

3.3 Self-supervised Learning with GSC

作者自监督过程中的损失函数,主要有两个:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
一个是CAM获得过程中的分类损失,如下公式:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
另外一个损失是评估IS-CAM和CAM差距损失,使用L1损失并进行norm归一化,作者称为General-Specific Consistency (GSC)损失,计算方式如下:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS

4. Experiments

在各种算法面前取得了sota的结果:
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS
【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS文章来源地址https://www.toymoban.com/news/detail-513064.html

到了这里,关于【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [论文阅读]Self-Supervised Learning for Videos: A Survey

    Schiappa, M. C., Rawat, Y. S., Shah, M. (2023). Self-Supervised Learning for Videos: A Survey. ACM Comput. Surv., 55(13s), 1–37. https://doi.org/10.1145/3577925 论文中文名称:视频的自监督学习综述 摘要: 深度学习在各个领域取得的显著成功依赖于大规模标注数据集的可用性。然而,获取标注是昂贵且需要巨

    2024年01月17日
    浏览(53)
  • 论文阅读:SERE: Exploring Feature Self-relation for Self-supervised Transformer

    Self-supervised 学习目的是在无人工标注的情况下通过自定制的任务(hand-crafted pretext tasks)学习丰富的表示。 使用 自监督学习 为卷积网络(CNN)学习表示已经被验证对视觉任务有效。作为CNN的一种替代方案, 视觉变换器 (ViT)具有强大的表示能力,具有 空间自注意力和通道

    2024年02月09日
    浏览(42)
  • MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 论文阅读

    题目 :MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 作者 :Weihao Xuan, Ruijie Ren, Siyuan Wu, Changhao Chen 时间 :2022 来源 : IEEE/SICE International Symposium on System Integration (SII) 深度学习的最新进展使移动机器人能够以自我监督的方式联合学习自我运动和深度图。 然而,现有的方

    2024年02月09日
    浏览(40)
  • 【论文阅读】OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

    原文链接:https://arxiv.org/abs/2312.09243 3D目标检测任务受到无限类别和长尾问题的影响。3D占用预测则不同,其关注场景的几何重建,但多数方法需要从激光雷达点云获取的3D监督信号。 本文提出OccNeRF,一种自监督多相机占用预测模型。首先使用图像主干提取2D特征。为节省空间

    2024年02月02日
    浏览(50)
  • 【自监督论文阅读笔记】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

    2023         本文展示了一种 学习高度语义图像表示 的方法,而 不依赖于手工制作的数据增强 。本文介绍了 基于图像的联合嵌入预测架构 (I-JEPA) ,这是一种用于从图像进行自监督学习的 非生成方法 。 I-JEPA 背后的想法很简单: 从单个上下文块,预测同一图像中各种目

    2024年02月09日
    浏览(44)
  • Self-supervised 3D Human Pose Estimation from a Single Image

    基于单幅图像的自监督三维人体姿态估计   主页: https://josesosajs.github.io/ imagepose/ 源码:未开源 我们提出了一种新的自我监督的方法预测三维人体姿势从一个单一的图像。预测网络是从描绘处于典型姿势的人的未标记图像的数据集和一组未配对的2D姿势训练的。通过最小化

    2024年02月10日
    浏览(42)
  • 论文解读:SuperPoint: Self-Supervised Interest Point Detection and Description

    发表时间: 2018年 项目地址:https://arxiv.org/abs/1712.07629 论文地址:https://github.com/magicleap/SuperPointPretrainedNetwork 本文提出了一种用于训练计算机视觉中大量多视点几何问题的兴趣点检测器和描述符的自监督框架。与patch-based的神经网络相比,我们的全卷积模型处理全尺寸的图像,

    2024年02月14日
    浏览(53)
  • 【深度学习】自监督学习详解(self-supervised learning)

    深度学习被分为:监督学习,无监督学习和自监督学习。 监督学习近些年获得了巨大的成功,但是有如下的缺点: 1.人工标签相对数据来说本身是稀疏的,蕴含的信息不如数据内容丰富; 2.监督学习只能学到特定任务的知识,不是通用知识,一般难以直接迁移到其他任务中。

    2024年02月07日
    浏览(48)
  • Video Self-Supervised Pertraining(Video SSL)

    Video Self-Supervised learning (SSL) :Video Model 在大规模 unabled dataset 上 Pertraining,然后在 labeled dataset 上 Finetuning: Video Pertraining Downstream Evaluation将预训练的Video Model经过Zero-Shot(不再训练)、Fine-tuning(需要再训练)、Linear probing(需要再训练).通常在以下Task上进行测试评估: A

    2024年03月14日
    浏览(68)
  • 计算机视觉 + Self-Supervised Learning 五种算法原理解析

    自监督学习是一种机器学习方法,它利用未标记的数据来训练模型,而无需人工标注的标签。相反,自监督学习通过利用数据中的自动生成的标签或任务来训练模型。 现在,让我使用拟人化的方法来解释自监督学习的原理。假设你是一个学习者,而计算机视觉任务是你需要完

    2024年02月11日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包