【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization

这篇具有很好参考价值的文章主要介绍了【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


论文:https://arxiv.org/abs/2303.10438
代码:https://github.com/wpy1999/SAT/blob/main/Model/SAT.py

方法

【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization
这篇文章的方法应该属于FAM这一类。

  1. 额外添加的一个spatial token,从第10-12层开始,利用其得到的attn map (对hea求mean–B, 1, 1, N+2) 作为visual cue去指出oject region,作用方式为将attn map 点乘到 attn weights(B, h, N+2, N+2)

  2. attn map得到的方式:不同与attn weights 是经过softmax,它这里是经过Sigmoid的。至于为什么,可能是Sigmoid后得到的map 激活更完整吧

  3. 最后的localization map是将前面L层的attn map求mean。虽然这种方法可以最大限度地捕获分类网络中的定位信息,但是从图像级标签获得的像素级监督是稀疏和不平衡的。为了补偿和加强这种监督,我们设计了批量区域损失和归一化损失。

    1. Bach Area Loss

      L b a = ∣ ∑ b B ∑ i H ∑ j W ( λ − M b ( i , j ) B × H × W ) ∣ \mathcal{L}_{b a}=\left|\sum_{b}^{B} \sum_{i}^{H} \sum_{j}^{W}\left(\lambda-\frac{M_{b}(i, j)}{B \times H \times W}\right)\right| Lba= bBiHjW(λB×H×WMb(i,j))

      让激活区域更紧致,这类Loss这WSOL和WSSS很常见。

      where λ is a sparse area supervision with prior knowledge.The λ is set to 0.25 and 0.35 on CUB-200 and ImageNet.

    2. Normalization Loss

      L norm  = 1 H × W ∑ i H ∑ i W M ∗ ( i , j ) ( 1 − M ∗ ( i , j ) ) \mathcal{L}_{\text {norm }}=\frac{1}{H \times W} \sum_{i}^{H} \sum_{i}^{W} M^{*}(i, j)\left(1-M^{*}(i, j)\right) Lnorm =H×W1iHiWM(i,j)(1M(i,j))

      增强前-背景的区分度。应该会使得前景的激活响应更强,背景的激活响应更弱。

      在计算这个loss之前先用高斯滤波对loc map处理,增强局部一致性。(那为什么batch area loss之前 不先用高斯滤波处理??)

  4. 分类就跟之前transformer-based的方法一样,将patch token 变回feature map的形式,经过一层3x3 conv 后接avgpooling

注意:这篇文章的定位仅依赖于spatial token 带来的 attn map,不同与一些之前transformer-based的方法将attn map 与 semantic map 耦合。

实验

现有方法对比

【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization

在ImageNet上的消融,四幅图对应四种情况

【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization
area loss 和 normalization loss 效果我比较关注;

不同backone下验证

【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization

为什么要额外加一个spatial token 而不直接利用原有的cls token?

【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization

文章里从优化角度解释

Limitation

【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization
在ImageNet上应该会有更多困难的情况。文章来源地址https://www.toymoban.com/news/detail-413378.html

到了这里,关于【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Exploiting Proximity-Aware Tasks for Embodied Social Navigation 论文阅读

    题目 :Exploiting Proximity-Aware Tasks for Embodied Social Navigation 作者 :Enrico Cancelli, Tommaso Campari 来源 :arXiv 时间 :2023 学习如何在封闭且空间受限的室内环境中在人类之间导航,是体现主体融入我们社会所需的关键能力。 在本文中,我们提出了一种端到端架构,该架构利用邻近感

    2024年02月12日
    浏览(42)
  • 论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    原文链接: 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting  [pdf]   [code] 本文创新点: 开发了一种新颖的修复框架 MAT,是第一个能够直接处理高分辨率图像的基于 transformer 的修复系统。 提出了一种新的多头自注意力 (MSA) 变体,称为多头上下文注意力 (MCA),只使用

    2024年02月08日
    浏览(47)
  • 【论文阅读】Relation-Aware Graph Transformer for SQL-to-Text Generation

    SQL2Text 是一项将 SQL 查询映射到相应的自然语言问题的任务。之前的工作将 SQL 表示为稀疏图,并利用 graph-to-sequence 模型来生成问题,其中每个节点只能与 k 跳节点通信。由于无法捕获长期且缺乏特定于 SQL 的关系,这样的模型在适应更复杂的 SQL 查询时将会退化。为了解决这

    2024年02月20日
    浏览(49)
  • 论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》

     目录 一、总述 1. 要解决的问题 2. 使用的方法 3. 取得的成果 二、摘要 三、介绍 四、相关工作 五、高分辨率网络 1. HigherHRNet i. HRNet ii. HigherHRNet 2. 分组 3. 反卷积模块 4. 多分辨率监督 5. 热图聚合策略 六、实验 1. COCO数据集关键点预测 2. 消融实验 3. CrowdPose 七、结论      

    2024年04月12日
    浏览(54)
  • 【论文阅读】Automated Runtime-Aware Scheduling for Multi-Tenant DNN Inference on GPU

    该论文发布在 ICCAD’21 会议。该会议是EDA领域的顶级会议。 Author Hardware Problem Perspective Algorithm/Strategy Improvment/Achievement Fuxun Yu GPU Resource under-utilization Contention SW Scheduling Operator-level scheduling ML-based scheduling auto-search Reduced inference makespan Fuxun Yu 是一名来自微软的研究员。主要研究

    2024年01月24日
    浏览(48)
  • RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 论文阅读笔记

    写在前面   又是一周周末,可惜今天运气不咋好,上午被小汽车撞自行车后座上了,手臂皮外伤,所幸人没事。下午继续淦论文吧。 论文地址:Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation 代码地址:原论文未提供 预计投稿于:CVPR 2

    2024年02月03日
    浏览(50)
  • 论文阅读 (94):Substructure Aware Graph Neural Networks (SAGNN, AAAI2023)

    题目 : 子结构感知图神经网络 (Substructure aware graph neural networks, SAGNN) 背景 :尽管图神经网络 (GNN) 在图学习方面取得了巨大成就,但由于GNN的传播范式与一阶Weisfeiler-Leman图同构测试算法 (1-WL) 的一致性,导致其难以突破1-WL表达能力的上限。 思路 :通过子图更容易区分原始图

    2024年02月12日
    浏览(58)
  • Object Class Aware Video Anomaly Detection through Image Translation 论文阅读

    文章信息: 原文链接:https://arxiv.org/abs/2205.01706 源代码:无 发表于:CRV 2022 半监督视频异常检测(VAD)方法将异常检测任务表述为对学习到的正常模式的偏离进行检测。 该领域中的先前工作(基于重建或预测的方法)存在两个缺点 : 1)它们专注于低级特征,特别是整体方

    2024年01月23日
    浏览(46)
  • 论文笔记:Spatial-Temporal Large Language Model for Traffic Prediction

    arxiv 2024 时空+大模型

    2024年04月24日
    浏览(50)
  • Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 论文阅读笔记

    写在前面   这周得加更两篇论文阅读笔记,完成 2023 的 flag。   此论文也是 Arxiv 比较新的文章,设计了一个大一统模型,解决图像和视频的指代分割问题,应该是篇大佬工作。 论文地址:UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 代码地址:https://github.com

    2024年02月03日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包