小目标分割论文阅读TPAMI-《Small-Object Sensitive Segmentation Using Across Feature Map Attention》

这篇具有很好参考价值的文章主要介绍了小目标分割论文阅读TPAMI-《Small-Object Sensitive Segmentation Using Across Feature Map Attention》。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文信息

paper:Small-Object Sensitive Segmentation Using Across Feature Map Attention
code:https://github.com/ShengtianSang/AFMA

内容

背景

要解决的问题:小目标分割困难——图像分割领域中,常采用卷积和池化等操作来捕获图像中的高级语义特征,但同时降低了图像/特征的分辨率,造成图像中的一些小对象(小目标)信息丢失,从而使模型很难从这些低分辨率的特征图中恢复出小目标的信息。

小目分割先前的研究工作

  1. 提升输入图像分辨率或生成高分辨率的特征图 ,缺点是增加训练和测试时间;(PS:个人测试过,通常情况下不好使)
  2. 更改模型结构,如加入skip connections, hypercolumns, feature pyramids, dilated convolution等结构,用多个低层次特征层的特征来加强高层次的小分辨的特征层的特征;缺点:集成多尺度表示的策略不能保证同一对象的特征对齐,且特征对语义分割的解释性不强
  3. 后处理 ,如马尔可夫随机场和基于条件随机场的后处理,参考文献 。 缺点:后处理是分割模型训练的一个独立部分,网络不能根据后处理输出来调整模型权重;
  4. 修改损失函数 改变损失函数的优点是它不会给分割模型引入额外的计算成本。但对语义分割来说,小目标分割的改进还不够具有可解释性。

作者的思想:(用同一类别中的大目标信息补偿小目标丢失的信息)
我们提出了一种新的小目标敏感分割策略,不依赖于增加数据规模,扩大图像/特征大小,或修改网络结构。考虑到同一物体类别往往具有相似的成像特征,利用同一类别内大小物体之间的关系来补偿特征传播带来的信息损失。
具体做法:提出了跨特征映射注意(Across Feature Map Attention, AFMA),它通过计算中间特征块与图像块之间的相互关系矩阵来表示同一类别对象的相似度。然后利用这种关系来增强小目标的分割。

作者的贡献:

  1. 提出了一种新的方法,即Across Feature Map Attention,来充分利用同一类别对象之间的关系,增强小目标的分割。
  2. 据我们所知,我们是第一个提出了用不同层次特征图之间的关系来表征注意力的方法。
  3. 与以往应用数据增强或多尺度处理的方法不同,我们的AFMA提供了更多可解释的特性(见论文4.4和4.5节)。
  4. 提出的AFMA是轻量级的,可以很容易地集成到各种架构中。例如,DeepLabV3、Unet、Unet++、MaNet、FPN、PAN、LinkNet和PSPNet,实现了2.5%、4.7%、3.0%、3.0%、2.5%、5.0%、4.0%和2.9%的改进,但只增加了不到0.1%的参数。

方法

AFMA为一种即插即用模块,可应用到现有的大部分分割模型中(插入在Encoder部分,输出作用在decoder的最终输出部分)。其应用如下图所示。(a)给出了通用的分割模型中使用AFMA模块的示意,(b)为AFMA 作用于具体的不同语义分割模型(文中实验采用的模型)的示意图。
小目标分割,论文阅读笔记,小目标分割,论文阅读,计算机视觉,深度学习

AFMA模块的具体结构如下图所示:
小目标分割,论文阅读笔记,小目标分割,论文阅读,计算机视觉,深度学习

(a)构造部分(模块插入)

  • 1 和 2.分别对输入图像和特征图(第i层)做卷积,将其通道数分别变为1和Nc(分割物体的类别数)
  • 3 和 4.分别对1和2的输出划分为相同尺寸的patch(不够整除时,特征图右、下方补0)。
  • 5.将步骤3、4 获得的patch进行展平,使用点积(矩阵乘)操作计算得到的特征图,得到大小为 H W d 2 × H 1 W 1 d 2 × N c \frac{HW}{d^2}\times \frac{{H_1}{W_1}}{d^2}\times N_c d2HW×d2H1W1×Nc的 AFMA。该 AFMA 保存的是原始图像图像块(可能包含小物体)和特征图特征块(可能包含大物体)之间的关系。

(b)使用部分(模块使用)

  • 6.采用平均池化将Decoder部分的输出调整至 步骤2 的尺寸

  • 7.对6的输出划分patch,同 步骤4 相同,其中每个patch的特征块包含的是模型原始结果的“压缩”结果。

  • 8.对步骤7的patch进行展平,并采用矩阵乘的方式计算与AFMA的结果,该结果表示原始输出可能包含的小物体信息。

  • 9.对步骤8的结果进行reshape,恢复至原来的尺寸,将其与Decoder部分的输出相加作为最终的预测结果。

(c)模块的金标准构造

  • 10.构造金标准的AFMA仅采用ground truth完成,同步骤6相同,采用平均池化操作,将ground truth的尺寸调整至 步骤2 的尺寸;对原始和采样后的ground truth进行patch操作,然后采用步骤5的方式计算得到金标准的AFMA。示意图如下图所示。
    小目标分割,论文阅读笔记,小目标分割,论文阅读,计算机视觉,深度学习

训练损失:分割部分采用交叉熵损失,AFMA模块采用MSE损失。

实验

实验细节:
  数据集:CamVid and Cityscape
  小目标定义:CamVid:sign symbol, pedestrian, pole, bicyclist。Cityscape:pole, traffic
light, traffic sign, person, rider, motorcycle, bicycle。
结果:

在两个数据集上行的实验结果分别如下图所示:

CamVid数据集的结果
小目标分割,论文阅读笔记,小目标分割,论文阅读,计算机视觉,深度学习

Cityscape数据集的结果

小目标分割,论文阅读笔记,小目标分割,论文阅读,计算机视觉,深度学习
小目标分割,论文阅读笔记,小目标分割,论文阅读,计算机视觉,深度学习

不同关注深度的AFMA在CamVid数据集上的测试结果:
小目标分割,论文阅读笔记,小目标分割,论文阅读,计算机视觉,深度学习
文中做作者也给出了一些错分的案例(详见论文4.8部分):
  例子1:CamVid数据集中,bicyclist定义为骑着自行车的人(bicyclist = human + bycycling),作者所提的方法独立计算了骑自行车者的人和自行车的AFMA,从而使骑自行车的人与行人有更多的相似之处,而自行车与汽车有更多的关联,如下图(a)(b)。
  例子2:AFMA丢失了一些局部关系,产生了局部偏见,如下图(c)所示,基线方法将树枝上的天空分割成与ground truth相同的树。而AFMA在此区域上添加了包含天空的图像patch上的关系,从而将此区域划分为天空。
  例子3:标签不一致(未被标记的)小物体会导致分割错误,如下图(d)和(e)。作者所提的方法对测试集中没有标记的远处的小树和远处的小电线杆进行了分割。
小目标分割,论文阅读笔记,小目标分割,论文阅读,计算机视觉,深度学习

讨论

1. Why not directly resize the input image to obtain AFMA?
  作者通过实验发现,直接调整输入图像的大小计算AFMA的性能要比所提的方法低得多。这可能是因为feature map比调整后的图像patch(同样大小)具有更大的感受野和更丰富的语义信息。
2. The shape/size of the image/feature patch.
  作者在文中提到,AFMA对于 image/feature patch的shape/size有一定的偏好,如在计算AFMA时,汽车类别可能倾向于正方形的图像/特征块,而柱子类的对象可能倾向于细长矩形图像/特征块。
3. What if an image only has one object for a given class?
  作者的方法利用对象之间的关系来补偿小对象的信息损失。因此,标准的应用场景为一个图像中同一类的物体至少存在两个。但是,在某些场景中,图像中可能只有一个特定类型的对象。作者的实验所采用的两个数据中单独出现的对象很少。为此作者额外补充了一些单对象分割的实验。在肝脏分割(LiTS5)、皮肤损伤(skin lesions Analysis Towards Melanoma Detection)和鸟类(the CaltechUCSD birds)这三个数据集上进行实验验证。PAN分割模型加入AFMA后在皮肤病灶分割上提高了1.9%的mIoU, MaNet分割模型加入AFMA后在鸟类分割上提高了3.6%的mIoU。作者认为这是因为AFMA可以增强目标物体与其他图像patch之间的不相关关系,从而消除目标物体的假阳性预测。文章来源地址https://www.toymoban.com/news/detail-693607.html

到了这里,关于小目标分割论文阅读TPAMI-《Small-Object Sensitive Segmentation Using Across Feature Map Attention》的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 毫米波雷达成像论文阅读笔记: IEEE TPAMI 2023 | CoIR: Compressive Implicit Radar

    原始笔记链接:https://mp.weixin.qq.com/s?__biz=Mzg4MjgxMjgyMg==mid=2247486680idx=1sn=edf41d4f95395d7294bc958ea68d3a68chksm=cf51be21f826373790bc6d79bcea6eb2cb3d09bb1860bba0af0fd5e60c448ca006976503e460#rd ↑ uparrow ↑ 点击上述链接即可阅读全文 毫米波雷达成像论文阅读笔记: IEEE TPAMI 2023 | CoIR: Compressive Implicit Radar Ab

    2024年02月12日
    浏览(32)
  • 【目标检测论文阅读笔记】RTMDet: An Empirical Study of Designing Real-Time Object Detectors(2022)

            在本文中,我们的目标是 设计一种高效的实时物体检测器,它超越了 YOLO 系列,并且可以轻松扩展到许多物体识别任务 ,例如实例分割和旋转物体检测。为了获得更高效的模型架构,我们探索了一种  在主干和颈部具有兼容能力的架构 ,该架构  由一个 由 大核

    2024年02月07日
    浏览(62)
  • 【论文阅读】多目标跟踪—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box

    写在前面: ByteTrack作者今年3月的新作品,升级了的V2版本并不是仅仅将ByteTrack扩展到三维场景,而是在二阶段匹配的框架下,结合了JDT和TBD常用的两种基于运动模型进行匹配的方法,提出了一种新的运动匹配模式,思路新颖,在三维MOT数据集nuScence上也达到了state-of-the-art。注

    2024年02月04日
    浏览(48)
  • 【计算机视觉】小目标检测综述:A Survey of the Four Pillars for Small Object Detection

    针对小目标检测的综述,分析难点、梳理四大类方法、收集数据集、讨论未来研究方向。 小目标检测问题的四种主要解决方案: 多尺度表示、上下文信息、超分辨率和区域提议。 此调查还收集了相关的小目标数据集。 小目标覆盖图像面积小,用于目标检测的有效特征少,但

    2024年04月09日
    浏览(48)
  • 论文阅读--Cell-free massive MIMO versus small cells

    论文信息 Ngo H Q, Ashikhmin A, Yang H, et al. Cell-free massive MIMO versus small cells[J]. IEEE Transactions on Wireless Communications, 2017, 16(3): 1834-1850.   无蜂窝大规模MIMO中没有小区或者小区边界的界定,所有接入点通过回程网络进行相位相干协作,并通过时分双工(TDD)操作为同一时频资源中的

    2024年02月07日
    浏览(38)
  • [论文笔记]小目标识别文献综述Towards large-scale small object detection: Survey and Benchmarks

    2022_cite=12_Cheng——Towards large-scale small object detection: Survey and Benchmarks https://shaunyuan22.github.io/SODA/ 小目标检测= small object detection = SOD Datasets: SODA-D: OneDrvie; BaiduNetDisk SODA-A: OneDrvie; BaiduNetDisk Codes The official codes of our benchmark, which mainly includes data preparation and evaluation , are released belo

    2024年02月10日
    浏览(44)
  • Video Object Segmentation[VOS][视频目标分割]

    点击这里跳过前言 前言: 本文写作的动机,是笔者最近开始接触video处理,希望能从社区中找到快速入门的文档,但是翻来覆去,对于VOS任务的文档都很少,质量也不高,因此笔者在阅读过VOS综述和文章后,写下这篇VOS的review。希望能够帮助读者快速入门VOS以及Video Processing相

    2024年04月12日
    浏览(33)
  • 【论文阅读】CubeSLAM: Monocular 3D Object SLAM

    这一部分是论文中最难理解的一章,作者的主要想法,是利用2d图像来生成3d的目标包围框(bounding box),一方面这个思路本身就不是很好懂,另一方面,作者写这一章还是用的倒叙,显得更难理解了。 3d包围框的定义 对于本文的3d包围框,需要使用九个量来定义,可以分为三

    2024年02月07日
    浏览(42)
  • 语义分割大模型RSPrompter论文阅读

    RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model RSPrompter 摘要 Abstract—Leveraging vast training data (SA-1B), the foundation Segment Anything Model (SAM) proposed by Meta AI Research exhibits remarkable generalization and zero-shot capabilities. Nonetheless, as a category-agnostic instance segmen

    2024年02月12日
    浏览(51)
  • 语义分割大模型SAM论文阅读(二)

    Segment Anything SAM 我们介绍了分割一切(SA)项目:一个新的图像分割任务,模型和数据集。在数据收集循环中使用我们的高效模型,我们建立了迄今为止(到目前为止)最大的分割数据集,在1100万张许可和尊重隐私的图像上拥有超过10亿个掩模。 该模型被设计和训练为提示 ,因此它

    2024年02月13日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包