突破经典网格特征?AutoFocusFormer: Image Segmentation off the Grid 论文阅读笔记

这篇具有很好参考价值的文章主要介绍了突破经典网格特征?AutoFocusFormer: Image Segmentation off the Grid 论文阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


写在前面

  这一周赶上五一五天假了,朋友们出去 happy 了吗?有没有赶上人山人海的热闹?反正我只是在 5.1 那天出去走走,哈哈。
  这是一篇关于实例分割的文章,所解决的问题在于实例分割中需要的小目标像素分辨率太低,于是本文提出一种自适应下采样的方法来解决这一之前没有人想到要做的隐藏问题。

  • 论文地址:AutoFocusFormer: Image Segmentation off the Grid
  • 代码地址:https://github.com/apple/ml-autofocusformer/tree/main
  • 收录于:CVPR 2023
  • 温馨提示:这篇论文写作废话太多,抓不住重点,此篇写到一半结束了,但可作为反面教材学习避免一些糟糕的表达。
  • TiP:2023 每周一篇博文,主页更多干货输出,欢迎浏览、关注。粉丝量破 3K,期待您的参与~

一、Abstract

突破经典网格特征?AutoFocusFormer: Image Segmentation off the Grid 论文阅读笔记
  真实世界的图像内容总是密度不平衡分布,即大块的蓝天白云,小块的目标物体,如上图所示。经典的卷积网络对所有图像内容一视同仁。但由于小目标占据的空间位置非常小,以至分割等任务比较糟糕。于是,在下采样中保留更多的表示小目标的像素能够有助于留存重要的信息。本文提出一种局部注意力 Transformer 图像识别 Backbone,即 AutoFocusFormer (AFF) 方法,执行自适应下采样来学习保留最重要的像素信息。由于自适应下采样会产生一些不规则的像素分布,因此放弃了经典的grid结构,而提出了一种新的基于点的局部注意力 block,由一个平衡聚类模块和一个可学习的聚类融合模块组成。实验表明 AFF 的性能很棒。

二、引言

  首先指出现实世界图像内容分布通常不平衡,经典的卷积网络平等地对待图像上的内容,而忽视了不同目标的重要性。最近的 Transformer 方法虽然并不是严格依赖于 grid 结构,但是仍采用基于 grid 的技术,例如步长为 16 的卷积和 7 × 7 7\times7 7×7 的局部注意力滑动窗口。
  尽管卷积网络被普遍使用,但均匀下采样对于需要像素水平的细节信息例如分割任务,就力不从心了。于是首先想到的解决方法是提高输入图像分辨率,这样下采样后的特征图分辨率也随之提高,但是计算内存和计算量也随之增加。还有一些方法在分割解码器中采用不规则的采样点来尝试解决这一问题,但是仍然依赖于均匀下采样编码器,留下了一些均匀采样的隐患。
  为解决这一问题,需要模型能够在每张图像上非均匀采样,即 保留重要的细节信息同时压缩那些不太重要的区域。有一些方法简单的应用全局注意力机制进行自适应下采样,但全局注意力不会放缩到远高于 ImageNet 的分辨率,从而无法适应于类似图像分割的任务。
  为满足上述要求,本文提出提出第一个端到端的、连续自适应下采样阶段的网络,AutoFocusFormer (AFF)。为缩放高分辨率图到分割的要求,AFF 采用局部注意力 Block。为定义不规则采样 tokens 的局部注意力区域,提出一种平衡聚类算法,利用空间填充曲线将这些不规则的位置分组到区域,提出一种自适应下采样模块通过可微分的区域融合过程来学习不同图像位置的重要性。最终,修改分割头以使得能够适应 backbone 生成的不规则空间表示。
  本文提出的方法通过保留任意数量的token从而能拥有大量的计算预算,总体而言,贡献如下:

  • 第一个引入端到端的、有着弹性下采样率的连续自适应下采样;
  • 提出一组平衡聚类算法将 tokens 分组到区域内;提出一组聚类融合模块来启用端到端的自适应下采样学习;
  • 应用本文提出的算法到一些 SOTA 的框架内,验证了方法的泛化性;
  • 实验结果表明本文提出的方法能够显著地识别实例分割任务中的小目标。

三、相关工作

视觉 Transformer Backbones

  ViTs 模型缺乏稠密预测任务所需要的级联特征图,于是 MViT、PVT 出世了。但仍然是在全局注意力图上进行操作,因此所需要的计算成本随着输入图像的尺寸增大而增加。解决办法之一是应用低分辨率的特征图,例如 BoT、LeViT 等。另外一些方法修改注意力操作:Seg-Former、PoolFormer、AFT、Swin Transformer、SASA。

基于聚类的注意力

  基于稀疏注意力的聚类方法已经应用在视觉语言领域了,但是这些方法并未涉及自适应下采样。大多数方法尝试聚类学习到的特征,而本文提出基于 token 位置的聚类。有一些方法将聚类应用在解码器中,不同于这种,本文将聚类应用在编码器中。

自适应下采样

  有很多尝试结合自适应下采样与 ViTs 的方法,例如 AdaViT、DynamicViT、A-ViT、Dynamic Grained Encoder、EViT、PS-ViT。但这些方法仍然基于全局注意力图,因此不能缩放到高分辨率的分割任务,而是仅关注与加速 ImageNet 上的分类。有一些方法关注于自适应下采样策略的设计,总体趋势则是发现 tokens 的融合比 tokens 的减少似乎更自然。相应的,本文提出一种区域融合模块,能够自适应地选择融合位置,直接从损失中获得重要 tokens 的得分。

点云网络

  有一些 3D 点云方法,直接在一系列不规则的点上进行操作,例如:PointNet++、PointConv、Point Transformer。这些方法总是选择 K 个最近邻的或者为每个点找到若干个最近聚类中心。本文利用 PointConv 作为解码器模型来代替 3 × 3 3\times3 3×3 卷积。

四、方法

突破经典网格特征?AutoFocusFormer: Image Segmentation off the Grid 论文阅读笔记
  如上图所示:本文提出的 Backbone 模型主要由 patch embedding 模块和 4 个阶段以及一个特定任务头组成。其中每个阶段由一个聚类算法、一些局部注意力 Transformer 块、自适应下采样模块组成。

4.1 聚类和区域

  原始的聚类方法有着平方复杂度,于是一些方法通过引入对给定的点进行初次 k-means 聚类来加速 KNN。本文同样采用聚类来定义局部区域,即将 tokens 划分为类,将区域定义为包含多个邻近的聚类。但是传统的聚类方法不能直接完成这一目标,原因在于这类方法通常需要迭代或者多轮采样导致速度太慢,并且聚类中心有着不同数量的赋值点,于是在计算时只能用 0 填充到同一维度从而进行批量运算,这就占据了大量的内存和时间上的浪费。
  于是本文提出一种新颖的平衡聚类方法。

4.1.1 平衡聚类

  通过空间填充曲线将 2D 坐标转化为 1D 坐标,同时保留 2D 距离信息,然后将这些坐标划分到等大小的组内从而得到一个平衡的聚类,于是在线上靠近的点在 2D 空间中也相当接近。然而从 2D 转为为 1D 的过程中,很难完整地保存 2D 的信息。为减轻这一丢失问题,本文采用一种两阶段的处理过程。这一想法实质上是尽在粗糙的层次上利用空间填充曲线来获得稀疏且规则的 2D 样本位置,然后基于 2D 距离来排列 tokens 的位置。
  确切来说,首先将图像划分为粗糙且规则的 Patch 块,其数量与打算聚类的类别数量相同。每一个 patch 的中心记为空间填充锚点,空间填充曲线在锚点之间创建序列。于是在这序列上位置为 p ∈ R 2 p\in\mathbb{R}^2 pR2 处,且属于锚点 a i ∈ R 2 a_i\in\mathbb{R}^2 aiR2 的 token,同时定义前面的锚点 a i − 1 a_{i-1} ai1 a i + 1 a_{i+1} ai+1。计算 token p 到这两个锚点的距离比 r r r 如下:
r ( p ) = d i − 1 ( p ) d i + 1 ( p ) = ∥ p − a i − 1 ∥ 2 ∥ p − a i + 1 ∥ 2 r(p)=\dfrac{d_{i-1}(p)}{d_{i+1}(p)}=\dfrac{\|p-a_{i-1}\|_2}{\|p-a_{i+1}\|_2} r(p)=di+1(p)di1(p)=pai+12pai12在每个 pathc 上,通过对 r r r 进行降序排列,就能得到一组有序的 tokens。如下图所示:
突破经典网格特征?AutoFocusFormer: Image Segmentation off the Grid 论文阅读笔记
注意这一聚类算法在每个阶段开始时仅需要执行一次,而所有注意力 bolock 和结尾使用的下采样模块在这一阶段中共享聚类信息,但这一平衡聚类算法仅适用于低维度的点。

4.1.2 聚类的区域

  为鼓励信息在整个图像上流动,那么注意力就不能仅仅局限于相同的聚类上,例如 Swin-Transformers 通过滑动窗口使得注意力能够关注不同层上的不同区域。但是在本文中,每一层的重聚类会增加计算量。于是采用更小的聚类,并使得每个 token 关注周围 R R R 个邻近的聚类。
突破经典网格特征?AutoFocusFormer: Image Segmentation off the Grid 论文阅读笔记
结语

  这可能是第一篇写到最后没太完成的博文,论文中的写作一言难尽,废话太多,抓不住重点,遂到此为止,及时止损。这篇论文的写作可以算得上反面教材了。文章来源地址https://www.toymoban.com/news/detail-462794.html

到了这里,关于突破经典网格特征?AutoFocusFormer: Image Segmentation off the Grid 论文阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [深度学习论文笔记]UNETR: Transformers for 3D Medical Image Segmentation

    UNETR: Transformers for 3D Medical Image Segmentation UNETR:用于三维医学图像分割的Transformer Published: Oct 2021 Published in: IEEE Winter Conference on Applications of Computer Vision (WACV) 2022 论文:https://arxiv.org/abs/2103.10504 代码:https://monai.io/research/unetr 摘要:   过去十年以来,具有收缩路径和扩展路径

    2024年01月24日
    浏览(41)
  • RIS 系列 Mask Grounding for Referring Image Segmentation 论文阅读笔记

    写在前面   一篇 Arxiv 上面的新文章,看看清华大佬们的研究。 论文地址:Mask Grounding for Referring Image Segmentation 代码地址:原论文说将会开源,静待佳音~ 预计提交于:CVPR 2024 Ps:2023 年每周一篇博文阅读笔记,主页 更多干货,欢迎关注呀,期待 6 千粉丝有你的参与呦~   

    2024年02月03日
    浏览(38)
  • PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记

    写在前面   该忙的事情忙的差不多了,继续看论文写笔记,把之前两个月落下来的补回来!(还差7篇博文),欢迎关注,持续高产。 论文地址:PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 代码地址:作者暂未提供 预计投稿在 CVPR 2023,昨天还是前天放榜了,不

    2024年02月07日
    浏览(33)
  • 【论文阅读笔记】SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    Du Y, Bai F, Huang T, et al. SegVol: Universal and Interactive Volumetric Medical Image Segmentation[J]. arXiv preprint arXiv:2311.13385, 2023.[代码开源] 【论文概述】 本文思路借鉴于自然图像分割领域的 SAM ,介绍了一种名为SegVol的先进医学图像分割模型,旨在构建一种 图像分割基础模型 ,这是一个面向体

    2024年01月16日
    浏览(35)
  • 论文学习——U-Net: Convolutional Networks for Biomedical Image Segmentation

    采用端到端的结构,通过FCN(最后一层仍然是通过卷积完成),最后输出图像。 通过编码(下采样)-解码(上采样)形成一个“U”型结构。每次下采样时,先进行两次卷积(通道数不变),然后通过一次池化层(也可以通过卷积)处理(长宽减半,通道数加倍);在每次上

    2024年02月13日
    浏览(25)
  • FCT: The Fully Convolutional Transformer for Medical Image Segmentation 论文解读

    论文:The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com) 代码:Thanos-DB/FullyConvolutionalTransformer (github.com) 期刊/会议:WACV 2023 我们提出了一种新的transformer,能够分割不同形态的医学图像。 医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处

    2024年02月10日
    浏览(30)
  • 【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【开源】 【核心思想】 本文的核心思想是提出了一种用于医学图像分割的参数高效的提示调整(Prompt Tuning)方法。这种方法基于预训练的神经网络,通过插入可学习的

    2024年01月17日
    浏览(44)
  • 3D医学图像分割大模型 SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    pub: 22 November, 2023 ArXiv [ paper] [ code] 1 体积图像分割通过准确提取器官、病变和组织等感兴趣的区域,在医学图像分析中起着至关重要的作用,在肿瘤监测、手术计划、疾病诊断和优化治疗等临床应用中有着广泛的应用。 2 公开可用的体积医学图像数据集通常由来自不同类别的

    2024年02月03日
    浏览(39)
  • SegDiff: Image Segmentation with Diffusion Probabilistic Models 基于扩散模型的图像语义分割模型

    目录 Diffusion models是生成模型的一种,同样的还有GAN,VAE,Flow模型等 Abstract 2、related work 3、背景 前向扩散表达: 反向生成过程: 4、理论 5、实验   论文地址:https://arxiv.org/pdf/2112.00390.pdf 代码:截至今天还未公开。 随着人工智能在图像生成,文本生成以及多模态生成等领域

    2024年02月02日
    浏览(44)
  • 医学图像分割2 TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation

    TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation 在医学图像分割领域,U形结构的网络,尤其是Unet,已经取得了很优秀的效果。但是,CNN结构并不擅长建立远程信息连接,也就是CNN结构的感受野有限。尽管可以通过堆叠CNN结构、使用空洞卷积等方式增加感受野,但也

    2024年02月05日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包