【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation

这篇具有很好参考价值的文章主要介绍了【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 论文介绍

PraNet: Parallel Reverse Attention Network for Polyp Segmentation
PraNet:用于息肉分割的并行反向注意力网络
2020年发表在MICCAI
Paper Code

2. 摘要

结肠镜检查是检测结直肠息肉的有效技术,结直肠息肉与结直肠癌高度相关。在临床实践中,从结肠镜图像中分割息肉是非常重要的,因为它为诊断和手术提供了有价值的信息。然而,由于两个主要原因,准确的息肉分割是一项具有挑战性的任务:(i)相同类型的息肉具有不同的大小、颜色和纹理;以及(ii)息肉与其周围粘膜之间的边界不清晰。为了解决这些挑战,我们提出了一种并行反向注意力网络(PraNet),用于结肠镜图像中的准确息肉分割。具体来说,我们首先使用并行部分解码器(PPD)聚合高级层中的特征。基于组合特征,我们然后生成全局地图作为以下组件的初始引导区域。此外,我们使用反向注意(RA)模块,它能够建立区域和边界线索之间的关系,挖掘边界线索。由于区域和边界之间的循环合作机制,我们的PraNet能够校准一些未对齐的预测,提高分割精度。针对五个具有挑战性的数据集进行的六项指标的定量和定性评估显示,我们的PraNet显著提高了分割准确性,并在可推广性和实时分割效率(每秒50帧)方面呈现出多项优势。

Keywords:反向注意力 部分解码器 息肉分割 实时分割 边界线索

3. Introduction

准确的息肉分割是一项具有挑战性的任务。因为1)息肉通常在外观上变化,例如,尺寸、颜色和质地,即使它们是同一类型。2)在结肠镜检查图像中,息肉及其周围粘膜之间的边界通常是模糊的,并且缺乏分割方法所需的强烈对比度。

在各种息肉分割方法中,基于早期学习的方法依赖于提取的手工特征,例如颜色,纹理,形状,外观或这些特征的组合。这些方法通常是训练分类器来区分息肉及其周围环境。然而,这些模型通常遭受高的误检率。主要原因是,当涉及到处理息肉的高类内变化和息肉与硬模仿物之间的低类间变化时,手工特征的表示能力非常有限。

定位息肉边界的一些工作:1.带有预训练模型的FCN来识别和分割息肉;2.用FCN的修改版本来提高息肉分割的准确性;3. U-Net,U-Net++ 和ResUNet++被用于息肉分割。

这些方法都集中在分割整个区域的息肉,但他们忽略了区域边界约束,这是非常关键的提高分割性能。1. Psi-Net 在息肉分割中同时利用面积和边界信息,但面积和边界之间的关系没有完全捕获。2. 一种具有区域和边界约束的三步选择性特征聚合网络用于息肉分割。该方法显式地考虑了区域和边界之间的依赖关系,并通过附加边缘监督获得了良好的结果;但是该方法耗时(>20小时),并且容易受到过拟合的破坏。

本文提出的一种新的深度神经网络,称为并行反向注意力网络(PraNet),用于实时准确的息肉分割任务。动机源于息肉注释,临床医生首先粗略定位息肉,然后准确地提取其轮廓掩模根据当地的特点。基于面积和边界是区分正常组织和息肉的两个关键特征。首先预测粗糙区域,然后通过反向注意隐式地对边界进行建模。该策略有三个优点,包括更好的学习能力,提高泛化能力和更高的训练效率。

通过使用并行部分解码器(PPD)聚合高级层中的特征,组合特征获取上下文信息并生成全局地图作为后续步骤的初始引导区域。为了进一步挖掘边界线索,利用一组经常性的反向注意(RA)模块,建立区域和边界线索之间的关系。由于区域和边界之间的这种经常性合作机制,该模型能够校准一些不一致的预测。

4.模型结构详解

【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation,论文阅读学习,论文阅读,笔记
首先输入大小为 h ∗ w h*w hw的息肉图像I,经过基于Res2Net的骨干网络提取得到五层特征 f i , i = 1 , 2 , 3 , 4 , 5 ; [ h / 2 k − 1 , w / 2 k − 1 ] f_i,i=1,2,3,4,5;[h/2^k-1,w/2^k-1] fi,i=1,2,3,4,5;[h/2k1,w/2k1] ,其中1、2层为低层特征,3、4、5层为高层特征。高层特征通过部分解码器聚合,得到粗略的特征图 S g S_g Sg S g S_g Sg下采样与最高层特征 f 5 f_5 f5输入最高层特征的反向注意力模块,消除前景得到反向注意力特征 R 5 R_5 R5,即区域信息, R 5 R_5 R5再与 S g S_g Sg进行加运算得到 S 5 S_5 S5 S 5 S_5 S5下采样与下一级特征反向注意力得到对应反向注意力特征,再与 S 5 S_5 S5下采样后的特征相加得到 S 4 S_4 S4,依次再得到 S 3 S_3 S3。取 S 3 S_3 S3特征进行Sigmoid激活函数激活得到预测结果。

PD部分解码器

部分解码器PD,以聚合(3,4,5)高级特征,最后得到全局映射 S g S_g Sg S g S_g Sg来自最深的CNN层,它只能捕获息肉组织的相对粗略的位置,而没有结构细节。参考Cascaded partial decoder for fast and accurate salient object detection 只整合三层高级特征。
【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation,论文阅读学习,论文阅读,笔记
这是参考文献的普通多级特征聚合网络如(a)所示,结构图如上(b),它整合高级特征(3、4、5)。

RA 反向注意力模块

【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation,论文阅读学习,论文阅读,笔记
高层特征不包含具体的边界信息,所以通过从高级侧输出特征中擦除现有的估计息肉区域来顺序地挖掘互补区域和细节,其中现有的估计是从更深层上采样的。

RA接收高层特征和更深层上采样的结果,将高级侧输出特征 f i , i = 3 , 4 , 5 {fi,i = 3,4,5} fi,i=3,4,5 乘以逐元素的反向注意力权重Ai来获得输出反向注意力特征Ri:
【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation,论文阅读学习,论文阅读,笔记
其中,反向注意力权重Ai:
【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation,论文阅读学习,论文阅读,笔记
其中,P(·) 表示上采样操作,σ(·) 是Sigmoid函数,而【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation,论文阅读学习,论文阅读,笔记(·)是从矩阵E中减去输入的逆操作,其中所有元素都是1。最终得到准确、完整的预测图。

损失函数

定义损失函数 L = L I o U w + L B C E w L = L^w_{IoU} +L^w_{BCE} L=LIoUw+LBCEw ,其中 L I o U w L^w_{IoU} LIoUw L B C E w L^w_{BCE} LBCEw表示全局限制和局部(像素级)限制的加权IoU损失和二进制交叉熵(BCE)损失。在这里,对三个侧输出(即,S3、S4和S4)和全局地图Sg 每个映射被上采样与地面实况图G的大小相同。因此,所提出的PraNet的总损失可以用公式表示为: L t o t a l = L ( G , S g u p ) + ∑ i = 3 i = 5 L ( G , S i u p ) L_{total} = L(G,S^{up}_g ) +\sum^{i=5}_{i=3} L(G,S^{up}_i ) Ltotal=L(G,Sgup)+i=3i=5L(G,Siup)

5. 实验与结果

实验基于PyTorch,使用NVIDIA TITAN RTX GPU加速。所有输入都统一调整为352×352,并采用多尺度训练策略{0.75,1,1.25}而不是数据增强。我们采用Adam优化算法来优化整体参数,学习率为 1 e − 4 1e−4 1e4。整个网络以端到端的方式进行训练,需要32分钟才能收敛20个epoch,批量大小为16。我们的最终预测图 S p S_p Sp S 3 S_3 S3在S形运算之后生成。
【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation,论文阅读学习,论文阅读,笔记文章来源地址https://www.toymoban.com/news/detail-808582.html

到了这里,关于【论文阅读笔记】PraNet: Parallel Reverse Attention Network for Polyp Segmentation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Network Dissection 论文阅读笔记

      这是CVPR2017一篇有关深度学习可解释性研究的文章,作者通过评估单个隐藏神经元(unit)与一系列语义概念(concept)间的对应关系,来量化 CNN 隐藏表征的可解释性。 确定一套广泛的人类标记的视觉概念集合。 收集隐藏神经元对已知概念的响应。 量化(隐藏神经元,概念)的

    2024年02月15日
    浏览(38)
  • 【论文阅读笔记】Attention Is All You Need

      这是17年的老论文了,Transformer的出处,刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。   在此论文之前,序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构,是完全基于注意力机制

    2024年04月13日
    浏览(42)
  • Lightening Network for Low-Light Image Enhancement 论文阅读笔记

    这是2022年TIP期刊的一篇有监督暗图增强的文章 网络结构如图所示: LBP的网络结构如下: 有点绕,其基于的理论如下。就是说,普通的暗图增强就只是走下图的L1红箭头,从暗图估计一个亮图。但是其实这个亮图和真实的亮图还是有一些差距,怎么弥补呢,可以再进一步学习

    2024年02月16日
    浏览(49)
  • Cross-Drone Transformer Network for Robust Single Object Tracking论文阅读笔记

    无人机在各种应用中得到了广泛使用,例如航拍和军事安全,这得益于它们与固定摄像机相比的高机动性和广阔视野。多 无人机追踪系统可以通过从不同视角收集互补的视频片段 ,为目标提供丰富的信息,特别是当目标在某些视角中被遮挡或消失时。然而,在多无人机视觉

    2024年01月25日
    浏览(60)
  • Progressive Dual-Branch Network for Low-Light Image Enhancement 论文阅读笔记

    这是22年中科院2区期刊的一篇有监督暗图增强的论文 网络结构如下图所示: ARM模块如下图所示: CAB模块如下图所示: LKA模块其实就是放进去了一些大卷积核: AFB模块如下图所示: 这些网络结构没什么特别的,连来连去搞那么复杂没什么意思,最终预测的结果是两个支路的

    2024年02月16日
    浏览(54)
  • Low-Light Image Enhancement via Stage-Transformer-Guided Network 论文阅读笔记

    这是TCSVT 2023年的一篇暗图增强的论文 文章的核心思想是,暗图有多种降质因素,单一stage的model难以实现多降质因素的去除,因此需要一个multi-stage的model,文章中设置了4个stage。同时提出了用预设query向量来代表不同的降质因素,对原图提取的key 和value进行注意力的方法。

    2024年02月16日
    浏览(49)
  • 【论文阅读笔记】Bicubic++: Slim, Slimmer, Slimmest Designing an Industry-Grade Super-Resolution Network

    论文地址:https://arxiv.org/pdf/2305.02126.pdf   本文提出的实时性、轻量级的图像超分网络,名为 Bicubic++ 。   Bicubic++的网络结构,首先学习了图像的快速可逆降级和低分辨率特征,以减少计算量。   然后作者还设计了一个训练管道,可以在不使用幅度或梯度(magnitude or

    2024年04月17日
    浏览(43)
  • 【目标检测论文阅读笔记】FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection

             由于其固有的特性, 小目标在多次下采样后的特征表示较弱 ,甚至在背景中消失 。 FPN简单的特征拼接  没有充分利用多尺度信息 , 在信息传递中引入了不相关的上下文 ,进一步降低了小物体的检测性能 。为了解决上述问题,我们提出了简单但有效的 FE-YOLO

    2024年02月07日
    浏览(51)
  • 【论文阅读】Pay Attention to MLPs

    作者:Google Research, Brain Team 泛读:只关注其中cv的论述 提出了一个简单的网络架构,gMLP,基于门控的MLPs,并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用 提出了一个基于MLP的没有self-attention结构名为gMLP,仅仅存在静态参数化的通道映射(channel projections)和

    2024年02月10日
    浏览(39)
  • 论文阅读:Attention is all you need

    【最近课堂上Transformer之前的DL基础知识储备差不多了,但学校里一般讲到Transformer课程也接近了尾声;之前参与的一些科研打杂训练了我阅读论文的能力和阅读源码的能力,也让我有能力有兴趣对最最源头的论文一探究竟;我最近也想按照论文梳理一下LLM是如何一路发展而来

    2024年01月18日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包