论文阅读：Polyp-PVT: Polyp Segmentation with PyramidVision Transformers

1年前作者：蓝海渔夫分类：Toy博客阅读(12)违法举报

这篇具有很好参考价值的文章主要介绍了论文阅读：Polyp-PVT: Polyp Segmentation with PyramidVision Transformers。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

这篇论文提出了一种名为Polyp-PVT的新型息肉分割框架，该框架采用金字塔视觉变换器（Pyramid Vision Transformer, PVT）作为编码器，以显式提取更强大的特征。本模型中使用到的关键技术有三个：渐进式特征融合、通道和空间注意力、自注意力。

1，模型整体结构

论文阅读：Polyp-PVT: Polyp Segmentation with PyramidVision Transformers,深度学习,论文阅读,人工智能,深度学习

Polyp-PVT通过引入三个简单的组件——级联融合模块（Cascaded Fusion Module, CFM）、伪装识别模块（Camouflage Identification Module, CIM）和相似性聚合模块（Similarity Aggregation Module, SAM），有效地提取了高级和低级线索，并将它们有效地融合以输出最终结果。这些模块有助于从不同维度捕获息肉的细节信息，包括纹理、颜色和边缘，并通过全局注意力机制将详细的外观特征注入到高级语义特征中。

2，编码器

作为模型的骨干网络，PVT用于从输入图像中提取多尺度长距离依赖特征。PVT采用金字塔结构，通过空间缩减注意力操作计算其表示，从而减少资源消耗。

3，CFM

CFM用于收集高级特征中的语义线索，并通过渐进式集成来定位息肉。它由两个级联部分组成，通过一系列的卷积单元和Hadamard乘积操作，将不同层次的特征图进行融合，生成一个特征图T1。

4，CIM

CIM旨在从低级特征图中捕获息肉的细节信息，如纹理、颜色和边缘。CIM包含通道注意力和空间注意力操作，通过这些注意力机制，可以从大量冗余信息中识别出息肉的细节和边缘信息。

5，SAM

SAM通过全局自注意力机制将T1和T2的特征图进行融合，有效地将像素级息肉区域的特征与整个息肉区域的高级语义位置信息结合起来。

SAM具体结构如下

论文阅读：Polyp-PVT: Polyp Segmentation with PyramidVision Transformers,深度学习,论文阅读,人工智能,深度学习

其中T1（包含高级语义信息）和T2（包含丰富的外观细节，如纹理和边缘信息）是两个输入特征。

W是线性映射。

AP代表的是自适应池化（Adaptive Pooling）操作。自适应池化是一种操作，它根据输入特征图的尺寸动态调整池化区域的大小，以便在不同分辨率的输入特征图上保持一致的输出尺寸。

GCN是图卷积层，GCN通常用于捕捉图像中不同区域之间的复杂关系和结构信息。

6，实验结果

论文阅读：Polyp-PVT: Polyp Segmentation with PyramidVision Transformers,深度学习,论文阅读,人工智能,深度学习文章来源地址https://www.toymoban.com/news/detail-849851.html

到了这里，关于论文阅读：Polyp-PVT: Polyp Segmentation with PyramidVision Transformers的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

On Moving Object Segmentation from Monocular Video with Transformers 论文阅读
标题：On Moving Object Segmentation from Monocular Video with Transformers 作者：来源：ICCV 时间：2023 代码地址：暂无通过单个移动摄像机进行移动对象检测和分割是一项具有挑战性的任务，需要了解识别、运动和 3D 几何。将识别和重建结合起来可以归结为融合问题，其中需要结合外
2024年02月08日
浏览(10)
【论文阅读笔记】A literature survey of MR-based brain tumor segmentation with missing modalities
Zhou T, Ruan S, Hu H. A literature survey of MR-based brain tumor segmentation with missing modalities[J]. Computerized Medical Imaging and Graphics, 2023, 104: 102167. 这篇文献综述重点探讨了在磁共振成像（MRI）用于脑肿瘤分割时面临的一项主要挑战：部分MRI模态的缺失（本文将范围限定为在训练期间可以使用
2024年01月19日
浏览(12)
论文阅读《Hierarchical Aggregation for 3D Instance Segmentation》
Hierarchical Aggregation for 3D Instance Segmentation是一个用于实例分割的方法，他主要利用了点以及点集之间的空间关系，以此进行实例分割。大概步骤如下：首先进行低带宽点汇集得到初步的实例以避免过度分割之后进行动态带宽集合汇集以得到完整的实例引入实例内网络进行去
2024年02月04日
浏览(11)
论文阅读——Loss odyssey in medical image segmentation
Loss odyssey in medical image segmentation github：https://github.com/JunMa11/SegLossOdyssey 这篇文章回顾了医学图像分割中的20种不同的损失函数，旨在回答：对于医学图像分割任务，我们应该选择哪种损失函数？首先是一张各类分割函数的图谱：介绍函数之前先定义字母符号的含义：，分别
2024年02月04日
浏览(12)
论文阅读：LSeg: LANGUAGE-DRIVEN SEMANTIC SEGMENTATION
可以直接bryanyzhu的讲解：CLIP 改进工作串讲（上）【论文精读·42】_哔哩哔哩_bilibili 这里是详细的翻译工作原文链接 https://arxiv.org/pdf/2201.03546.pdf ICLR 2022 我们提出了一种新的语言驱动的语义图像分割模型LSeg 。LSeg使用一个文本编码器来计算描述性输入标签 (例如，“草”或“
2024年02月04日
浏览(10)
论文阅读：Rethinking Range View Representation for LiDAR Segmentation
来源ICCV2023 LiDAR分割对于自动驾驶感知至关重要。最近的趋势有利于基于点或体素的方法，因为它们通常产生比传统的距离视图表示更好的性能。在这项工作中，我们揭示了建立强大的距离视图模型的几个关键因素。我们观察到， “多对一”的映射，语义不连贯性，形状变
2024年02月02日
浏览(10)
ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling 阅读
ISBNet：目前scannet数据集三维实例分割第一这里有一个疑虑就是语义分割的做法如果转移到实例分割会导致的结果和区别需要回头去理解一下三个贡献，创新点： 1，isbnet的网络无集群范式，利用实例感知的最远距离采样（IA-FPS）和聚合器（aggregation）生成特征 2，提出bo
2024年02月04日
浏览(9)
【论文阅读】【yolo系列】YOLACT Real-time Instance Segmentation
论文链接：https://arxiv.org/pdf/1904.02689.pdf 【实例分割】鉴于其重要性，大量的研究投入到实例分割的准确性。两阶段：Mask-RCNN [18]是一种具有代表性的两阶段实例分割方法，它首先生成候选感兴趣区域（roi），然后在第二阶段对这些roi进行分类和分割。后续工作试图通过提
2024年02月16日
浏览(6)
【论文阅读】Augmented Transformer network for MRI brain tumor segmentation
Zhang M, Liu D, Sun Q, et al. Augmented transformer network for MRI brain tumor segmentation[J]. Journal of King Saud University-Computer and Information Sciences, 2024: 101917. [开源] IF 6.9 SCIE JCI 1.58 Q1 计算机科学2区【核心思想】本文提出了一种新型的MRI脑肿瘤分割方法，称为增强型transformer 网络（AugTransU-Net），
2024年01月23日
浏览(12)
RIS 系列 Mask Grounding for Referring Image Segmentation 论文阅读笔记
写在前面一篇 Arxiv 上面的新文章，看看清华大佬们的研究。论文地址：Mask Grounding for Referring Image Segmentation 代码地址：原论文说将会开源，静待佳音~ 预计提交于：CVPR 2024 Ps：2023 年每周一篇博文阅读笔记，主页更多干货，欢迎关注呀，期待 6 千粉丝有你的参与呦~
2024年02月03日
浏览(11)