【计算机视觉】最新综述：南洋理工和上海AI Lab提出基于Transformer的视觉分割综述-Toy模板网

这篇具有很好参考价值的文章主要介绍了【计算机视觉】最新综述：南洋理工和上海AI Lab提出基于Transformer的视觉分割综述。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、导读

SAM （Segment Anything ）作为一个视觉的分割基础模型，在短短的3个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解SAM背后的技术，并跟上内卷的步伐，并能做出属于自己的SAM模型，那么接下这篇Transformer-Based的Segmentation Survey是不容错过！

近期，南洋理工大学和上海人工智能实验室几位研究人员写了一篇关于Transformer-Based的Segmentation的综述，系统地回顾了近些年来基于Transformer的分割与检测模型，调研的最新模型截止至今年6月！

同时，综述还包括了相关领域的最新论文以及大量的实验分析与对比，并披露了多个具有广阔前景的未来研究方向！

论文地址：

https://arxiv.org/abs/2304.09854

【计算机视觉】最新综述：南洋理工和上海AI Lab提出基于Transformer的视觉分割综述,计算机视觉,人工智能,计算机视觉,transformer,视觉分割

发表单位：南洋理工大学，上海人工智能实验室

项目地址：

https://github.com/lxtGH/Awesome-Segmentation-With-Transformer

二、摘要

视觉分割旨在将图像、视频帧或点云分割为多个片段或组。这种技术具有许多现实世界的应用，如自动驾驶、图像编辑、机器人感知和医学分析。

在过去的十年里，基于深度学习的方法在这个领域取得了显著的进展。

最近，Transformer成为一种基于自注意力机制的神经网络，最初设计用于自然语言处理，在各种视觉处理任务中明显超越了以往的卷积或循环方法。

具体而言，视觉Transformer为各种分割任务提供了强大、统一甚至更简单的解决方案。

本综述全面概述了基于Transformer的视觉分割，总结了最近的进展。

首先，本文回顾了背景，包括问题定义、数据集和以往的卷积方法。接下来，本文总结了一个元架构，将所有最近的基于Transformer的方法统一起来。基于这个元架构，本文研究了各种方法设计，包括对这个元架构的修改和相关应用。此外，本文还介绍了几个相关的设置，包括3D点云分割、基础模型调优、域适应分割、高效分割和医学分割。此外，本文在几个广泛认可的数据集上编译和重新评估了这些方法。最后，本文确定了这个领域的开放挑战，并提出了未来研究的方向。

本文仍会持续和跟踪最新的基于Transformer的分割与检测方法。

三、内容解读

3.1 研究动机

ViT和DETR的出现使得分割与检测领域有了十足的进展，目前几乎各个数据集基准上，排名靠前的方法都是基于Transformer的。为此有必要系统地总结与对比下这个方向的方法与技术特点。
近期的大模型架构均基于Transformer结构，包括多模态模型以及分割的基础模型（SAM），视觉各个任务向着统一的模型建模靠拢。
分割与检测衍生出来了很多相关下游任务，这些任务很多方法也是采用Transformer结构来解决。