[自注意力神经网络]Segment Anything(SAM)论文阅读-Toy模板网

这篇具有很好参考价值的文章主要介绍了[自注意力神经网络]Segment Anything(SAM)论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

论文地址https://arxiv.org/abs/2304.02643源码地址https://github.com/facebookresearch/segment-anything强烈建议大家试试Demo，效果真的很好：https://segment-anything.com/

一、概述

本文建立了一个基础图像分割模型，并将其在一个巨大的数据集上进行训练，目的是解决一系列下游任务。本文的关键点有3个：task，model，data。

Task

本文定义了一个可提示的通用分割任务，可以提供的预训练目标来支持下游任务的应用。提示仅指定在图像中分割的什么（如对象的空间/文本信息），这个提示可以是模糊的，输出会针对这些对象输出至少一个合理的掩码。

Model

本任务需要支持灵活提示的模型，且这个模型需要提示时实时输出分割掩码。满足三个约束：①图像编码器（负责图像嵌入）；②提示编码器（负责提示嵌入）；③结合前面两个信源的轻量级掩码解码器；该模型称为：Segment Anything Model(SAM)；该模型还有歧义意识，能自然的处理歧义。

Data

本项目使用了一个大规模数据源SA-1B；同时为了管理好这些数据，本项目建立了一个数据引擎(Data engine)，分为三个阶段：辅助-手动、半自动和全自动。

[自注意力神经网络]Segment Anything(SAM)论文阅读

二、网络结构

本文从NLP中获得启发，将token用于基础模型的训练，通过即时的工程解决各种下游任务。SAM会从单个模糊点提示生成3个有效掩码，分别为：整体、部分、子部分，如下图所示：

[自注意力神经网络]Segment Anything(SAM)论文阅读

Segment Anything Model（SAM）的网络结构如下图所示：

[自注意力神经网络]Segment Anything(SAM)论文阅读

1.Image encoder(图像编码器)

使用了一个MAE预训练的Vision Transformer(ViT)作为图像编码器。ViT网络可以参见往期博文[自注意力神经网络]Transfomer架构。

2.Prompt Encoder(提示编码器)

本设计中有2组提示，分为：稀疏的（点、框、文本）和密集的（掩码）。点和框可以由位置编码表示，位置编码综合了来自每种提示的学习嵌入和任意形式的文字（使用CLIP处理）。而掩码则通过卷积嵌入后与图像诸元素求和。

3.Lightweight mask decoder(轻量化掩码解码器)

掩码解码器可以有效的将图嵌入、提示嵌入和输出标记映射到掩码。本模型的解码器基于Transformer的解码器块修改，在解码器后添加了动态掩码预测头。解码器使用了提示自注意力和交叉注意力在提示到图嵌入（prompt-to-image embedding）和副反转（vice-versa,这个翻译不好）两个方面进行了修改。完成这两个部分后，对图像进行上采样再使用MLP将输出标记映射到动态线性分类器上，最终得出每个图像位置的蒙板前景概率。

[自注意力神经网络]Segment Anything(SAM)论文阅读