论文阅读：Segment Anything之阅读笔记

1年前作者：Liekkas Kono分类：Toy博客阅读(13)违法举报

这篇具有很好参考价值的文章主要介绍了论文阅读：Segment Anything之阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言

论文：Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳，这不抽空拿来学习了一下。
该算法的代码写得很清楚、简洁和规范，读来让人赏心悦目。推荐去看源码，很有意思。
本篇文章，将以问答形式来解读阅读过程中遇到的困惑，想来这种方式效率更高一些。
PDF | Code

整体结构介绍

论文阅读：Segment Anything之阅读笔记,论文学习,论文阅读,笔记

整体分为三大部分：image encoder、prompt encoder和mask decoder。下图看的更加清楚一些，也是来自论文。

论文问答

代码仓库中，模型哪部分转换为了ONNX格式？以及如何转的？

mask_decoder部分做了转onnx格式
直接采用torch.onnx.export函数接口转的。因为没有采用transformer函数库，因为转换较为简单。
- 先基于torch构建整个部分模型，构建模型输入。
- 调用torch.onnx.export函数来转换

Mask decoder部分 Transformer decoder block?

该部分采用的动态mask预测头。
在两个方向上（prompt-to-image embedding 和相反的）使用了prompt self-attention和cross-attention来达到更新所有embedding的目的。

如何整合image_embedding，image_pe, sparse_prompt_embedding和dense_prompt_embedding的？

通过mask decoder这一部分来做的。采用的是修改过的Transformer decoder block.

points, boxes, text和masks四种类型prompt如何嵌入到网络中？

points, boxes, text在论文中称为sparse prompt。masks类型被称为dense prompt
points和boxes 是以positional encodings（位置编码）和每个提示类型的学习嵌入来表示的。
text是来自CLIP的text encoder表示的。从demo中并没有看到text输入的prompt，从issue #93中验证了这点
mask是使用卷积嵌入，并与图像embedding逐元素求和文章来源地址https://www.toymoban.com/news/detail-533997.html

什么样的任务具有zero-shot泛化能力？

模型以promptable的方式训练得到，因此具备zero-shot的泛化能力

到了这里，关于论文阅读：Segment Anything之阅读笔记的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Segment Anything阅读笔记
体验地址论文地址代码地址这篇文章最近有点火，已经有1万多star了大规模数据集（超过10亿个mask）可以做zero-shot任务作者问了三个问题：图像分割成功取决于三个组成部分:任务、模型和数据。本文解决了以下关于图像分割的问题: 什么任务可以实现零zero-shot泛化? 相应
2023年04月19日
浏览(8)
《论文阅读07》Segment Anything in 3D with NeRFs
研究领域：图像分割(3D) 论文：Segment Anything in 3D with NeRFs Submitted on 24 Apr 2023 (v1), last revised 1 Jun 2023 (this version, v3) Computer Vision and Pattern Recognition (cs.CV) nvos数据集论文链接使用NeRFs在3D中分割任何内容摘要最近，Segment Anything Model（SAM）作为一种强大的视觉基础模型出现，它能
2024年02月16日
浏览(6)
[自注意力神经网络]Segment Anything(SAM)论文阅读
论文地址 https://arxiv.org/abs/2304.02643 源码地址 https://github.com/facebookresearch/segment-anything 强烈建议大家试试Demo，效果真的很好：https://segment-anything.com/ 本文建立了一个基础图像分割模型，并将其在一个巨大的数据集上进行训练，目的是解决一系列下游任务。本文的关键
2023年04月23日
浏览(9)
【论文阅读】Segment Anything（SAM）——可分割一切的CV大模型
【前言】随着ChatGPT席卷自然语言处理，Facebook凭借着Segment Anything在CV圈也算扳回一城。迄今为止，github的star已经超过3万，火的可谓一塌糊涂。作为AI菜鸟，可不得自己爬到巨人肩膀上瞅一瞅~ 论文地址：https://arxiv.org/abs/2304.02643 代码地址：GitHub - facebookresearch/segment-anything: T
2024年02月15日
浏览(10)
Segment Anything——论文笔记
home page：segment-anything.com code：segment-anything 介绍：SAM是最近提出的一种通用分割大模型，其表现出了强大的零样本泛化能力，视觉感知模型的通用化又前进了一步。为了达到文章标题字面意义“segment anything”，那么就需要该算法具有强大的物体语义感知能力，在模型的设计阶
2024年02月10日
浏览(7)
论文阅读：TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章内容阅读
论文标题： TinySAM: 极致高效的分割一切模型论文地址：https://arxiv.org/pdf/2312.13789.pdf 代码地址（pytorch）：https://github.com/xinghaochen/TinySAM 详细论文解读：TinySAM：极致高效压缩，手机就能实时跑的分割一切模型 - 知乎 (zhihu.com) 目录文章内容解析概括文章的观点技术创新解
2024年01月17日
浏览(11)
【论文笔记】Fast Segment Anything
我说个数：一个月5篇基于Fast Segment Anything的改进的论文就会出现哈哈哈哈。 SAM架构的主要部分Transformer（ViT）模型相关的大量计算资源需求，这给其实际部署带来了障碍将分段任意任务解耦为两个顺序阶段，分别是是实例分段和提示引导选择。第一阶段取决于基于卷积神经
2024年02月16日
浏览(13)
【图像分割】SAM:Segment Anything论文学习V1
论文:2304.Segment Anything 代码： https://github.com/facebookresearch/segment-anything 官网与demo：https://segment-anything.com/ 【扩展阅读】——分割一切模型(SAM)的全面调研：2305.A Comprehensive Survey on Segment Anything Model for Vision and Beyond 【应用】在stable-diffusion-webui中使用的插件：https://github.com/co
2024年02月07日
浏览(13)
【自用】SAM模型论文笔记与复现代码（segment-anything-model）
一个 prompt encoder ，对提示进行编码， image encoder 对图像编码，生成embedding, 最后融合2个 encoder ，再接一个轻量的 mask decoder ，输出最后的mask。模型结构示意图：流程图：模型的结构如上图所示. prompt会经过 prompt encoder , 图像会经过 image encoder 。然后将两部分embedding经过一个
2024年01月24日
浏览(13)
【论文笔记】SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model
原文链接：https://arxiv.org/pdf/2306.02245.pdf 分割一切模型（SAM）作为视觉领域的基石模型，有强大的泛化性，能解决很多2D视觉问题。但是SAM是否可以适用于3D视觉任务，仍需要被探索。目前几乎没有关于3D目标检测的零样本学习，如何使SAM的零样本能力适用于3D目标检测
2024年02月16日
浏览(13)