【论文笔记】Fast Segment Anything

这篇具有很好参考价值的文章主要介绍了【论文笔记】Fast Segment Anything。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

我说个数:一个月5篇基于Fast Segment Anything的改进的论文就会出现哈哈哈哈。

1.介绍

1.1 挑战

SAM架构的主要部分Transformer(ViT)模型相关的大量计算资源需求,这给其实际部署带来了障碍

1.2 任务解耦

将分段任意任务解耦为两个顺序阶段,分别是是实例分段和提示引导选择。

  • 第一阶段取决于基于卷积神经网络(CNN)的检测器的实现。它生成图像中所有实例的分割掩码。
  • 在第二阶段,它输出与提示相对应的感兴趣区域。

1.3 核心贡献

首次将CNN检测器应用于Segment Anything任务

2.方法

提出的方法FastSAM的概述。该方法包括两个阶段,即所有实例分割(All-instance Segmentation )和提示引导选择(Prompt-guided Selection)。前一阶段是基础,第二阶段本质上是面向任务的后处理。

【论文笔记】Fast Segment Anything,论文阅读,深度学习,人工智能

2.1 All-instance Segmentation 所有实例分割

2.1.1 YOLOv8

模型架构需要懂一点点yolov8的知识,可以参考详细解读YOLOv8的改进模块.

其实主要的改进就两点:

  • YOLOv8的主干网和颈部模块用C2f模块取代了YOLOv5的C3模块。
  • 头模块采用解耦结构,将分类头和检测头分离,并从基于锚转向无锚

2.1.2 YOLOv8-seg 

将YOLACT原理应用于实例分割。主要负责了Fast Segment Anything中实例分割部分的工作。

2.2 Prompt-guided Selection 提示引导选择

第二阶段是使用各种提示来识别感兴趣的特定对象。它主要涉及点提示、框提示和文本提示的使用

2.2.1 Point prompt

将选定的点与从第一阶段获得的各种mask进行匹配。

2.2.2 Box prompt

长方体提示涉及在选定长方体和与第一阶段中的各种遮罩相对应的边界框之间执行并集交集(IoU)匹配。其目的是用所选框识别具有最高IoU分数的掩码,从而选择感兴趣的对象

2.2.3 Text prompt

在文本提示的情况下,使用CLIP[31]模型提取文本的相应文本嵌入。然后确定相应的图像嵌入,并使用相似性度量将其与每个掩模的内在特征相匹配。然后选择与文本提示的图像嵌入具有最高相似性得分的掩码

2.3 下游任务

以零样本边缘检测方法为例

2.3.1 零样本边缘检测方法

从FastSAM的所有实例分割阶段的结果中选择掩码概率图。之后,将Sobel滤波[33]应用于所有掩码概率图,以生成边缘图。最后,我们以边缘NMS[6]步骤结束

【论文笔记】Fast Segment Anything,论文阅读,深度学习,人工智能

虽然没有sam那么多细节,但是也基本上相当了 

2.4 特点

2.4.1 缺点

  • 低质量的小型分割掩模具有大的置信度分数。

因为置信度分数被定义为YOLOv8的bbox分数,它与口罩质量没有强烈的相关性。

修改网络以预测掩码IoU或其他质量指标

  • 一些微小物体的掩码往往接近正方形。大型对象的掩码在边界框的边界上可能有一些伪影。

这就是YOLACT方法的弱点。

提高掩模原型的能力或重新制定掩模生成器,该问题有望得到解决。

3.代码

3.1 demo测试

【论文笔记】Fast Segment Anything,论文阅读,深度学习,人工智能

左边是SAM,右边是fast SAM,还是能比较明显的感受到线条的平滑程度上有一定的区别。

3.2回顾一下SAM

 SAM将图片,提示都使用嵌入形式送入transformer

【论文笔记】Fast Segment Anything,论文阅读,深度学习,人工智能

 SAM流程图

3.3  推理代码

【论文笔记】Fast Segment Anything,论文阅读,深度学习,人工智能

我更愿意将Fast Segment Anything称为是yolo的扩展应用,主要由yolov8-seg分割出实例之后进行后处理。

后处理 = prompt处理 + 绘图等  

3.3.1 prompt

【论文笔记】Fast Segment Anything,论文阅读,深度学习,人工智能

 文章来源地址https://www.toymoban.com/news/detail-586895.html

box_prompt:bbox和所有实例iou

point_prompt:检查point是否实例内

text_prompt:将实例剪裁后送入clip进行检索

 

到了这里,关于【论文笔记】Fast Segment Anything的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读--Segment Anything

    Title: Segment Anything Abstract: We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M licensed and privacy respecting images. The model is designed and trained to

    2024年02月16日
    浏览(43)
  • Segment Anything阅读笔记

    体验地址 论文地址 代码地址 这篇文章最近有点火,已经有1万多star了 大规模数据集(超过10亿个mask) 可以做zero-shot任务 作者问了三个问题: 图像分割成功取决于三个组成部分:任务、模型和数据。本文解决了以下关于图像分割的问题: 什么任务可以实现零zero-shot泛化? 相应

    2023年04月19日
    浏览(38)
  • 《论文阅读07》Segment Anything in 3D with NeRFs

    研究领域:图像分割(3D) 论文:Segment Anything in 3D with NeRFs Submitted on 24 Apr 2023 (v1), last revised 1 Jun 2023 (this version, v3) Computer Vision and Pattern Recognition (cs.CV) nvos数据集 论文链接 使用NeRFs在3D中分割任何内容 摘要 最近,Segment Anything Model(SAM)作为一种强大的视觉基础模型出现,它能

    2024年02月16日
    浏览(47)
  • [自注意力神经网络]Segment Anything(SAM)论文阅读

    论文地址 https://arxiv.org/abs/2304.02643 源码地址 https://github.com/facebookresearch/segment-anything 强烈建议大家试试Demo,效果真的很好:https://segment-anything.com/         本文建立了一个基础图像分割模型,并将其在一个巨大的数据集上进行训练,目的是解决一系列下游任务。本文的关键

    2023年04月23日
    浏览(62)
  • 【论文阅读】Segment Anything(SAM)——可分割一切的CV大模型

    【前言】随着ChatGPT席卷自然语言处理,Facebook凭借着Segment Anything在CV圈也算扳回一城。迄今为止,github的star已经超过3万,火的可谓一塌糊涂。作为AI菜鸟,可不得自己爬到巨人肩膀上瞅一瞅~ 论文地址:https://arxiv.org/abs/2304.02643 代码地址:GitHub - facebookresearch/segment-anything: T

    2024年02月15日
    浏览(44)
  • Segment Anything——论文笔记

    home page:segment-anything.com code:segment-anything 介绍:SAM是最近提出的一种通用分割大模型,其表现出了强大的零样本泛化能力,视觉感知模型的通用化又前进了一步。为了达到文章标题字面意义“segment anything”,那么就需要该算法具有强大的物体语义感知能力,在模型的设计阶

    2024年02月10日
    浏览(38)
  • 论文阅读:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章内容阅读

    论文标题: TinySAM: 极致高效的分割一切模型 论文地址:https://arxiv.org/pdf/2312.13789.pdf 代码地址(pytorch):https://github.com/xinghaochen/TinySAM 详细论文解读:TinySAM:极致高效压缩,手机就能实时跑的分割一切模型 - 知乎 (zhihu.com)  目录 文章内容解析  概括 文章的观点 技术创新解

    2024年01月17日
    浏览(53)
  • fast segment anything

    [论文解读]比sam快50倍的通用视觉模型fastsam(Fast Segment Anything) - 知乎 MetaAI提出的能够“分割一切”的视觉基础大模型SAM提供了很好的分割效果,为探索视觉大模型提供了一个新的方向。 虽然sam的效果很好,但由于sam的backbone使用了vit,导致推理时显存的占用较多,推理速度偏

    2024年02月15日
    浏览(38)
  • 【深度学习】segment-anything使用过程

    https://github.com/facebookresearch/segment-anything 三种模型: parser.add_argument( “–model-type”, type=str, required=True, help=“The type of model to load, in [‘default’, ‘vit_h’, ‘vit_l’, ‘vit_b’]”, ) python=3.8 pytorch=1.7 and torchvision=0.8 使用命令行执行scripts/amg.py: 会得到各个id块的黑白分割图: 命

    2024年02月10日
    浏览(46)
  • 【图像分割】SAM:Segment Anything论文学习V1

    论文:2304.Segment Anything 代码: https://github.com/facebookresearch/segment-anything 官网与demo:https://segment-anything.com/ 【扩展阅读】——分割一切模型(SAM)的全面调研:2305.A Comprehensive Survey on Segment Anything Model for Vision and Beyond 【 应用 】在stable-diffusion-webui中使用的插件:https://github.com/co

    2024年02月07日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包