【segment-anything】- Meta 开源万物可分割 AI 模型

这篇具有很好参考价值的文章主要介绍了【segment-anything】- Meta 开源万物可分割 AI 模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

00_资料

  • 论文地址1
  • 论文地址2
  • 项目地址
  • Demo 地址
  • SA-1B数据集
  • 参考链接
  • 论文翻译

01_浅谈 segment-anything

展望未来

  • Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。
  • 如标题所述,这篇论文只做了一件事情:(零样本)分割一切。类似 GPT-4 已经做到的「回答一切」。
  • 将 NLP 的 prompt 范式引入了 CV 领域,进而为 CV 基础模型提供更广泛的支持与深度研究。
  • SAM的出现统一了分割这个任务(CV任务的一个子集)的下流应用,说明了CV的大模型是可能存在的。
  • 可以预想,今年这类范式在学术界将迎来一次爆发。其肯定会对CV的研究带来巨大的变革,很多任务会被统一处理,可能再过不久,检测、分割和追踪也会被all in one了。
  • 新数据集+新范式+超强零样本泛化能力。

放眼当下

  • 虽然作者们声称要“segment everything”,但距离这个目标还有很长的路要走。CV最大的困难之一,就是图像语义可以无限细分,且逻辑关系非常复杂。势必会遇到识别的粒度和确定性之间的冲突。至少到目前为止,没有任何方法可以解决这个问题,也就没法做到真正的万物分割。
  • 不过这个工作确实把 engineering 做到了极致,而且上手即用,非常方便。
  • SAM其实缩小了大厂和小厂的差距,使得大部分没有资源和数据训练视觉 foundation model 的人,都可以使用SAM的特征做各种下游任务。
  • 下游任务所面临的困难或许比预训练还要更多!但是不管怎么说,我看好SAM作为 foundation model 的潜力,它很可能拥有与CLIP比肩的影响力,未来将为大量的视觉任务提供基础能力。
  • 最后还是强调:CV还有很长的路要走,不要散布恐慌,自己吓自己。

评价谈论

  • 英伟达人工智能科学家 Jim Fan 表示:「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。恕我直言,Segment-Anything 已经把所有事情(分割)都做的很好了。」
  • 网友表示,NLP 领域的 Prompt 范式,已经开始延展到 CV 领域了,可以预想,今年这类范式在学术界将迎来一次爆发。
  • 更是有网友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。
  • 也有人表示,该模型在生产环境下的测试并不理想。或许,这个老大难问题的解决仍需时日?
  • 总而言之,未来已来,CV的LM时代将彻底开启,至少标注是肯定不存在了

02_SAM功能介绍

  • 通用涵盖广泛的用例(学会了关于物体的一般概念)。
  • 零样本迁移(可以在新的图像领域上即开即用,无需额外的训练)。
  • SAM 能很好的自动分割图像中的所有内容。
  • SAM 能根据提示词进行图像分割。
  • SAM 能用交互式点和框的方式进行提示。
  • SAM 能为不明确的提示生成多个有效掩码。可以为任何图像或视频中的任何物体(包括训练中没有的)生成 mask。

03_SA-1B数据集

  • 图像注释数据集 Segment Anything 1-Billion (SA-1B)
  • 有史以来最大的分割数据集,超过 11 亿个分割掩码,掩码具有高质量和多样性。
  • SAM 在不同群体中的表现类似,在拥有更多图像的同时对所有地区的总体代表性也更好。
  • SA-1B 可用于研究目的,开放许可Apache 2.0。可以帮助其他研究人员训练图像分割的基础模型。

04_Meta数据标注:Data Is All You Need!

Meta或许在憋大招,正所谓兵马未动粮草先行,为了攒数据而开发了这么一个副产物,顺便放了出来。
注释员使用 SAM 交互式地注释图像,然后新注释的数据反过来用于更新 SAM,彼此相互作用,重复执行此循环来改善模型和数据集。

  1. 先用开源数据集训练一个小模型
  2. 标注员用训好的模型辅助标注,优先标好标的。如果图中一个instance开始花费超过30s就可以跳下一张图了
  3. 用新增的label在大模型上重新训练,并重复第2步。随着模型能力的增强,之前难标的会逐渐变成好标的
  4. 第3步迭代6次后,开始攻克剩余所有困难的instance。先用模型把容易的instance都mask掉,剩下的就得拿去标了。

05_方法介绍

Pre-分割任务

  • 在此之前,分割作为计算机视觉的核心任务,已经得到广泛应用。
  • 为特定任务创建准确的分割模型,通常需要技术专家进行高度专业化的工作
  • 需要大量的领域标注数据,种种因素限制了图像分割的进一步发展。

此前解决分割问题大致有两种方法。

  • 交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。
  • 自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子)。

Now-SAM

SAM 单一模型,可以轻松地执行交互式分割和自动分割。此任务用于预训练模型并通过提示解决一般的下游分割任务。

  • 灵活方便:SAM 允许用户通过单击、交互式点击或边界框提示来分割对象。提示可以是前景、背景点、粗框或掩码、自由格式文本,或者说能指示图像中要分割内容的任何信息。
  • 有效掩码的要求:即使提示不明确并且可能指代多个对象,还能为为不明确的提示生成多个有效掩码。当面临关于正在分割的对象歧义时,SAM可以输出多个有效掩码,这是解决现实世界中分割问题所必需的重要能力;
  • 可以自动查找并遮罩图像中的所有对象:在预计算图像嵌入后,SAM 可以为任何提示生成实时分割掩码,允许与模型进行实时交互。图像编码器为图像生成一次性嵌入,而轻量级编码器将提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后,SAM 可以在 50 毫秒内根据网络浏览器中的任何提示生成一个分割。

06_研发思路

开发一个可提示的模型并使用一项任务在广泛的数据集上进行预训练,以实现强大的泛化。通过这个模型,我们的目标是使用提示工程解决一系列新的数据分布上的下游分割问题。这个计划的成功取决于三个组成部分:任务、模型和数据。

SAM 的研发灵感来自于自然语言和计算机视觉中的 “prompt 工程”,只需对新数据集和任务执行零样本学习和少样本学习即可使其能够基于任何提示返回有效的分割掩模。其中,提示可以是前景/背景点、粗略框或掩模、自由文本或者一般情况下指示图像中需要进行分割的任何信息。有效掩模的要求意味着即使提示不明确并且可能涉及多个对象(例如,在衬衫上的一个点既可能表示衬衫也可能表示穿着它的人),输出应该是其中一个对象合理的掩模。这项任务用于预训练模型,并通过提示解决通用下游分割任务。

07_未来展望

将来,SAM 可能被用于任何需要在图像中找到和分割任何对象的领域应用程序。

  • 通过研究和数据集共享,进一步加速对图像分割以及更通用图像与视频理解的研究。
  • 可提示的分割模型可以充当更大系统中的一个组件,执行分割任务。
  • 基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件。
    • 对于 AI 研究社区或其他人来说,SAM 可能更普遍理解世界、例如理解网页视觉和文本内容等更大型 AI 系统中组件;
    • 在 AR/VR 领域,SAM 可以根据用户注视选择一个对象,然后将其“提升”到 3D;
    • 对于内容创作者来说,SAM 可以改进诸如提取碎片或视频编辑等创意应用程序;
    • SAM 也可用来辅助科学领域研究,如地球上甚至空间自然现象, 例如通过定位要研究并跟踪视频中的动物或物体。SAM 还有可能在农业领域帮助农民或者协助生物学家进行研究。
      未来在像素级别的图像理解与更高级别的视觉内容语义理解之间,我们将看到更紧密的耦合,进而解锁更强大的 AI 系统。

08_先行者试跑demo的感受

模型推理速度挺快的,在单块V100上,对于1200x800这种正常分辨率的图,生成所有的mask需要2-3秒。这种速度,可以为大部分人提供可用的feature extractor了。文章来源地址https://www.toymoban.com/news/detail-418856.html

  1. 当前版本下,作者们并没有提供标准的text prompt做法,所以输出的mask都没有标签。我有两个猜测:要么效果还不是很好,要么FAIR想单独出个别的paper。按照FAIR的风格,不做这最后一步,有点不能理解,毕竟这能够轻松刷掉一堆分割任务的SOTA。
  2. 我尝试用GitHub的issue#6里的“野路子”,抽取了文本的CLIP特征然后用来做prompt。实验效果比较一般:很多物体的score并不高,比如一个水果摊上放着很多水果的时候,明明能够认出一个个的橙子,但是用orange作为query,score大多数情况下只有0.02左右,很不稳定。结合这个实验,我更倾向于上面的前一种猜测:SAM开放环境下的zero-shot recognition能力还不太稳定。
    如果我的判断是对的,那么这里就还有不少相对简单的事情可以做。当然,复杂的事情更多:毕竟SAM没有解决逻辑问题,zero-shot效果也未必好,那么在各种下游任务上,大家就有了各显神通、施展才艺的空间。

引用参考链接

  • 知乎问题:Meta 发布图像分割论文 Segment Anything,将给 CV 研究带来什么影响?
  • 谢凌曦:试跑demo的感受
  • 初入AI的高中生:meta是怎么做标注的
  • 机器之心(公众号):CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻
  • CSDN(公众号):CV 迎来 GPT-3 时刻,Meta 开源万物可分割 AI 模型和 1100 万张照片,1B+掩码数据集!
  • AI浩:分割anything

到了这里,关于【segment-anything】- Meta 开源万物可分割 AI 模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Meta AI最新出品,全能的分割模型SAM:掀桌子的Segment Anything,CV届的ChatGPT已经到来!

    本来不打算再发关于分割的相关内容的,但是13小时前,2023年4月5号,Meta AI在Arxiv网站发布了文章《Segment Anything》,并将SAM模型代码和数据开源。作为通用的分割网络,SAM或许将成为,甚至是已经成为了CV届的ChatGPT。简简单单的两个词Segment Anything,简单粗暴却不失优雅。 说

    2023年04月15日
    浏览(52)
  • CV界的chatgpt出现——Segment Anything能分割万物

    今天亲手体验了一下meta公司发布的Segment Anything,我们认为是cv界的chatgpt,这个模型太厉害了,厉害到可以对任意一张图进行分割,他们的网站上的例子也是挺复杂的,能够说明其强大的能力—demo链接,人工智能的技术迭代真是太快了。在模型的介绍中,有句话着实惊人——

    2023年04月18日
    浏览(38)
  • Meta的分割一切模型SAM( Segment Anything )测试

    Meta不久前开源发布了一款图像处理模型,即分割一切模型:Segment Anything Model,简称 SAM,号称要从任意一张图片中分割万物,源码地址为: 打开后看到目录结构大概这样: 一般一个开源项目中都会有项目介绍和示例代码。本示例中的文件 README.md 即为项目概况介绍,主要说明

    2023年04月27日
    浏览(51)
  • 【CV大模型SAM(Segment-Anything)】如何保存分割后的对象mask?并提取mask对应的图片区域?

    上一篇文章【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标中 详细介绍了大模型SAM(Segment-Anything)的不同使用方法 ,后面有很多小伙伴给我留言问我分割后的目标对象如何保存,这篇介绍一下分割后的ma

    2024年02月09日
    浏览(59)
  • 【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标

    本文主要介绍SAM模型的使用方法:如何使用不同的提示进行目标分割。而且该模型在CPU的环境下就可以快速运行,真心不错~,赶紧来试试吧 关于Segment-Anything模型的 相关代码、论文PDF、预训练模型、使用方法 等,我都已打包好,供需要的小伙伴交流研究, 获取方式如下 : 关

    2023年04月18日
    浏览(47)
  • CV不存在了?体验用Segment Anything Meta分割清明上河图

    在图像处理与计算机视觉领域, 图像分割(image segmentation) 是在像素级别将一个完整图像划分为若干具有特定语义 区域(region) 或 对象(object) 的过程。每个分割区域是一系列拥有相似特征——例如颜色、强度、纹理等的像素集合,因此图像分割也可视为 以图像属性为特征空间,

    2023年04月20日
    浏览(44)
  • 【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

    论文:Segment Anything 官网:https://segment-anything.com/ 代码:https://github.com/facebookresearch/segment-anything 出处:Meta、FAIR 时间:2023.04.05 贡献点: 首次提出基于提示的分割任务,并开源了可以分割一切的模型 SAM 开源了一个包含 1100 万张图像(约包含 10 亿 masks)的数据集 SA-1B,是目前

    2024年02月16日
    浏览(48)
  • 【AIGC】6、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

    论文:Segment Anything 官网:https://segment-anything.com/ 代码:https://github.com/facebookresearch/segment-anything 出处:Meta、FAIR 时间:2023.04.05 贡献点: 首次提出基于提示的分割任务,并开源了可以分割一切的模型 SAM 开源了一个包含 1100 万张图像(约包含 10 亿 masks)的数据集 SA-1B,是目前

    2023年04月23日
    浏览(61)
  • 【多模态】12、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

    论文:Segment Anything 官网:https://segment-anything.com/ 代码:https://github.com/facebookresearch/segment-anything 出处:Meta、FAIR 时间:2023.04.05 贡献点: 首次提出基于提示的分割任务,并开源了可以分割一切的模型 SAM 开源了一个包含 1100 万张图像(约包含 10 亿 masks)的数据集 SA-1B,是目前

    2024年02月17日
    浏览(51)
  • Meta AI Segment Anything Model (SAM)初体验

    最近Meta AI发布了Segment Anything模型,可以直接分割任何图片。我趁热乎体验了一下。 打开Segment Anything官网https://segment-anything.com/: 点击Try the demo,在弹出的对话框中勾选“I have read…”,进入上传界面: 点击“Upload an image”,上传自己的图片: 我上传的图片大小是5.14MB,提

    2024年02月05日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包