Meta:segment anything

这篇具有很好参考价值的文章主要介绍了Meta:segment anything。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

介绍地址:https://ai.facebook.com/research/publications/segment-anything/

演示地址:https://segment-anything.com/demo#

论文:https://scontent-akl1-1.xx.fbcdn.net/v/t39.2365-6/10000000_900554171201033_1602411987825904100_n.pdf?_nc_cat=100&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=Ald4OYhL6hgAX-FZV7S&_nc_ht=scontent-akl1-1.xx&oh=00_AfDDJRfDV85B3em0zMZvyCIp882H7HaUn6lo1KzBtZ_ntQ&oe=643500E7

简介:“分割任何物体”(SA)项目:这是一个新的任务、模型和用于图像分割的数据集。我们使用高效的模型在数据收集循环中,建立了迄今为止最大的分割数据集,涵盖了超过1亿张授权和尊重隐私的图像。该模型经过设计和训练,可立即响应,因此可以在新的图像分布和任务上进行零样本迁移。

Meta评估了其在众多任务上的能力,并发现它的零样本性能令人印象深刻——通常与甚至优于以前的全监督结果相竞争。我们将发布“分割任何物体模型”(SAM)和相应的数据集(SA-1B),其中包含10亿个掩模和1100万张图像,以促进计算机视觉基础模型的研究。https://segment-anything.com

Meta:segment anything

整体流程

Meta提出:大规模预训练的语言模型正在使用零-shot和少量-shot的泛化性能方面在NLP领域进行革命性的改变。这些“基础模型”可以将任务和数据分布泛化到训练期间未曾见过的领域。这种能力通常是通过prompt engineering实现的,即使用手工制作的文本来提示语言模型为当前任务生成有效的文本响应。当使用来自Web的丰富文本语料库进行扩展和训练时,这些模型的零-shot和少量-shot的性能表现出人意料的好,甚至在某些情况下与微调模型相媲美。经验趋势表明,这种行为随着模型规模、数据集大小和总的训练计算力的增加而不断改善。基础模型在计算机视觉领域也得到了探索,尽管探索程度较少。最显著的例子可能是从Web上对齐文本和图像。例如,CLIP [82]和ALIGN [55]使用对比学习来训练文本和图像编码器以对齐这两种模态。训练后,经过设计的文本提示可以实现对新的视觉概念和数据分布的零-shot泛化。这种编码器也可以有效地与其他模块组合,以实现下游任务,例如图像生成(例如DALL·E [83])。虽然在视觉和语言编码器方面取得了很多进展,但计算机视觉包括许多超出此范围的问题,对于其中许多问题,缺乏丰富的训练数据。在本研究中,我们的目标是建立一个图像分割的基础模型。也就是说,我们希望开发一个可提示的模型,并使用一个能够实现强大泛化的任务在广泛的数据集上进行预训练。利用该模型,我们旨在使用prompt engineering在新的数据分布上解决一系列下游分割问题。

关键点:

任务(§2)。在自然语言处理领域,以及近年来的计算机视觉领域,基础模型是一种有前途的发展,通常可以通过“提示”技术实现对新数据集和任务的零样本和小样本学习。受到这一工作线路的启发,我们提出了可提示分割任务,即旨在根据任何分割提示(参见图1a)返回有效的分割掩码。提示简单地指定要在图像中分割的内容,例如,提示可以包括标识对象的空间或文本信息。要求输出掩码有效意味着即使提示模棱两可并可能涉及多个对象(例如,衬衫上的一个点可能表示衬衫或穿着衬衫的人),输出也应为至少其中一个对象提供一个合理的掩码。我们使用可提示分割任务作为预训练目标,并通过提示工程来解决各种下游分割任务。

模型(§3)。可提示分割任务和实际使用目标对模型架构施加了约束。特别是,模型必须支持灵活的提示,需要在摊销实时计算掩码以允许交互式使用,并且必须具有歧义感知能力。令人惊讶的是,我们发现一个简单的设计可以满足所有三个约束条件:一个强大的图像编码器计算图像嵌入,一个提示编码器嵌入提示,然后两个信息源在一个轻量级的掩码解码器中进行组合以预测分割掩码。我们将这个模型称为“Segment Anything Model”或SAM(参见图1b)。通过将SAM分解为图像编码器和快速提示编码器/掩码解码器,可以重用相同的图像嵌入(并摊销其成本),并使用不同的提示。给定一个图像嵌入,提示编码器和掩码解码器在Web浏览器中从提示预测掩码需要约50ms。我们专注于点、框和掩码提示,并且还使用自由形式文本提示呈现初始结果。为了使SAM具有歧义感知能力,我们设计它预测单个提示的多个掩码,从而自然地处理歧义,例如衬衫与人的例子。

数据引擎(§4)。为了实现对新数据分布的强大泛化能力,我们发现有必要在大量且多样化的掩码上训练SAM,这超出了任何现有分割数据集。虽然基础模型的典型方法是在线获得数据[82],但掩码并不是自然丰富的,因此我们需要一种替代策略。我们的解决方案是构建一个“数据引擎”,即我们与模型在回路中的数据集标注一起开发(参见图1c)。我们的数据引擎分为三个阶段:辅助手动、半自动和全自动。在第一阶段,SAM协助注释者注释掩码,类似于经典的交互式分割设置。在第二阶段,SAM可以通过提示可能的对象位置自动生成部分对象的掩码,注释者专注于注释其余对象,从而增加掩码的多样性。在最后一个阶段,我们用前景点的常规网格提示SAM,每个图像平均产生约100个高质量的掩码。

数据集(§5)。我们最终的数据集SA-1B包括来自1100万个经过许可且保护隐私的图像的1亿多个掩码(见图2)。使用我们数据引擎的最终阶段完全自动地收集的SA-1B比任何现有的分割数据集[66, 44, 117, 60]都多出400倍,如我们广泛验证的那样,掩码具有高质量和多样性。除了用于训练SAM以实现强大的稳健性和泛化能力外,我们希望SA-1B成为旨在构建新基础模型的研究的有价值的资源。

负责任的AI(§6)。我们研究并报告了在使用SA-1B和SAM时可能存在的公平性问题和偏差。SA-1B中的图像涵盖了一组地理和经济多样化的国家,我们发现SAM在不同的人群中表现相似。我们希望这将使我们的工作在实际应用场景中更具公平性。我们在附录中提供了模型和数据集卡片。

实验(§7)。我们对SAM进行了广泛的评估。首先,使用23个不同的分割数据集,我们发现SAM可以从单个前景点生成高质量的掩模,通常只比手动注释的地面真实值稍微低一些。其次,我们发现在使用提示工程的零-shot转移协议下,在各种下游任务中,包括边缘检测、目标提议生成、实例分割以及文本到掩模预测的初步探索中,我们都获得了一致强劲的定量和定性结果。这些结果表明,SAM可以与提示工程一起直接用于解决涉及对象和图像分布超出SAM训练数据的各种任务。然而,仍有改进的空间,我们在§8中进行了讨论。

发布。我们将SA-1B数据集发布供研究用途,并在https://segment-anything.com上以宽松的开放许可(Apache 2.0)提供SAM。我们还通过在线演示展示了SAM的能力。

Meta:segment anything

具体请看论文文章来源地址https://www.toymoban.com/news/detail-449856.html

到了这里,关于Meta:segment anything的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Meta:segment anything

    介绍地址:https://ai.facebook.com/research/publications/segment-anything/ 演示地址:https://segment-anything.com/demo# 论文:https://scontent-akl1-1.xx.fbcdn.net/v/t39.2365-6/10000000_900554171201033_1602411987825904100_n.pdf?_nc_cat=100ccb=1-7_nc_sid=3c67a6_nc_ohc=Ald4OYhL6hgAX-FZV7S_nc_ht=scontent-akl1-1.xxoh=00_AfDDJRfDV85B3em0zMZvyCIp882H7Ha

    2024年02月05日
    浏览(41)
  • Meta的分割一切模型SAM( Segment Anything )测试

    Meta不久前开源发布了一款图像处理模型,即分割一切模型:Segment Anything Model,简称 SAM,号称要从任意一张图片中分割万物,源码地址为: 打开后看到目录结构大概这样: 一般一个开源项目中都会有项目介绍和示例代码。本示例中的文件 README.md 即为项目概况介绍,主要说明

    2023年04月27日
    浏览(51)
  • CV不存在了?体验用Segment Anything Meta分割清明上河图

    在图像处理与计算机视觉领域, 图像分割(image segmentation) 是在像素级别将一个完整图像划分为若干具有特定语义 区域(region) 或 对象(object) 的过程。每个分割区域是一系列拥有相似特征——例如颜色、强度、纹理等的像素集合,因此图像分割也可视为 以图像属性为特征空间,

    2023年04月20日
    浏览(45)
  • 【多模态】12、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

    论文:Segment Anything 官网:https://segment-anything.com/ 代码:https://github.com/facebookresearch/segment-anything 出处:Meta、FAIR 时间:2023.04.05 贡献点: 首次提出基于提示的分割任务,并开源了可以分割一切的模型 SAM 开源了一个包含 1100 万张图像(约包含 10 亿 masks)的数据集 SA-1B,是目前

    2024年02月17日
    浏览(51)
  • 【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

    论文:Segment Anything 官网:https://segment-anything.com/ 代码:https://github.com/facebookresearch/segment-anything 出处:Meta、FAIR 时间:2023.04.05 贡献点: 首次提出基于提示的分割任务,并开源了可以分割一切的模型 SAM 开源了一个包含 1100 万张图像(约包含 10 亿 masks)的数据集 SA-1B,是目前

    2024年02月16日
    浏览(48)
  • 【AIGC】6、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

    论文:Segment Anything 官网:https://segment-anything.com/ 代码:https://github.com/facebookresearch/segment-anything 出处:Meta、FAIR 时间:2023.04.05 贡献点: 首次提出基于提示的分割任务,并开源了可以分割一切的模型 SAM 开源了一个包含 1100 万张图像(约包含 10 亿 masks)的数据集 SA-1B,是目前

    2023年04月23日
    浏览(61)
  • 【计算机视觉 | 目标检测 | 图像分割】Grounded Segment Anything:Grounding DINO + Segment Anything Model (SAM)介绍

    集成SAM,可以通过文本提示做检测/分割等任务。 我们计划通过结合 Grounding DINO 和 Segment Anything 来创建一个非常有趣的演示,旨在通过文本输入检测和分割任何内容! 并且我们会在此基础上不断完善它,创造出更多有趣的demo。 我们非常愿意帮助大家分享和推广基于Segment-A

    2024年02月04日
    浏览(50)
  • 一点就分享系列(理解篇5)Meta 出品 Segment Anything 4月6号版核心极速解读——主打一个”Zero shot“是贡献和辅助,CV依然在!

    Meta开源了Segment Anything项目和官网展现了非常令人印象深刻的分割Demo,其SAM模型给CV研究领域,个人简要理解有以下贡献: 1.Openset形式的分割任务的模型 2.超大的分割数据集 3.更好的应用思路,提示和组合可以派生很多有趣的应用 4.促进CV及多模态以及多任务一统趋势 源码地址

    2023年04月17日
    浏览(42)
  • 【Python&语义分割】Segment Anything(SAM)模型介绍&安装教程

    1.1 概况         Meta AI 公司的 Segment Anything 模型是一项革命性的技术,该模型能够根据文本指令或图像识别,实现对任意物体的识别和分割。这一模型的推出,将极大地推动计算机视觉领域的发展,并使得图像分割技术进一步普及化。         论文地址:https://arxiv.org/

    2024年02月05日
    浏览(55)
  • 计算机视觉:分割一切AI大模型segment-anything

    Segment Anything Model (SAM)来源于Facebook公司Meta AI实验室。据Mata实验室介绍,SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像

    2024年02月11日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包