【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM

这篇具有很好参考价值的文章主要介绍了【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

论文:FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS

代码:https://github.com/ChaoningZhang/MobileSAM

出处:韩国庆熙大学

时间:2023.06.27

一、背景

Meta 提出的 SAM 以其出色的对任何感兴趣目标都可以进行分割的能力引起了广泛的关注,SAM 的结构如图 1 所示,包括两个部分:

  • ViT-based image encoder
  • prompt-guided mask decoder

SAM 是一个 label-free 的分割模型,可以和其他模型结合来进行进一步的下游任务,如 text-guided 分割、图像编辑等

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

在移动设备非常普及的情况下,很多图像编辑都是在移动端,但 SAM 的 image encoder 很大,所以设计一个对移动端友好的 SAM 是很迫切的。

故本文提出了 MobileSAM,主要就是设计了一个适用于移动端设备的轻量级 SAM

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

二、方法

按一般的想法来说,既然 image encoder 太大了,那么就缩小 image encoder

比如,将 ViT-H 使用 ViT-B 来替换,使用不同大小的 image encder 的模型参数量如表 3 所示:

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

从头训练一个 SAM(使用 ViT-L 或 ViT-B 做 image encoder)需要使用 128 个 GPU 训练数天,所以,重新训练代价也很大。

作者认为,优化的难度在于 image encoder 和 mask encoder 被耦合在一起了

所以,作者将 image encoder 和 mask encoder 进行了解耦:

  • 首先,将 ViT-H 的知识蒸馏到 tiny ViT
  • 然后,finetune mask encoder 来对齐蒸馏的小 image encoder

基于此,设计轻量级 SAM 的任务就转变为解耦蒸馏了,就很简单高效

MobileSAM 将 encoder 的参数降低了 100 倍,将整体参数降低了 60 倍

MobileSAM 推理速度:

  • 单个图像推理速度大概 10ms(8ms 是 image encoder,2ms 是 mask encoder)

MobileSAM 和 FastSAM 的速度对比:

  • MobileSAM 比 FastSAM 小 7 倍,快 4 倍

2.1 耦合蒸馏

要实现对移动端友好的 SAM 的一个直观方法是重新训练一个 image encoder 小的 SAM,但训练代价太大了,所以可以考虑蒸馏的的方法,如图 2 左侧所示,是用最终大模型的 mask 来指导小模型的 mask。

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

2.2 从半蒸馏到解耦蒸馏

当直接用 mask 来指导蒸馏时,其难点在于 image encoder 和 mask decoder 是联系在一起的,两者是互相依赖的,所以可以:

  • image encoder:蒸馏
  • mask encoder:finetuned(因为 SAM 中的 mask encoder 本来就很小,故保持结构不变)

如图 2 右侧所示,这种也叫半解耦蒸馏(semi-coupled),对 image encoder 蒸馏的同时对 mask encoder 参数冻结,冻结能够使得 mask decoder 的效果不变,不会被 image encoder 效果的好坏影响。

但这种方法还会有问题,因为 prompt 是随机的,会导致 mask decoder 多变,难以优化

所以,本文的蒸馏方法:

  • 完全解耦蒸馏
  • 直接对 image embedding 进行蒸馏
  • 完全将 image encoder 和 mask decoder 解耦开来了
  • 这样也可以直接使用 MSE loss,不用再结合 focal 和 dice loss 了

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

解耦的蒸馏方法计算资源是耦合蒸馏方法的 1%,但却达到了 0.75 mIoU:

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

三、效果

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC
【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC

【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC
【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM,多模态,AIGC文章来源地址https://www.toymoban.com/news/detail-595306.html

到了这里,关于【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 首个中文Stable Diffusion模型开源,玩转“中文-图片”的跨模态生成任务

    前言: 文本描述图片生成模型stable diffusion models大火的第4个月,首个中文stable diffusion models正式开源!基于0.2亿筛选过的中文图文对训练,能够轻松实现“中文-图片”的跨模态生成,感兴趣的小伙伴快来一起玩一玩吧! 目录 模型信息 震撼效果 体验地址 使用方法

    2023年04月17日
    浏览(44)
  • 【多模态】12、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

    论文:Segment Anything 官网:https://segment-anything.com/ 代码:https://github.com/facebookresearch/segment-anything 出处:Meta、FAIR 时间:2023.04.05 贡献点: 首次提出基于提示的分割任务,并开源了可以分割一切的模型 SAM 开源了一个包含 1100 万张图像(约包含 10 亿 masks)的数据集 SA-1B,是目前

    2024年02月17日
    浏览(48)
  • 【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

    论文:Segment Anything 官网:https://segment-anything.com/ 代码:https://github.com/facebookresearch/segment-anything 出处:Meta、FAIR 时间:2023.04.05 贡献点: 首次提出基于提示的分割任务,并开源了可以分割一切的模型 SAM 开源了一个包含 1100 万张图像(约包含 10 亿 masks)的数据集 SA-1B,是目前

    2024年02月16日
    浏览(45)
  • 本地部署体验LISA模型(LISA≈图像分割基础模型SAM+多模态大语言模型LLaVA)

    GitHub地址:https://github.com/dvlab-research/LISA 该项目论文paper reading:https://blog.csdn.net/Transfattyacids/article/details/132254770 在GitHub上下载源文件,进入下载的文件夹,打开该地址下的命令控制台,执行指令: 几种报错解决方法: 下载包失败 例:“pip install numpy” 解决:“pip install n

    2024年02月10日
    浏览(42)
  • 【AIGC】10、Chinese CLIP | 专为中文图文匹配设计

    论文:Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese 代码:https://github.com/OFA-Sys/Chinese-CLIP 出处:阿里达摩院 时间:2022.11 贡献: 提出了 Chinese CLIP,是经过在大尺度中文图像-文本对儿的两阶段预训练 CLIP 的成功极大地促进了对比学习在视觉-语言模型预训练上的研究和应用

    2024年02月13日
    浏览(33)
  • 新上线:爱校对的PDF校对工具,专为专业人士设计

    在这个信息爆炸的时代,准确和专业的信息交流比以往任何时候都更为重要。专业人士,无论是律师、医生、研究人员还是企业高管,都依赖于高质量的PDF文档来进行准确无误的沟通。但是,校对这些文档常常是一个既耗时又容易出错的任务。这就是为什么我们推出了全新的

    2024年02月10日
    浏览(46)
  • milvus: 专为向量查询与检索设计的向量数据库

    milvus docs milvus release Milvus的目标是:store, index, and manage massive embedding vectors generated by deep neural networks and other machine learning (ML) models. Milvus 向量数据库专为向量查询与检索设计,能够为万亿级向量数据建立索引。 与现有的关系数据库主要按照预定义的模式处理结构化数据不同,

    2024年02月15日
    浏览(39)
  • 专为Windows电脑和服务器设计的磁盘管理软件

    磁盘管理是Windows自带工具,允许你对磁盘进行一些基本操作,Windows个人用户和Windows Server用户可以使用它来:        1. 创建一个新驱动器,如“新建简单卷”功能。 2. 将一个卷扩展到当前未被同一磁盘上的另一个卷占用的空间,如“扩展卷”功能。 3. 缩小分区,通常为相

    2023年04月27日
    浏览(43)
  • 【目标检测】53、YOLOv6 | 论文来啦!专为工业应用设计

    论文:YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications 代码:https://github.com/meituan/YOLOv6 官方博文:https://blog.csdn.net/MeituanTech/article/details/125437630 作者:美团 时间:2022.09 贡献: 专门为工业应用领域重新设计了一系列不同尺度的网络,引入 RepVGG 的思想,小模型为单

    2024年02月06日
    浏览(39)
  • SanctuaryAI推出Phoenix: 专为工作而设计的人形通用机器人

    唯一入选《时代》杂志 2023 年最佳发明的通用机器人。 称机器人自主做家务的速度和 灵活度 已达到了和人类相当的水平。 官网链接:https://sanctuary.ai/ Sanctuary AI 由其开创性的 人工智能控制系统 Carbon™ 提供支持,在宣布其技术首次商业部署后不到两个月,Sanctuary AI 公布了其

    2024年03月09日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包