【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion

这篇具有很好参考价值的文章主要介绍了【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、前言

【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion
Midjourney 花一个小时做的项目 logo 图:

【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion

解释一下 logo 的含义:一只坐在地上的马赛克风格的熊。

坐在地面上是因为 ground 有地面的含义,然后分割后的图片可以认为是一种马赛克风格,而且马赛克谐音 mask,之所以用熊作为 logo 主体,是因为项目主要示例的图片是熊。

Grounded-SAMSAMBLIPStable Diffusion 集成在一起,将图片「分割」、「检测」和「生成」三种能力合一,成为最强 Zero-Shot 视觉应用。

二、功能介绍

项目体验的地址为:

https://github.com/IDEA-Research/Grounded-Segment-Anything

【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion

2.1 功能一

这个功能主要是通过 whisper 模块对语音进行转换,直接对图片的检测对象进行替换,例如将狗替换成猴子,看图片确实是毫无违和感,这部分功能相信在不久的将来应该能实现落地使用。

【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion

2.2 功能二

这个功能是实现自动数据标注,包括标签信息及预测概率,有点类似于 YOLOV8 系列,借助 SAM 分割万物的思想可以直接对图片中的所有场景进行分割及分类标注。

使用 Tag2Text 直接生成标签,使用 Grounded-SAM 进行 boxmask 生成。Tag2Text 具有卓越的标记和字幕功能。使用 BLIP 生成标题,使用 chatGPT 提取标签,使用 Ground-SAM 生成框和 MASK 图片。

浅浅的谈一句,针对简单场景,确实该项目有很多过人的优势,复杂场景的实际应用还有待商榷,目前看来最大的一个问题是分割的场景会存在分割过细的情况,需要手动人工 check,而且并不是所有参数对不同图片都适用,针对训练的大量图片,实际自动标注效果还有待优化。

【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion
【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion

2.3 其他有趣的功能

其他更多有趣的功能,比如更换头发颜色、背景、交互式应用等。这些模块感觉就是抖音的下一个热点!

【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion

三、总结

可以想象未来只需要语音交互就能够完成所有的视觉工作流任务,这是多么奇妙的一件事情啊!

这个项目背后的核心思想是结合不同模型的优势,以构建一个非常强大的管道来解决复杂的问题。

值得一提的是,这是一个结合强大专家模型的工作流程,其中所有部分都可以单独或组合使用,并且可以替换为任何相似但不同的模型(例如用 GLIP 或其他检测器替换 Grounding DINO / 替换 Stable-ControlNetGLIGEN 的扩散/与 ChatGPT 结合)。文章来源地址https://www.toymoban.com/news/detail-444387.html

  • Segment Anything 是一个强大的细分模型。 但它需要提示(如框/点)来生成掩码。
  • Grounding DINO 是一种强大的 zero-shot 检测器,能够生成带有自由格式文本的高质量框和标签。
  • Grounding DINO + SAM 的组合能够通过文本输入检测和分割任何级别的所有内容!
  • BLIP + Grounding DINO + SAM 组合自动贴标系统!
  • Grounding DINO + SAM + Stable-diffusion 数据工厂的组合,生成新数据!
  • Whisper + Grounding DINO + SAM 的组合,可以检测和分割任何有语音的东西!

到了这里,关于【计算机视觉】最强 Zero-Shot 视觉应用:Grounding DINO + Segment Anything + Stable Diffusion的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 代码解读:Zero-shot 视频生成任务 Text2Video-Zero

    Diffusion Models视频生成-博客汇总 前言: 上一篇博客《【ICCV 2023 Oral】解读Text2Video-Zero:解锁 Zero-shot 视频生成任务》解读了这篇论文《Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators》。这篇论文的创新点比较多,含金量很高,而且开源了代码。所以这篇博客结合

    2024年02月03日
    浏览(53)
  • 105、Zero-1-to-3: Zero-shot One Image to 3D Object

    官网  使用合成数据集来学习相对摄像机视点的控制,这允许在指定的摄像机变换下生成相同对象的新图像,用于从单个图像进行三维重建的任务。  输入图像 x ∈ R H × W × 3 x in R^{H times W times 3} x ∈ R H × W × 3 ,所需视点的相对摄像机旋转和平移 R ∈ R 3 × 3 , T ∈ R

    2024年02月01日
    浏览(44)
  • 计算机视觉(P2)-计算机视觉任务和应用

    在本文中,我们将探讨主要的计算机视觉任务以及每个任务最流行的应用程序。         图像分类是计算机视觉领域的主要任务之一[1]。在该任务中,经过训练的模型根据预定义的类集为图像分配特定的类。下图是著名的CIFAR-10数据集[1],它由十个类别的8000万张图像组成

    2024年02月02日
    浏览(69)
  • 什么是计算机视觉,计算机视觉的主要任务及应用

    目录 1. 什么是计算机视觉 2. 计算机视觉的主要任务及应用 2.1 图像分类 2.1.1 图像分类的主要流程 2.2 目标检测 2.2.1 目标检测的主要流程 2.3 图像分割 2.3.1 图像分割的主要流程 2.4 人脸识别 2.4.1 人脸识别的主要流程 对于我们人类来说,要想认出身边的一个人,首先需要

    2024年02月11日
    浏览(44)
  • huggingface pipeline零训练样本分类Zero-Shot Classification的实现

    1 : 默认的model 。 输出是 education 第一位的。 2 : 使用 morit/chinese_xlm_xnli : 3:使用 facebook/bart-large-mnli 4:

    2024年02月20日
    浏览(42)
  • 论文笔记--Prompt Consistency for Zero-Shot Task Generalization

    标题:Prompt Consistency for Zero-Shot Task Generalization 作者:Chunting Zhou, Junxian He, Xuezhe Ma, Taylor Berg-Kirkpatrick, Graham Neubig 日期:2022 期刊:Arxiv preprint   文章基于prompt的一致性学习给出了一种zero-shot task generalization(零样本泛化学习)的无监督方法。数值实验表明,文章提出的指令

    2024年02月10日
    浏览(40)
  • 计算机视觉的实际应用:计算机视觉在实际应用中的成功案例

    计算机视觉(Computer Vision)是一种利用计算机解析、理解并从图像中抽取信息的技术。它是一种跨学科的研究领域,涉及到计算机科学、数学、物理、生物学、心理学等多个领域的知识和技术。计算机视觉的应用范围广泛,包括图像处理、图像识别、机器人视觉、自动驾驶等

    2024年01月23日
    浏览(50)
  • diffusion model (七) diffusion model是一个zero-shot 分类器

    Paper: Your Diffusion Model is Secretly a Zero-Shot Classifier Website: diffusion-classifier.github.io/ diffusion model(一)DDPM技术小结 (denoising diffusion probabilistic) diffusion model(二)—— DDIM技术小结 diffusion model(三)—— classifier guided diffusion model diffusion model(四)文生图diffusion model(classifier-free

    2024年02月12日
    浏览(39)
  • 【深度学习】【风格迁移】Zero-shot Image-to-Image Translation

    论文:https://arxiv.org/abs/2302.03027 代码:https://github.com/pix2pixzero/pix2pix-zero/tree/main 大规模文本到图像生成模型展示了它们合成多样且高质量图像的显著能力。然而,直接将这些模型应用于编辑真实图像仍然存在两个挑战。首先, 用户很难提供完美的文本提示,准确描述输入图像

    2024年02月13日
    浏览(47)
  • 计算机视觉的应用

    计算机视觉(Computer Vision)是一门研究如何让计算机能够理解和分析数字图像或视频的学科。简单来说,计算机视觉的目标是让计算机能够像人类一样对视觉信息进行处理和理解。为实现这个目标,计算机视觉结合了图像处理、机器学习、模式识别、计算几何等多个领域的理

    2024年01月20日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包