【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测

这篇具有很好参考价值的文章主要介绍了【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

论文:DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection

代码:无。。。

出处:NIPS2022 | 华为诺亚方舟 | 中山大学 | 香港科技大学

效果:

  • 在 LVIS 的 1203 个类别上超越了 GLIP,DetCLIP-T 在预训练没有见过 LVIS 的情况下超越 GLIP-T 9.9%

一、背景

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉
开放世界目标检测是一个通用且有挑战的方向,其目标是要识别和定位任意类别的目标

最近的工作 GLIP 将其构建成了一个 phrase grounding 任务,将所有待检测的类别整合成了一个句子,然后送入 text encoder 进行编码并和图像特征进行对齐

在 text encoder 中,会学习所有类别之间的 attention,这其实是没有必要且低效的,尤其是当类别数量增加时,效率更低

基于此,作者提出了 DetCLIP,dictionary-enriched visual-concept paralleled pre-training method,这里的 concept 指的就是检测任务中的类别名称、grounding 任务中的 phrase 等

  • 设计了一个并行的结构来提高效率,不会将整个 prompt text 送入 text encoder,而是将每个 concept 都作为一个独立的个体,将所有的 concept 分别送入不同的 text encoder
  • 这样能够避免模型受到不相关类别无效关联,并且能给每个 concept 都产生一个长描述

另外,预训练时候使用的数据集一般域间差别比较大且命名也有较大的不同,比如一个相同类别的目标在在不同数据集中的命名可能是不同的

这样就很难直接从命名上来获得这些类别之间的关联

所以作者重新构建了一个 concept dictionary,丰富联合不同数据集进行 pre-training 的 prompt text

  • 首先,从现有的数据集中组合了一个 dictionary
  • 然后,基于上面的 dictionary,DetCLIP 能够自动丰富概念和描述

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

二、方法

2.1 数据构建

一个好的开放世界目标检测器需要很丰富的训练数据,要覆盖到足够多的视觉概念

现有的目标检测数据集类别还是不够多,这也是受限于标注限制

grounding data 和 image-text pair 有很丰富的语义覆盖

所以,需要将这些不同类型的数据整合到一个统一的存储方式来进行后续的任务

如图 3 展示了使用不同类型的数据的不同,a-b 展示了传统的检测数据和 grounding 数据使用不同的数据输入,检测数据将类别当做固定的 label,grounding 数据将整个句子当做输入,构建每个单词之间的关系,然后将编码后的 token 和图像区域进行对齐

GLIP 将目标检测构建成了 grounding 任务,将类别组合成了一个句子,如图 3c

本文作者认为这样的做法有如下问题:

  • 会导致不同类别名称间进行无用的交互
  • 限制了对比学习中 negative sample 的数量

DetCLIP 如何破局:

  • 引入了并行结构,如图 3d,会将每个类别名称单独送入 text encoder 来得到对应的编码结果,模型是从单独的 concept 中学习其语言特征的,可以提高学习效率,如图 4
  • 此外,并行结构可以根据类别数量来很容易的扩展

不同数据如何适应这个并行结构:

  • 检测数据:假设一个图中有 k 个 positive category,首先将类别数量扩展到 N (随机抽取负类别),N 是预定义好的数量,用于构造 alignment loss,然后将 N 个类别名称作为独立的句子送入 text encoder,并且使用 [end of sentence] token 的编码作为每个类别的 text embedding,最后,将所有 N 个 text embedding concat 起来和 gt 去计算 alignment loss,coco 示例如下:

    【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

  • grounding 数据:作者会从 grounding 标注的 caption 中抽取 positive phrase,然后同样扩展到长度 N,一个例子如下:

    【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

  • Image-text pair 数据:只有图像和对应的描述,没有标注框。为了获得目标框,首先使用 RPN 来生成与类别无关的 proposal,然后使用预训练好的 CLIP 或 FILIP 为这些 proposal 生成伪标签,然后和前面的处理方法一样

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

2.2 词汇字典搭建

由于现有的 detection/grounding/image-textpair 这些数据集有较大的 domain gap 和不同的 labeling space。

一个男孩可以被标注为 man、child、people,这些概念也会有包含或层级的关系

这些语义的关系可能会促进预训练,但仅从词汇名称中很难发现他们直接的关系

所以,作者构建了一个大规模的词汇字典,来将不同数据源的词汇统一到一个词汇空间,并且能够通过描述来提供不同词汇之间的关联

例如:

  • 一个 car 的描述为:a motor vehicle with four wheels usually propelled by an internal combustion engine
  • 一个 motorcycle 的描述为:a motor vehicle with two wheels and a strong frame

这样的描述即表达了 car 和 motorcycle 的不同,也表达它们之间的相同点

作者是如何构建的:

  • 首先,从多个源头收集 concept:image-text pair 数据集(YFCC100m)、检测数据集中的类别(Object365、OpenImage)、物体数据集中的物体名称(Tings 数据集)。
  • 然后,会先去重然后放入词汇字典中,还有一些特殊的操作,见文章,得到了包含约 14k 词汇和对应定义的字典

词典如何丰富:

  • 对于输入的 concept,如果该 concept 在字典里,则会使用该 concept 对应的描述
  • 如何不再字典里,会通过计算相似性矩阵,来找出与其最接近的 concept,并且找到对应的描述
  • 丰富后的示例如下:
    【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

对与 grounding 或 image-text pair 数据,标注描述中指包含了主要的目标,也就是 partial labeling,所以会有两个问题:

  • 缺少足够的 negative concept 用于学习更好的编码:DetCLIP 会从字典中随机抽取负样本描述,如图 5b 所示
  • 缺少部分 positive concept 的标注:使用了和对 image-text pair 类似的处理方法,即生成伪标签,如图 7 所示

2.3 模型结构

如图 5 所示,DetCLIP 包含:

  • 一个 image encoder 来对图像进行编码
  • 一个 text encoder 来对 concept 进行编码
  • 一个对齐计算模块来用于计算所有 region-word pairs 的对齐得分

loss 如下:

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

三、效果

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉

【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉
【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉
【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测,多模态,目标检测,人工智能,计算机视觉文章来源地址https://www.toymoban.com/news/detail-601030.html

到了这里,关于【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 迈向多模态AGI之开放世界目标检测 | 人工智能

    作者: 王斌 谢春宇 冷大炜 引言 目标检测是计算机视觉中的一个非常重要的基础任务,与常见的的图像分类/识别任务不同,目标检测需要模型在给出目标的类别之上,进一步给出目标的位置和大小信息,在CV三大任务(识别、检测、分割)中处于承上启下的关键地位。当前

    2024年02月16日
    浏览(46)
  • Spring Boot实现对超大文件进行异步压缩下载

     在Web应用中,文件下载功能是一个常见的需求,特别是当你需要提供用户下载各种类型的文件时。本文将演示如何使用Spring Boot框架来实现一个简单而强大的文件下载功能。我们将创建一个RESTful API,通过该API,用户可以下载问价为ZIP压缩文件。 首先,确保你已经创建了一个

    2024年02月07日
    浏览(54)
  • 【多模态】22、UniDetector | 检测开放世界中的一切!(CVPR2023)

    论文:Detecting Everything in the Open World: Towards Universal Object Detection 代码:https://github.com/zhenyuw16/UniDetector 出处:CVPR2023 贡献: 提出了一个任意场景任意类别的目标检测器 UniDetector,使用来自不同源和多样标注空间的数据来训练,将 image 和 text space 进行对齐,也是目前首个实现通

    2024年02月15日
    浏览(48)
  • 51-16 FusionAD 用于自动驾驶预测与规划任务的多模态融合论文精读

    今天要分享的是基于BEV的多模态、多任务、端到端自动驾驶模型FusionAD,其专注于自动驾驶预测和规划任务。这项工作首次发表于2023年8月2日,性能超越了2023 CVPR最佳论文UniAD模型。论文题目是FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving,主要作者来自

    2024年01月24日
    浏览(47)
  • 使用CLIP和LLM构建多模态RAG系统

    在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。 在人工智能领域,检索增强生成(retrieve - augmented Generation, RAG)作为一种变革性

    2024年02月02日
    浏览(46)
  • 构建未来的数字世界:创新开放API接口认证解决方案

    目录 1、引言 1.1 数字世界的发展 1.2 API接口的重要性 1.3 API接口认证的挑战 2、现有的API接口认证解决方案 2.1 基于令牌的认证方法 2.2 OAuth认证 2.3 OpenID认证 2.4 API密钥认证 3、创新开放API接口认证解决方案 3.1 双因素认证 3.2 生物特征认证 3.3 区块链认证 3.4 基于智能合约的认证

    2024年01月25日
    浏览(51)
  • 中国在构建新一代人工智能开放平台方面的策略与目标

    作者:禅与计算机程序设计艺术 随着人工智能技术的不断提升和应用,传统的人工智能解决方案正在被颠覆。越来越多的公司和机构都在探索着如何利用人工智能技术实现更高效、更可靠、更智能的业务模型。近年来,中国政府已经率先开启了构建新一代人工智能开放平台的

    2024年02月07日
    浏览(55)
  • 移远通信推出一站式Matter解决方案,构建智能家居开放新生态

    近日,全球领先的S物联网整体解决方案供应商移远通信宣布,正式推出全新Matter解决方案,从模组、APP、平台、认证、生产五大层面为客户提供一站式服务,赋能智能家居行业加快融合发展。 过去十年,得益于物联网生态的发展,智能家居行业经过创新竞争形成百花齐放的

    2024年02月12日
    浏览(44)
  • 用NEO4J平台构建一个《人工智能引论》课程的多模态知识图谱

    知识图谱的经典定义是结构化的语义知识库,是用形象化的图形式来表达出物理世界中的概念以及内部关系。 其基本组成单位是“实体-关系-实体”三元组 ,实体间通过关系相互连接形成知识结构网络。而它 也是基于图的数据结构,基本组成是“节点-边-节点” ,从而

    2024年01月16日
    浏览(75)
  • (CVPR-2023)通过有效的时空特征融合进行多模态步态识别

    paper题目:Multi-modal Gait Recognition via Effective Spatial-Temporal Feature Fusion paper是北航发表在CVPR 2023的工作 paper地址 步态识别是一种生物识别技术,通过步行模式识别人。基于剪影的方法和基于骨架的方法是两种最流行的方法。但是剪影数据容易受到衣服遮挡的影响,骨架数据缺乏

    2024年02月08日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包