【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解

这篇具有很好参考价值的文章主要介绍了【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

出发点是制定一种更加通用的目标检测问题,目的是借助于大量的image-caption数据来覆盖更多的object concept,使得object detection不再受限于带标注数据的少数类别,从而实现更加泛化的object detection,识别出更多novel的物体类别。

一、背景 & 动机

尽管深度神经网络在目标检测方面具有显著的准确性,但由于监管要求,它们的训练和拓展成本很高。特别是,学习更多的对象类别通常需要按比例增加更多的边界框注释。

例如Faster RCNN及其令人印象深刻的准确性,但训练这样的模型需要昂贵且耗时的人力监督,特别是,需要为每个ROI的对象类别手动标注至少数千个边界框。尽管之前很多机构已经完成了object detection上benchmark的建立,并且公开了这些有价值的数据集,例如Open Images和MSCOCO,这些数据集描述了一些有限的对象类别。但如果我们想将目标检测从600个类别扩展到60000个类别,那么我们需要100倍数据资源的标注,这使得把目标检测拓展到开放世界里变得遥不可及。

然而,人类通过自然监督学会毫不费力地识别和定位物体,即探索视觉世界和倾听他人描述情况。我们人类具有终生学习的能力,我们捕捉到视觉信息后,会将它们与口语联系起来,从而产生了丰富的视觉和语义词汇,这些词汇不仅可以用于检测物体,而且可以用来拓展模型的表达能力。尽管在对象周边绘制边界框不是人类自然学习的任务,但他们可以通过使用少量例子快速学习它,并将其快速泛化到所有类型的对象,而不需要每个对象类的示例,这就是Open Vocabulary Object Detection这一问题的motivation所在。

二、Open-Vocabulary的简单引入

Open-Vocabulary Object Detection (OVD)可以翻译为**“面向开放词汇下的目标检测”,**该任务和zero-shot object detection非常类似,核心思想都是在可见类(base class)的数据上进行训练,然后完成对不可见类(unseen/ target)数据的识别和检测。

弱监督和zero-shot学习技术已经被探索用于在较少监督的情况下将对象检测器扩展到更多类别,但它们还没有像监督模型那样成功和广泛应用。

在本文中,我们提出了一种新的目标检测问题的公式—Open-Vocabulary Object Detection,它比弱监督和zero-shot方法更通用、更实用、更有效。

我们提出了一种新的方法来训练对象检测器,使用限定对象类别的包围框注释,以及以显著较低的成本覆盖更多的图像—标题对。

我们表明,所提出的方法可以检测和定位在训练过程中没有提供边界框注释的对象,其精度明显高于zero-shot方法。

三、Open-Vocabulary / zero-shot /weakly supervised之间的差异

【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解
比较了一下三种setting,OVD和ZSD的区别应该就是在训练时,OVD可能用到target类的embedding信息,当然可能只说这些embedding信息包含在一堆caption中,谁也不知道里面有没有target信息,肯定不能给target类的bbox信息。而zero-shot完全没用到,weakly supervised就更直接了,直接利用子集来训练,从而强化泛化能力。

四、论文的核心

Open-Vocabulary工作的核心是利用image-caption数据来对视觉编码器进行pre-training。

由于caption中存在着丰富的用于图像区域等细粒度特征得描述单词和短语,能够覆盖更多的物体类别,因此经过大规模image-caption的预训练,Vision encoder便能够学习到更加泛化的视觉-语义对应空间。

因此训练好的vision encoder便可以用于替换faster rcnn中的encoder,提高检测模型的zero-shot检测能力。

五、论文流程

【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解
展开讨论预训练流程,整体的预训练流程有些类似于PixelBert,可参考如下:

  • 第一步:学习的视觉与文本的联系。通过训练一个现象变换层来把视觉空间的特征转换到文本空间,来充当一个V2L(vision to language)的模块,负责把视觉特征变换到文本空间去。输入的image-caption对首先各自经过各自模态的encoder,图像则是细分得到每个区域的特征,然后进一步经过V2L变换。之后,两个模态的特征concat起来之后送入多模态的transformer,得到的输出是视觉区域特征以及训练好的BERT,这样的模型具有泛化能力,而图像encoder是常用的resnet50。
  • 第二步:利用常规的目标检测框架:Faster RCNN,进行模型训练。为了保证延续性,backbone采用上一阶段中训练好的renet50,每个proposal的特征经过V2L变换之后又与类别标签的文本特征计算相似度来进行分类。事实上就是把回归问题转换成分类问题。
  • 第三步:把要检测的新类别加入文本的特征向量中做匹配。

一旦预训练结束后,trained vision encoder和trained V2L层,便可以替换至Faster RCNN框架中,通过在base数据集上进行finetune vision encoder,使其适配ROI区域特征,固定V2L层,保持其学习到的泛化的视觉-语义空间,即可进行target类别数据的检测。

总结来看,OVR-CNN通过在image-caption数据集上的预训练,学习到了丰富的文本词汇和图像区域表征,这样泛化的表征空间覆盖的物体类别,是远超过现阶段的带标注的目标检测数据集中物体的类别数。

整个模型框架跟Faster RCNN几乎完全一样,只是将最后的cls head换成了V2L,也就是换成了一个将visual feature投影到text embedding space的投影矩阵。

六、模型结果对比

【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解
可以发现,相较于原有的zero-shot的detection,模型的泛化性能显然是更强的。

根据上表,其实我们可以发现:

  • ZSD的检测效果差(map不高)

主要原因,我认为就是对于没有任何未知类的例子经过训练,OVD 应该是会有部分未知类通过image-caption dataset 训练可得知,因此从现有基类的特征其实很难推出新类。

  • WSD 定位效果不好

个人分析认为,他从没有注释的图片很难学习到特征,就很难像OVD那样通过image-caption那样,至少有图像和文本方向的特征,再通过基类的相关有注释框的图片学习,就能很好的定位。

  • mixed supervision

其实同样存在上面的缺陷,在基类上进行训练,然后使用弱监督学习转移到目标类,这些方法通常会在基类上降低性能相反,Visual grounding和Vision-language transformers 就是来帮助解决作者的设想,通过 Vision-language transformers 可以提取文本和图像的特征,Visual grounding 则就是根据这些特征进行定位。

同时我们也发现,利用这种用image-captioning pair模式训练出来的特征,其中每个类别的特征更加显著,如下图和zero-shot obejct detection的baseline的对比:

【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解文章来源地址https://www.toymoban.com/news/detail-501149.html

到了这里,关于【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    论文连接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 论文代码: Code 摘要 Text-to-image diffusion 以文本嵌入作为输入能生成高质量的图像,这表明 diffusion model 的表征与高级语义概念高度关联。此外, CLIP 能够赋予图像准确地开集预测(即zero-shot 分类能力),因此

    2024年02月15日
    浏览(29)
  • 目标检测(Object Detection)

    计算机视觉的五大应用 物体识别是要分辨出图片中有什么物体,输入是图片,输出是类别标签和概率。物体检测算法不仅要检测图片中有什么物体,还要输出物体的外框(x, y, width, height)来定位物体的位置。 object detection,就是在给定的图片中精确找到物体所在位置,并标注

    2024年02月12日
    浏览(27)
  • 目标检测【Object Detection】

    目标检测是计算机视觉中的一个重要问题,它的目的是从图像或视频序列中识别出特定的目标,并将其从背景中分离出来。目标检测的任务包括: 检测出图像或视频序列中的目标,例如人、车辆、动物等。 对目标进行分类,例如将人分为人类、车辆、动物等。 确定目标的位

    2023年04月14日
    浏览(28)
  • 什么是目标检测--Object Detection

    目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力。目标检测不仅要用算法判断图片中物品的分类, 还要在图片中标记出它的位置, 用边框或红色方框把物品圈起来, 这就

    2024年02月07日
    浏览(35)
  • VOC数据集介绍以及读取(目标检测object detection)

    VOC(Visual Object Classes)数据集是一个广泛使用的计算机视觉数据集,主要用于目标检测、图像分割和图像分类等任务。VOC数据集最初由英国牛津大学的计算机视觉小组创建,并在PASCAL VOC挑战赛中使用。 VOC数据集包含各种不同类别的标记图像,每个图像都有与之相关联的边界

    2024年02月12日
    浏览(30)
  • 目标检测(Object Detection)学习笔记(概述与传统算法与基于深度学习算法)

    本文为课程研讨需要,对目标检测算法进行理论学习,无实战内容,欢迎交流探讨 目标检测(Object Detection) 的任务是找出图像中所有感兴趣的目标(物体),不同于分类和回归问题,目标检测还需要确定目标在图像中的位置 (定位) ,而确定识别目标的类别和位置 (分类

    2024年02月02日
    浏览(28)
  • 遥感目标检测(3)-DAL(Dynamic Anchor Learning for Object Detection)

    目录 一、概述 二、背景 三、建议 1、旋转RetinaNet 2、动态锚框分布 3、匹配敏感损失  四、实验         由于选择正样本锚框进行回归,不一定能够定位真实的GT,而部分负样本回归甚至可以回归到真实的GT,说明相当多的负样本锚框有着准确定位的能力,这说明IoU进行回归

    2024年02月16日
    浏览(34)
  • opencv dnn模块 示例(19) 目标检测 object_detection 之 yolox

    YOLOX是旷视科技在2021年发表,对标YOLO v5。YOLOX中引入了当年的黑科技主要有三点,decoupled head、anchor-free以及advanced label assigning strategy(SimOTA)。YOLOX的性能如何呢,可以参考原论文图一如下图所示。YOLOX比当年的YOLO v5略好一点,并且利用YOLOX获得当年的Streaming Perception Challenge第一

    2024年02月06日
    浏览(35)
  • 目标检测(Object Detection):Fast R-CNN,YOLO v3

    目录 目标检测(Object Detection) R-CNN SPPNet Fast R-CNN YOLO v1 YOLO v2 YOLO v3 任务是计算机视觉中非常重要的基础问题,也是解决图像分割、目标跟踪、图像描述等问题的基础。目标检测是检测输入图像是否存在给定类别的物体,如果存在,输出物体在图像中的位置信息(矩形框的坐标

    2024年02月11日
    浏览(26)
  • 【论文阅读】Untargeted Backdoor Attack Against Object Detection(针对目标检测的无目标后门攻击)

    论文题目: Untargeted Backdoor Attack Against Object Detection(针对目标检测的无目标后门攻击) 发表年份: 2023-ICASSP(CCF-B) 作者信息: Chengxiao Luo (清华大学深圳国际研究生院) Yiming Li(清华大学深圳国际研究生院) Yong Jiang(清华大学深圳国际研究生院,鹏程实验室人工智能研

    2024年02月09日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包