目标检测(1)—— 基础知识和常用数据集

这篇具有很好参考价值的文章主要介绍了目标检测(1)—— 基础知识和常用数据集。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、什么是目标检测

一张图片,经过网络后得到输出,检测出感兴趣目标的一个位置,比如下图的车在什么地方,狗在什么地方;还要输出相应位置的目标是什么类别的。
目标检测:位置+类别

  • 矩形框:位置
  • 矩形框:类别

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

eg:人脸检测
把人脸作为目标,就把人脸框起来。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
eg:文字检测
把文字当作目标,就把文字框起来。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

重点在于:要学会判断你要做的东西的目标是什么?

主流的目标检测,都是以矩形框的形式进行输出的。一般精度不高。
更高精度的:叫做语义分割。

语义分割:用不同的颜色区分开。矩形框会包含背景,所以精度没有那么高。语义分割的训练要求更高。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

  • 总结:目标检测能满足大多数场景,如果需要更高的精度,选择语义分割。

二、目标检测数据集

1、常见的数据集

VOC数据集

VOC2007、VOC2012
训练集-图片:人工对训练集进行标注,需要标注想要的目标在那个位置,对应的是哪个目标
测试集-图片:测试集也有一些标注。
具体如下:(这里省略验证集)
共四种类型的图片,竞赛给参赛者前三种图片,参赛者用自己的网络模型对训练集的图片和标注进行训练,然后用训练好的模型,在测试集的图片上跑一遍,得到测试集的标注。参赛者把测试集的标注提交给比赛方,比赛方把自己的标注和参赛者的标注进行比较后排名。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

为什么用VOC2007、VOC2012?
05-07一个阶段,08-12一个阶段。选择数据集比较大的。

数据集的下载

第一种下载方式:在VOC官网下载。
http://host.robots.ox.ac.uk/pascal/VOC/
第二种下载方式:PyTorch自带。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

数据集的标注

VOC2007:

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

  • Annotations:包含了xml文件,描述了图片的各种信息,特别是目标的位置坐标。
  • ImageSets:主要关注Main文件夹,里面的文件包含了不同类别目标的训练/验证数据集图片名称
  • JPEGImages:原图片。
  • SegmentationClass/Object:用于语义分割,不关注。

Annotations:标注
xml是一种规定的格式。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
打开000032.xml,xml里面包括了图片的信息。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
bndbox是核心,打开网站:图片在线查看工具

https://www.gifgit.com/image/rectangle-tool

验证xml中矩形框:

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

ImageSets:重点关注Main

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

aeroplane_train:aeroplane代表是飞机这一类,train代表是训练集,剩下的同。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

000032.jpg是飞机,打开aeroplane_train.txt

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

该图片在飞机这一类。只要图片中有飞机(不是有一个飞机),就是1,为正样本;-1代表图片中没有飞机。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

JPEGImages:原图。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
例如:000031.jpg

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

针对目标检测,2012没有包含2007,从2008开头的;针对图像分割,就包含了2007。

COCO数据集

官网:https://cocodataset.org/#home

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
常用COCO2017,下载2017的val和它的标注,看一下是怎么标注的。(所以就下个小的,和18G的目录一样)

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
val2017:里面是图片。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
打开任意的一个instance的json文件,发现很大,这里用一小部分举例子(只有两张图片)。

图片中没有群体的情况:

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

图片中有群体的情况:

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
segmentation中的counts表述方式为:

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
目标检测数据集,目标检测,目标检测,深度学习,计算机视觉文章来源地址https://www.toymoban.com/news/detail-717493.html

到了这里,关于目标检测(1)—— 基础知识和常用数据集的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习基础知识笔记

    怎么样提特征 (1)无人驾驶, 计算机视觉 (2)人脸识别 移动端-计算量太大,速度慢,卡。 参数:成千上百万的。 (3)医学 (4)变脸 (5)图像自动上色 有监督的问题, 1 分类: 挑战:照射角度,形状改变,部分遮挡,背景混入 套路:收集数据给定标签,训练分类器

    2024年02月13日
    浏览(62)
  • 深度学习基础知识整理

    Auto-encoders是一种人工神经网络,用于学习未标记数据的有效编码。它由两个部分组成:编码器和解码器。编码器将输入数据转换为一种更紧凑的表示形式,而解码器则将该表示形式转换回原始数据。这种方法可以用于降维,去噪,特征提取和生成模型。 自编码器的训练过程

    2024年01月17日
    浏览(50)
  • 深度学习torch基础知识

    detach是截断反向传播的梯度流 将某个node变成不需要梯度的Varibale。因此当反向传播经过这个node时,梯度就不会从这个node往前面传播。 拼接:将多个维度参数相同的张量连接成一个张量 torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0) module即表示你定义的模型,devic

    2024年02月13日
    浏览(46)
  • OpenCV基础知识(8)— 图形检测

    前言: Hello大家好,我是小哥谈。 图形检测是计算机视觉的一项重要功能。通过图形检测可以分析图像中可能存在的形状,然后对这些形状进行描绘,例如搜索并绘制图像的边缘,定位图像的位置,判断图像中有没有直线、有没有圆形等。虽然图形检测涉及非常深奥的数学算

    2024年02月11日
    浏览(60)
  • Oracle常用基础知识

    SQL语言是一种数据库语言  1、DDL:数据定义语言 create-创建  drop-删除 alter-修改 rename-重命名 truncate-截断 2、DML:数据操作语句 insert-插入 delete-删除 update-更新 select-查询 3、DCL:数据控制语句 grant-授权 revoke-回收权力 commit-提交事务 rollback-回滚事务 注:Oracle命令不区分大小写

    2024年02月12日
    浏览(44)
  • Unity | Shader基础知识(第九集:shader常用单词基础知识速成)

    目录 一、顶点(Vertex)和法线(Normal) 二、UV信息 三、 基础数据种类 1 基础数据种类 2 基础数据数组 3 基础数据数组的赋值 4 对数据数组的调用 四、 基础矩阵 1 基础矩阵种类  2 对矩阵数组的调用 2.1对一个数据的调用  2.2对多个数据的调用  2.3对数据的赋值 五、基础纹理种

    2024年02月01日
    浏览(69)
  • 深度学习基础知识神经网络

    1. 感知机 感知机(Perceptron)是 Frank Rosenblatt 在1957年提出的概念,其结构与MP模型类似,一般被视为最简单的人工神经网络,也作为二元线性分类器被广泛使用。通常情况下指单层的人工神经网络,以区别于多层感知机(Multilayer Perceptron)。尽管感知机结构简单,但能够学习

    2024年02月03日
    浏览(51)
  • 人脸检测和人脸识别的基础知识

    1. 人脸识别和人脸检测概念 人脸识别 (Face Recognition)是基于人的脸部特征信息进行身份识别的一种生物识别技术。说简单点,人脸识别解决“这是谁的脸”问题。 人脸检测( Face Detection)是指对于任意一幅给定的图像, 采用一定的策略 对其进行搜索以确定其中是否含有人

    2024年02月10日
    浏览(30)
  • Elasticsearch的基础知识和架构设计,以及一些常用的功能——面向对象编程和数据结构的高级应用场景,以及相应的代码实现方法和工具

    作者:禅与计算机程序设计艺术 2019年,Elasticsearch正式发布了7.0版本。在这个版本更新中,新增了许多新特性和功能,包括全文搜索、分类聚合、分析器、图形化数据可视化等。无论对于企业或个人来说,都意味着更好的应用场景。但是,掌握Elasticsearch并非易事,需要不断学

    2024年02月07日
    浏览(50)
  • Selenium 基础知识(二):常用方法

    1、send_keys()方法:模拟键盘输入 2、text方法:获取文本值 3、get_attribute():获取属性值 4、maximize_window():实现浏览器窗口最大化 5、current_window_handle:返回窗口句柄,即标识窗口字符串 6、current_url:获取当前窗口URL 7、is_selected():判断元素是否被选中,多用于选择框 8、is_e

    2024年02月16日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包