目标检测（1）—— 基础知识和常用数据集

9月前作者：莫听穿林打叶声@ 分类：Toy博客阅读(39) 违法举报

这篇具有很好参考价值的文章主要介绍了目标检测（1）—— 基础知识和常用数据集。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、什么是目标检测

一张图片，经过网络后得到输出，检测出感兴趣目标的一个位置，比如下图的车在什么地方，狗在什么地方；还要输出相应位置的目标是什么类别的。
目标检测：位置＋类别

矩形框：位置
矩形框：类别

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

eg：人脸检测
把人脸作为目标，就把人脸框起来。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
eg：文字检测
把文字当作目标，就把文字框起来。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

重点在于：要学会判断你要做的东西的目标是什么？

主流的目标检测，都是以矩形框的形式进行输出的。一般精度不高。
更高精度的：叫做语义分割。

语义分割：用不同的颜色区分开。矩形框会包含背景，所以精度没有那么高。语义分割的训练要求更高。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

总结：目标检测能满足大多数场景，如果需要更高的精度，选择语义分割。

二、目标检测数据集

1、常见的数据集

VOC数据集

VOC2007、VOC2012
训练集-图片：人工对训练集进行标注，需要标注想要的目标在那个位置，对应的是哪个目标。
测试集-图片：测试集也有一些标注。
具体如下：（这里省略验证集）
共四种类型的图片，竞赛给参赛者前三种图片，参赛者用自己的网络模型对训练集的图片和标注进行训练，然后用训练好的模型，在测试集的图片上跑一遍，得到测试集的标注。参赛者把测试集的标注提交给比赛方，比赛方把自己的标注和参赛者的标注进行比较后排名。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

为什么用VOC2007、VOC2012？
05-07一个阶段，08-12一个阶段。选择数据集比较大的。

数据集的下载

第一种下载方式：在VOC官网下载。
http://host.robots.ox.ac.uk/pascal/VOC/
第二种下载方式：PyTorch自带。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

数据集的标注

VOC2007：

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

Annotations：包含了xml文件，描述了图片的各种信息，特别是目标的位置坐标。
ImageSets：主要关注Main文件夹，里面的文件包含了不同类别目标的训练/验证数据集图片名称
JPEGImages：原图片。
SegmentationClass/Object：用于语义分割，不关注。

Annotations：标注
xml是一种规定的格式。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
打开000032.xml，xml里面包括了图片的信息。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

bndbox是核心，打开网站：图片在线查看工具

https://www.gifgit.com/image/rectangle-tool

验证xml中矩形框：

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

ImageSets：重点关注Main

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

aeroplane_train：aeroplane代表是飞机这一类，train代表是训练集，剩下的同。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

000032.jpg是飞机，打开aeroplane_train.txt

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

该图片在飞机这一类。只要图片中有飞机（不是有一个飞机），就是1，为正样本；-1代表图片中没有飞机。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

JPEGImages：原图。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
例如：000031.jpg

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

针对目标检测，2012没有包含2007，从2008开头的；针对图像分割，就包含了2007。

COCO数据集

官网：https://cocodataset.org/#home

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
常用COCO2017，下载2017的val和它的标注，看一下是怎么标注的。（所以就下个小的，和18G的目录一样）

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
val2017：里面是图片。

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

打开任意的一个instance的json文件，发现很大，这里用一小部分举例子（只有两张图片）。

图片中没有群体的情况：

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

图片中有群体的情况：

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉

segmentation中的counts表述方式为：

目标检测数据集,目标检测,目标检测,深度学习,计算机视觉
文章来源地址https://www.toymoban.com/news/detail-717493.html

到了这里，关于目标检测（1）—— 基础知识和常用数据集的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

深度学习基础知识笔记

怎么样提特征（1）无人驾驶，计算机视觉（2）人脸识别移动端-计算量太大，速度慢，卡。参数：成千上百万的。（3）医学（4）变脸（5）图像自动上色有监督的问题， 1 分类：挑战：照射角度，形状改变，部分遮挡，背景混入套路：收集数据给定标签，训练分类器

2024年02月13日
浏览(62)
深度学习基础知识整理

Auto-encoders是一种人工神经网络，用于学习未标记数据的有效编码。它由两个部分组成：编码器和解码器。编码器将输入数据转换为一种更紧凑的表示形式，而解码器则将该表示形式转换回原始数据。这种方法可以用于降维，去噪，特征提取和生成模型。自编码器的训练过程

2024年01月17日
浏览(50)
深度学习torch基础知识

detach是截断反向传播的梯度流将某个node变成不需要梯度的Varibale。因此当反向传播经过这个node时，梯度就不会从这个node往前面传播。拼接：将多个维度参数相同的张量连接成一个张量 torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0) module即表示你定义的模型，devic

2024年02月13日
浏览(46)
OpenCV基础知识（8）— 图形检测

前言： Hello大家好，我是小哥谈。图形检测是计算机视觉的一项重要功能。通过图形检测可以分析图像中可能存在的形状，然后对这些形状进行描绘，例如搜索并绘制图像的边缘，定位图像的位置，判断图像中有没有直线、有没有圆形等。虽然图形检测涉及非常深奥的数学算

2024年02月11日
浏览(60)
Oracle常用基础知识

SQL语言是一种数据库语言 1、DDL：数据定义语言 create-创建 drop-删除 alter-修改 rename-重命名 truncate-截断 2、DML：数据操作语句 insert-插入 delete-删除 update-更新 select-查询 3、DCL：数据控制语句 grant-授权 revoke-回收权力 commit-提交事务 rollback-回滚事务注：Oracle命令不区分大小写

2024年02月12日
浏览(44)
Unity | Shader基础知识（第九集：shader常用单词基础知识速成）

目录一、顶点（Vertex）和法线(Normal) 二、UV信息三、基础数据种类 1 基础数据种类 2 基础数据数组 3 基础数据数组的赋值 4 对数据数组的调用四、基础矩阵 1 基础矩阵种类 2 对矩阵数组的调用 2.1对一个数据的调用 2.2对多个数据的调用 2.3对数据的赋值五、基础纹理种

2024年02月01日
浏览(69)
深度学习基础知识神经网络

1. 感知机感知机（Perceptron）是 Frank Rosenblatt 在1957年提出的概念，其结构与MP模型类似，一般被视为最简单的人工神经网络，也作为二元线性分类器被广泛使用。通常情况下指单层的人工神经网络，以区别于多层感知机（Multilayer Perceptron）。尽管感知机结构简单，但能够学习

2024年02月03日
浏览(51)
人脸检测和人脸识别的基础知识

1. 人脸识别和人脸检测概念人脸识别（Face Recognition）是基于人的脸部特征信息进行身份识别的一种生物识别技术。说简单点，人脸识别解决“这是谁的脸”问题。人脸检测（ Face Detection）是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人

2024年02月10日
浏览(30)
Elasticsearch的基础知识和架构设计，以及一些常用的功能——面向对象编程和数据结构的高级应用场景，以及相应的代码实现方法和工具

作者：禅与计算机程序设计艺术 2019年，Elasticsearch正式发布了7.0版本。在这个版本更新中，新增了许多新特性和功能，包括全文搜索、分类聚合、分析器、图形化数据可视化等。无论对于企业或个人来说，都意味着更好的应用场景。但是，掌握Elasticsearch并非易事，需要不断学

2024年02月07日
浏览(50)
Selenium 基础知识（二）：常用方法

1、send_keys()方法：模拟键盘输入 2、text方法：获取文本值 3、get_attribute()：获取属性值 4、maximize_window()：实现浏览器窗口最大化 5、current_window_handle：返回窗口句柄，即标识窗口字符串 6、current_url：获取当前窗口URL 7、is_selected()：判断元素是否被选中，多用于选择框 8、is_e

2024年02月16日
浏览(43)