MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标)

这篇具有很好参考价值的文章主要介绍了MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目标检测模型性能衡量指标、MS COCO 数据集的评价标准以及不同指标的选择推荐

0. 引言

0.1 COCO 数据集评价指标

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

目标检测模型通过 pycocotools 在验证集上会得到 COCO 的评价列表,具体参数的含义是什么呢?

0.2 目标检测领域常用的公开数据集

  1. PASCAL VOC
  2. Microsoft COCO(MS COCO)

在 MS COCO 数据集出来之前,目标检测基本上用的是 PASCAL VOC 数据集,现在 MS COCO 非常流行。这两个数据集均有自己的评判标准。

0.3 COCO(Common Objects in Context,上下文中的常见对象)数据集简介

0.3.1 介绍

COCO 数据集是一个可用于图像检测(Image Detection),语义分割(Semantic Segmentation)和图像标题生成(Image Captioning)的大规模数据集。它有超过 330K 张图像(其中 220K 张是有标注的图像),包含

  • 150 万个目标
  • 80 个目标类别(object categories:行人、汽车、大象等)
  • 91 种材料类别(stuff categoris:草、墙、天空等)
  • 每张图像包含五句图像的语句描述
  • 且有 250, 000 个带关键点标注的行人

MS COCO官网:https://cocodataset.org/#home

0.3.2 MS COCO 可以应用的任务

  1. 目标检测(object detection):使用 bounding box 或者 object segmentation (也称为instance segmentation)将不同的目标进行标定。

  2. Densepose(密集姿势估计):DensePose 任务涉及同时检测人、分割他们的身体并将属于人体的所有图像像素映射到身体的3D表面。用于不可控条件下的密集人体姿态 估计。

    MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能
  3. Key-points detection(关键点检测):在任意姿态下对人物的关键点进行定位,该任务包含检测行人及定位到行人的关键点。

    MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能
  4. Stuff Segmentation(材料细分):语义分割中针对 stuff class 类的分割(草,墙壁,天空等)

    MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能
  5. Panoptic Segmentation(全景分割):其目的是生成丰富且完整的连贯场景分割,这是实现自主驾驶或增强现实等真实世界视觉系统的重要一步。

    MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能
  6. image captioning(图像标题生成):根据图像生成一段文字。

    MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

0.3.3 COCO 的 80 个类别

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能
编号 英文名称 中文名称 编号 英文名称 中文名称 编号 英文名称 中文名称
1 person 28 boat 55 cup 杯子
2 bicycle 自行车 29 traffic light 交通灯 56 fork 叉子
3 car 汽车 30 fire hydrant 消防栓 57 knife
4 motorcycle 摩托车 31 stop sign 停车标志 58 spoon 勺子
5 airplane 飞机 32 parking meter 停车计时器 59 bowl
6 bus 公共汽车 33 bench 长凳 60 banana 香蕉
7 train 火车 34 bird 61 apple 苹果
8 truck 卡车 35 cat 62 sandwich 三明治
9 boat 36 dog 63 orange 橙子
10 traffic light 交通灯 37 horse 64 broccoli 西兰花
11 fire hydrant 消防栓 38 sheep 65 carrot 胡萝卜
12 stop sign 停车标志 39 cow 66 hot dog 热狗
13 parking meter 停车计时器 40 elephant 大象 67 pizza 披萨
14 bench 长凳 41 bear 68 donut 甜甜圈
15 bird 42 zebra 斑马 69 cake 蛋糕
16 cat 43 giraffe 长颈鹿 70 chair 椅子
17 dog 44 backpack 背包 71 couch 沙发
18 horse 45 umbrella 雨伞 72 potted plant 盆栽
19 sheep 46 handbag 手提包 73 bed
20 cow 47 tie 领带 74 dining table 餐桌
21 elephant 大象 48 suitcase 行李箱 75 toilet 厕所
22 bear 49 frisbee 飞盘 76 tv monitor 电视监视器
23 zebra 斑马 50 skis 滑雪板 77 laptop 笔记本电脑
24 giraffe 长颈鹿 51 snowboard 单板滑雪 78 mouse 鼠标
25 backpack 背包 52 sports ball 运动球 79 remote 遥控器
26 umbrella 雨伞 53 kite 风筝 80 keyboard 键盘
27 tie 领带 54 baseball bat 棒球棍

1. 目标检测中常见的指标

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

对于这样一张图片,怎样才能算检测正确呢?其中,绿色为 GT,红色为预测框。

  • IoU 大于指定阈值?
  • 类别是否正确?
  • confidence 大于指定阈值?

以上三点都是我们需要考虑的。

1.1 TP、FP、FN

1.1.1 定义

  • TP(True Positive):预测正确的预测框数量 [IoU > 阈值](同一个 GT 只计算一次)
  • FP(False Positive):检测到是同一个 GT 的多余预测框的数量 [IoU < 阈值](或者是检测到同一个 GT 的多余预测框的数量)
  • FN(False Negative):没有检测到 GT 的预测框数量 [漏检的数量]
  • 阈值根据任务进行调整,一般选择 0.5
  • FP 就是“假阳性”,就是模型误认为是 TP

1.1.2 例子说明 TP、FP、FN

举个例子理解 TP、FP、FN:

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

对于张图片来说,绿色 为 GT,红色 为模型预测框,IoU 阈值设置为 0.5。

  • 对于中间这只猫来说,在 绿色框(GT) 中的 预测框(红色)绿色框 的 IoU 肯定是 >0.5 的,所以它应该是一个 TP(预测对了目标且 IoU > 阈值);而对于 偏左的预测框 来说,它和 GT 的 IoU 肯定是不足 0.5 的,加之因为有 TP 的存在,所以它是 FP。
  • 对于右下角的那只猫,GT 是有的,但模型并没有给出对应的预测框,因此模型对于这只猫来说,漏检了,故 FN 的数量为 1。

1.2 AP(Average Precision,平均精度)

1.2.1 Precision

P r e c i s i o n = T P T P + F P \mathrm{Precision = \frac{TP}{TP + FP}} Precision=TP+FPTP

解释:模型预测的所有目标(Object)中,预测正确的比例 -> 查准率

模型认为正确的目标 中 确实预测对了多少


那么仅仅通过 Precision 这个指标能不能全面衡量模型的检测能力呢?举个例子进行说明:

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

同样的,绿色的为 Ground Truth,红色的为 预测框。

上面这张图片有 5 个目标,但是网络只针对猫 ① 给出了预测框(红色的),剩下的猫都没有检测出来。这里的 TP=1,FP=0。所以此时的 Precision 为:

P r e c i s i o n = T P T P + F P = 1 1 + 0 = 1 = 100 % \begin{aligned} \mathrm{Precision} & = \mathrm{\frac{TP}{TP+FP}} \\ & = \frac{1}{1 + 0} \\ & = 1\\ & = 100\% \end{aligned} Precision=TP+FPTP=1+01=1=100%

很明显对于这张图片网络漏检了 4 个目标,但 Precision 又显示结果是非常好的。因此我们就可以知道了,仅仅通过 Precision 无法评判检测网络的性能。为了解决这个问题,我们引入了另外一个指标 —— Recall。

1.2.2 Recall

R e c a l l = T P T P + F N \mathrm{Recall = \frac{TP}{TP + FN}} Recall=TP+FNTP

解释:所有真实目标中,模型预测正确的比例 -> 查全率

本应该检测对的,模型检测对了多少

那么我们只使用 Recall 这个指标来判定模型的好坏吗?举个例子说明:

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

这张图片和上一张图片类似,网络总共预测出了 50 个预测框(即 50 个目标)。这 50 个预测框中包括了所有要检测的目标,那么该网络针对这张图片的 Recall 为:

R e c a l l = T P T P + F N = 1 1 + 0 = 1 = 100 % \begin{aligned} \mathrm{Recall} & = \mathrm{\frac{TP}{TP+FN}} \\ & = \frac{1}{1 + 0} \\ & = 1\\ & = 100\% \end{aligned} Recall=TP+FNTP=1+01=1=100%

很明显,单单使用 Recall 无法评判模型的好坏。所以我们需要同时使用 Precision 和 Recall 这两个指标来进行网络性能的评判,即引入 —— AP。

1.2.3 AP —— P-R 曲线下面积

AP 就是P-R曲线下方的面积,而 P-R 分别为 Precision 和 Recall。

假设模型已经训练完毕,验证集为下面 3 张图片:

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能
1.2.3.1 第一张图片
MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

首先判断该图片中有几个目标(GT)?很明显绿色的框有两个,所以有两个 GT,即

n u m o b j = 0 + 2 = 2 。 \mathrm{num_{obj}} = 0 + 2 = 2。 numobj=0+2=2

接下来同一个列表统计网络所检测到的目标信息:

GT id Confidence OB (IoU=0.5)
1 0.98 True
1 0.61 False

Note:

  • GT id 为 预测框匹配的 GT 的 id;Confidence 为预测框的置信度(是此类别的概率);OB 为判断该预测框是否是 TP。
  • 该表从上到下的顺序是根据 Confidence 降序排列的
  • 对于 GT id = 2,网络并没有给出预测框,所以表中没有相关信息
1.2.3.2 第二张图片
MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

这张图片中目标的个数(绿色的框)有 1 个,所以累积目标个数:

n u m o b j = 2 + 1 = 3 。 \mathrm{num_{obj}} = 2 + 1 = 3。 numobj=2+1=3

表也需更新:

GT id Confidence OB (IoU=0.5)
1 0.98 True
3 0.89 True
3 0.66 False
1 0.61 False
1.2.3.3 第三张图片
MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

累积目标个数:

n u m o b j = 3 + 4 = 7 。 \mathrm{num_{obj}} = 3 + 4 = 7。 numobj=3+4=7

更新表:

GT id Confidence OB(IoU=0.5)
1 0.98 True
3 0.89 True
6 0.88 True
7 0.78 True
3 0.66 False
1 0.61 False
4 0.52 True
1.2.3.4 计算 AP

得到表以后,我们计算针对不同 Confidence(即取不同 Confidence 阈值)得到的 Precision 和 Recall 的信息)。

GT id Confidence OB (IoU=0.5)
1 0.98 True
3 0.89 True
6 0.88 True
7 0.78 True
3 0.66 False
1 0.61 False
4 0.52 True
  1. 首先将 Confidence 的阈值设置为 0.98(Confidence ≥ 0.98 的目标才算匹配正确),只有一个预测框符合条件(表中的第一行)。

    • TP = 1; FP = 0; FN = 6

    在 Confidence≥0.98 的条件下,TP=1 没什么问题;FP=0 是因为阈值的存在;FN=6 是因为累积目标个数 num_ob=7,所以 F N = n u m _ o b − T P = 7 − 1 = 6 \mathrm{FN=num\_ob - TP} = 7 - 1 = 6 FN=num_obTP=71=6。因此我们可以得到 P r e c i s i o n = T P T P + F P = 1 1 + 0 = 1 \mathrm{Precision = \frac{TP}{TP + FP} = \frac{1}{1+0}=1} Precision=TP+FPTP=1+01=1 R e c a l l = T P T P + F N = 1 1 + 6 = 0.14 \mathrm{Recall = \frac{TP}{TP + FN} = \frac{1}{1+6}=0.14} Recall=TP+FNTP=1+61=0.14
    Note:这个TP; FP; FN是看那个表,就不区分什么第几张图片了,看表就可以。

  2. 将 Confidence 阈值设置为 0.89

    • 此条件下,TP = 2; FP = 0; FN = num_ob - TP = 7 - 2 = 5,我们可以得到 Precision 和 Recall
  3. 将 Confidence 阈值设置为 0.66

    • 此条件下,TP=4; FP=1; FN=num_ob-TP=7-4=3,我们可以得到 P r e c i s i o n = T P T P + F P = 4 4 + 1 = 0.80 \mathrm{Precision = \frac{TP}{TP + FP} = \frac{4}{4+1}=0.80} Precision=TP+FPTP=4+14=0.80 R e c a l l = T P T P + F N = 4 4 + 3 = 0.57 \mathrm{Recall = \frac{TP}{TP + FN} = \frac{4}{4+3}=0.57} Recall=TP+FNTP=4+34=0.57

全部计算完毕后,结果如下表所示。

Rank Precision Recall
1 1.0 0.14
2 1.0 0.28
3 1.0 0.42
4 1.0 0.57
5 0.80 0.57
6 0.66 0.57
7 0.71 0.71

我们可以根据求得的一系列的 Precision 和 Recall 绘制 P-R 曲线。以 Recall 为横坐标,Precision 为纵坐标得到 P-R 曲线,如下图所示。

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

在绘制 P-R 曲线时需注意:对于 Recall(横坐标)需要滤除一些重复数据(图中用框框住的即为参与计算的点,有两个点没有被框,它俩不参与 AP 的计算)。根据表中的数据可知,Recall=0.57 有 3 个值,此时需保留 Precision 最大的值,即:

Rank Precision Recall
1 1.0 0.14
2 1.0 0.28
3 1.0 0.42
4 1.0 0.57
5 0.80 0.57
6 0.66 0.57
7 0.71 0.71

图中阴影部分的面积就是 AP,计算如下(重复的 Recall 已经滤除):

Rank Precision Recall
1 1.0 0.14
2 1.0 0.28
3 1.0 0.42
4 1.0 0.57
6 0.71 0.71

R e c a l l = ∑ i = 1 R a n k ( R e c a l l i − R e c a l l i − 1 ) × max ⁡ ( P r e c i s i o n i , . . . , R a n k ) R e c a l l = ∑ i = 本行 R a n k ( R e c a l l 本行 − R e c a l l 上一行 ) × 本行及以下最大的 P r e c i s i o n \begin{aligned} \mathrm{Recall} & = \sum_{i=1}^{\mathrm{Rank}} (\mathrm{Recall}_i -\mathrm{Recall}_{i-1}) \times \max(\mathrm{Precision}_{ i, ..., \mathrm{Rank}}) \\ \mathrm{Recall} & = \sum_{i=本行}^{\mathrm{Rank}} (\mathrm{Recall}_{本行} -\mathrm{Recall}_{上一行}) \times 本行及以下最大的\mathrm{Precision} \end{aligned} RecallRecall=i=1Rank(RecalliRecalli1)×max(Precisioni,...,Rank)=i=本行Rank(Recall本行Recall上一行)×本行及以下最大的Precision

根据公式可以求得阴影的面积,即 AP 为:

R e c a l l = ( 0.14 − 0 ) × 1.0 + ( 0.28 − 0.14 ) × 1.0 + ( 0.42 − 0.28 ) × 1.0 + ( 0.57 − 0.42 ) × 1.0 + ( 0.71 − 0.57 ) × 0.71 = 0.6694 \begin{aligned} \mathrm{Recall} & = (0.14 - 0) \times 1.0 + (0.28 - 0.14) \times 1.0 + (0.42 - 0.28) \times 1.0 + (0.57 - 0.42) \times 1.0 + (0.71 - 0.57) \times 0.71 \\ & = 0.6694 \end{aligned} Recall=(0.140)×1.0+(0.280.14)×1.0+(0.420.28)×1.0+(0.570.42)×1.0+(0.710.57)×0.71=0.6694

了解完 AP 后我们就可以进一步得到一个新的指标 —— mAP。

1.3 mAP(mean Average Precision,即各类别 AP 的平均值)

mAP 就是各类别 AP 的平均值,计算公式如下:

m A P = 1 n c ∑ i = 1 n c A P i \mathrm{mAP = \frac{1}{nc}\sum^{nc}_{i=1}AP_i} mAP=nc1i=1ncAPi

其中 nc 为类别数。

1.4 注意事项

以上的 TP、FP、FN 都是经过 NMS 处理后得到的预测框。

2. MS COCO 评价指标中每条数据的含义

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

MS COCO 官网说明:https://cocodataset.org/#detection-eval

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

Note:图片中虽然写的是 AP,但实际上表示的是 mAP。

2.1 Average Precision (AP)

  1. A P \mathrm{AP} AP:MS COCO 的主要评价指标,设置的 IoU 阈值为 IoU = range(0.5, 1.00, 0.05) 共 10 个 IoU 的 mAP 的均值,计算公式如下:
    A P = 1 10 ( m A P I o U = 0.5 + m A P I o U = 0.55 + m A P I o U = 0.60 + m A P I o U = 0.65 + m A P I o U = 0.70 + m A P I o U = 0.75 + m A P I o U = 0.80 + m A P I o U = 0.85 + m A P I o U = 0.9 + m A P I o U = 0.95 ) \mathrm{AP = \frac{1}{10}(mAP^{IoU=0.5} + mAP^{IoU=0.55} + mAP^{IoU=0.60} + mAP^{IoU=0.65} + mAP^{IoU=0.70} + mAP^{IoU=0.75} + mAP^{IoU=0.80} + mAP^{IoU=0.85} + mAP^{IoU=0.9} + mAP^{IoU=0.95})} AP=101(mAPIoU=0.5+mAPIoU=0.55+mAPIoU=0.60+mAPIoU=0.65+mAPIoU=0.70+mAPIoU=0.75+mAPIoU=0.80+mAPIoU=0.85+mAPIoU=0.9+mAPIoU=0.95)
  2. A P I o U = 0.50 \mathrm{AP^{IoU}=0.50} APIoU=0.50:将 IoU 阈值设置为 0.5 得到的 mAP 值(就是上面我们举的例子),这个取值也是 PASCAL VOC 的评价指标。
  3. A P I o U = 0.75 \mathrm{AP^{IoU}=0.75} APIoU=0.75:是更加严格的标准(因为 IoU 的阈值越大,说明网络预测框与 GT 重合度越来越高 -> 目标的定位越来越准,这对网络来说是很难的)。

2.2 Across Scales

  1. APsmallmAP 针对小目标 若检测目标(GT)的像素面积小于 3 2 2 32^2 322,则将其归为小目标 ——衡量网络对于小目标的平均查准率
  2. APmediummAP 针对中目标 若检测目标(GT)的像素面积在 [ 3 2 2 , 9 6 2 ] [32^2, 96^2] [322,962] 之间,则将其归为中目标 ——衡量网络对于中等目标的平均查准率
  3. APlargemAP 针对大目标 若检测目标(GT)的像素面积大于 9 6 2 96^2 962,则将其归为大目标 ——衡量网络对于大目标的平均查准率

通过这三个指标可以看出该目标检测网络对于不同尺度目标的检测效果。如果我们的任务需要检测的目标都是较小的,我们应该更加关注与 A P s m a l l \mathrm{AP^{small}} APsmall 参数而不是 A P l a r g e \mathrm{AP^{large}} APlarge

2.3 Average Recall (AR)

对于目标检测网络,在代码部分会限制每张图片最终预测框的数量,这里的 max 就是这个数量。如 max=100,即每张图片最终预测 100 个预测框。而这里的 A R m a x = 100 \mathrm{AR^{max}=100} ARmax=100 就表示在每张图片预测框阈值为 100 的情况下,平均的查全率(Recall)是多少。

  1. A R m a x = 1 \mathrm{AR^{max}=1} ARmax=1:在每张图片预测框数量阈值为 1 的情况下,平均的查全率(Recall)是多少
  2. A R m a x = 10 \mathrm{AR^{max}=10} ARmax=10:在每张图片预测框数量阈值为 10 的情况下,平均的查全率(Recall)是多少
  3. A R m a x = 100 \mathrm{AR^{max}=100} ARmax=100:在每张图片预测框数量阈值为 100 的情况下,平均的查全率(Recall)是多少
MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

从上图可以看到, A R m a x = 100 = 64 % \mathrm{AR^{max}=100}=64\% ARmax=100=64% A R m a x = 10 = 63.3 % \mathrm{AR^{max}=10}=63.3\% ARmax=10=63.3% A R m a x = 1 = 45.2 % \mathrm{AR^{max}=1}=45.2\% ARmax=1=45.2%。这说明 max 取 100 和取 10 相差不大,进一步说明了,模型训练时使用的数据集每张图片中目标(GT)的数目并不是很多,基本上在 10 左右;而当预测框数量限制在 1 时,它的 AR 仅为 45.2%,说明每张图片的目标个数一般是 >1 的。

2.4 AR Across Scales

与 AP、AP across scales 类似,AR across scales 表示对应不同目标尺度的 AR

  1. A R s m a l l \mathrm{AR^{small}} ARsmallAR 针对小目标 若检测目标(GT)的像素面积小于 3 2 2 32^2 322,则将其归为小目标 ——衡量网络对于小目标的平均查全率(Recall)
  2. A R m e d i u m \mathrm{AR^{medium}} ARmediumAR 针对中目标 若检测目标(GT)的像素面积在 [ 3 2 2 , 9 6 2 ] [32^2, 96^2] [322,962] 之间,则将其归为中目标 ——衡量网络对于中等目标的平均查全率(Recall)
  3. A R l a r g e \mathrm{AR^{large}} ARlargeAR 针对大目标 若检测目标(GT)的像素面积大于 9 6 2 96^2 962,则将其归为大目标 ——衡量网络对于大目标的平均查全率(Recall)

3. 各种指标的选择 —— 基于不同的任务

不同的任务需要使用不同的指标。

MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标),目标检测(Object Detection),面试题(Interview Questions),深度学习(Deep Learning),目标检测,目标跟踪,人工智能

3.1 mAP

  • 于 PASCAL VOC 的 mAP 来说, A P I o U = 0.50 \mathrm{AP^{IoU}=0.50} APIoU=0.50 是要看的,因为它是 PASCAL VOC 的主要评价指标。
  • 对于 MS COCO 数据集来说, A P \mathrm{AP} AP(第一行,10 个 mAP 的平均)是要看的,因为它是 MS COCO 的主要评价指标。
  • 如果我们对 目标框定位精度要求较高 的话,我们可以关注 A P I o U = 0.75 \mathrm{AP^{IoU}=0.75} APIoU=0.75
  • 如果我们对 小目标检测要求比较高 的话,我们可以关注 A P s m a l l \mathrm{AP^{small}} APsmall,通过这个值可以了解网络对于小目标检测的平均查准率(整体情况)
  • 如果我们对 中目标检测要求比较高 的话,我们可以关注 A P m e d i u m \mathrm{AP^{medium}} APmedium
  • 如果我们对 大目标检测要求比较高 的话,我们可以关注 A P l a r g e \mathrm{AP^{large}} APlarge

3.2 AR

主要关注下面两个指标:

  1. A R m a x = 10 \mathrm{AR^{max}=10} ARmax=10
  2. A R m a x = 100 \mathrm{AR^{max}=100} ARmax=100

如果它俩 AR(平均查全率)相差很小的话, 可以减少网络预测框的个数,从而提高目标检测的效率。文章来源地址https://www.toymoban.com/news/detail-716982.html

参考

  1. 目标检测mAP计算以及coco评价标准
  2. COCO数据集介绍

到了这里,关于MS COCO数据集的评价标准以及不同指标的选择推荐(AP、mAP、MS COCO、AR、@、0.5、0.75、1、目标检测、评价指标)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 图像复原(去模糊)基本内容以及评价标准

    ​ 原图像为f(x, y),经过退化函数h(x, y)在加上噪声n(x. y)得到退化图像g(x, y)。 ​ 整个过程可以描述为: g ( x , y ) = h ( x , y ) ∗ f ( x , y ) + n ( x , y ) mathrm{g}(mathrm{x}, mathrm{y})=mathrm{h}(mathrm{x}, mathrm{y}) * mathrm{f}(mathrm{x}, mathrm{y})+mathrm{n}(mathrm{x}, mathrm{y}) g ( x , y ) = h ( x , y )

    2024年02月05日
    浏览(54)
  • 【C语言】数据结构的基本概念与评价算法的指标

    1.1 基本概念和术语 1.1.1 数据 数据是信息的载体,是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料 1.1.2 数据元素 数据元素是数据的基本单位,通常作为一个整体进行考虑和处理,一个数据元素

    2024年02月09日
    浏览(36)
  • 【Argoverse 1 Motion Forecasting Dataset】轨迹预测数据集使用与评价指标

    Argoverse 1 https://www.argoverse.org/av1.html#forecasting-link 下载对应的“Argoverse HD Maps”以及“Argoverse Motion Forecasting v1.1”         通过下载Sample Datasets v1.1Motion Forecasting文件包对数据集进行分析。这里给出了5个场景的数据csv文件,每个csv文件代表一个场景,读取任一文件,主要包

    2024年01月20日
    浏览(45)
  • 绿色数据中心性能评价指标:PUE、DCIE、WUE、CUE、IUE

    2015年,绿色网格组织TGG在全球范围内首次推出“PUE评测”和“数据中心绿色等级评估”,“数据中心绿色等级”从能源效率、节能技术、绿色管理三个维度对数据中心进行评估和综合评分,并设置了创新性探索、绿色建筑等加分项目,由总分得到该数据中心对应的等级(1A

    2024年02月10日
    浏览(57)
  • 分类问题的评价指标(Precision、Recall、Accuracy、F1-Score、Micro-F1、Macro-F1)以及混淆矩阵、ROC曲线

    真阳性:预测为正,实际为正。把正样本 成功 预测为正。  TP ——True Positive 假阳性:预测为正,实际为负。把负样本 错误 预测为正。  FP ——False Positive  ——误报 真阴性:预测为负、实际为负。把负样本 成功 预测为负。  TN ——True Negative 假阴性:预测与负、实际

    2024年01月19日
    浏览(47)
  • ubuntu深度学习使用TensorFlow卷积神经网络——图片数据集的制作以及制作好的数据集的使用

    首先我事先准备好五分类的图片放在对应的文件夹,图片资源在我的gitee文件夹中链接如下: 文件管理: 用于存各种数据 https://gitee.com/xiaoxiaotai/file-management.git  里面有imgs目录和npy目录,imgs就是存放5分类的图片的目录,里面有桂花、枫叶、五味子、银杏、竹叶5种植物,npy目

    2024年02月05日
    浏览(70)
  • [MOT Challenge]官方生成多目标跟踪算法性能评价指标结果,解决test数据集没有gt文件和官网注册问题

    最近在做一个多目标跟踪相关项目,搞过多目标跟踪的都知道 MOT Challenge 这个benchmark数据集,其包含MOT15,MOT16等多个数据集,每个数据集又可以划分为test和train两类。 但是,官方提供的test数据集是不包含gt.txt的(即真实跟踪框的标注信息),所以我们无法用motmetrics得到MOTA,IDF

    2024年02月03日
    浏览(63)
  • 评价指标BLUE了解

    BLEU (Bilingual Evaluation Understudy,双语评估基准)是一组度量机器翻译和自然语言生成模型性能的评估指标。BLEU指标是由IBM公司提出的一种模型评估方法,以便在机器翻译领域中开发更好的翻译模型。BLEU指标根据生成的句子与人工参考句子之间的词、短语和n-gram匹配来计算模型的

    2024年02月11日
    浏览(37)
  • 分类任务评价指标

    分类任务中,有以下几个常用指标: 混淆矩阵 准确率(Accuracy) 精确率(查准率,Precision) 召回率(查全率,Recall) F-score PR曲线 ROC曲线 真实1 真实0 预测1 TP FP 预测0 FN TN 从 预测 的角度看: TP: True Positive。预测为1,实际为1,预测正确。 FP: False Positive。预测为1,实际为

    2024年02月09日
    浏览(47)
  • 模型评价指标—F1值

    最近空余时间在参加数字中国创新大赛,比赛规则是根据模型的F1值对参赛者进行排名。为了更深刻地理解这个指标,我最近对它做了一些梳理,现在把它分享给更多有需要的人图片。最近在参赛时也发现了一个问题,就是算法在训练集上完全拟合(KS=1),但是到测试集上衰退

    2024年02月08日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包