目标检测的置信度和NMS

这篇具有很好参考价值的文章主要介绍了目标检测的置信度和NMS。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

置信度(confidence)

还存在一个很关键的问题：在训练中我们挑选哪个bounding box的准则是选择预测的box与ground truth box的IOU最大的bounding box做为最优的box，但是在预测中并没有ground truth box，怎么才能挑选最优的bounding box呢？这就需要另外的参数了，那就是下面要说到的置信度。

置信度是每个bounding box输出的其中一个重要参数，作者对他的作用定义有两重：
一重是：代表当前box是否有对象的概率 Pr(Object)，注意，是对象，不是某个类别的对象，也就是说它用来说明当前box内只是个背景（backgroud）还是有某个物体（对象）；
另一重：表示当前的box有对象时，它自己预测的box与物体真实的box可能的 $IOU_{pred}^{truth}$ 的值，注意，这里所说的物体真实的box实际是不存在的，这只是模型表达自己框出了物体的自信程度。
以上所述，也就不难理解作者为什么将其称之为置信度了，因为不管哪重含义，都表示一种自信程度：框出的box内确实有物体的自信程度和框出的box将整个物体的所有特征都包括进来的自信程度。经过以上的解释，其实我们也就可以用数学形式表示置信度的定义了：
$C_{i}^{j}=P_{r}(Object)*IOU^{_{pred}^{truth}}$
其中， $C_{i}^{j}$ 表示第i个grid cell的第j个bounding box的置信度。
那么如何训练 $C_{i}^{j}$ ？

训练中， $\hat{C^{_{i}^{j}}}$ 表示真实值， $\hat{C^{_{i}^{j}}}$ 的取值是由grid cell的bounding box有没有负责预测某个对象决定的。如果负责，那么 $\hat{C^{_{i}^{j}}}$ = 1 ，否则, $\hat{C^{_{i}^{j}}}$ =0。
下面我们来说明如何确定某个grid cell的bounding box是否负责预测该grid cell中的对象：前面在说明anchor box的时候提到每个bounding box负责预测的形状是依据与其对应的anchor box（bounding box prior）相关的，那这个anchor box与该对象的ground truth box的IOU在所有的anchor box（与一个grid cell中所有bounding box对应，COCO数据集中是9个）与ground truth box的IOU中最大，那它就负责预测这个对象，因为这个形状、尺寸最符合当前这个对象，这时 $\hat{C^{_{i}^{j}}}$ = 1 ，其他情况下 $\hat{C^{_{i}^{j}}}$ = 0 。注意，你没有看错，就是所有anchor box与某个ground truth box的IOU最大的那个anchor box对应的bounding box负责预测该对象，与该bounding box预测的box没有关系。
类别置信度：
分类器返回某个目标的类别置信度，即该目标属于A的概率，属于B的概率。即分类器最后softmax得到的结果。

具体地，描述为对象条件类别概率(conditional class probabilities)

对象条件类别概率是一组概率的数组，数组的长度为当前模型检测的类别种类数量，它的意义是当bounding box认为当前box中有对象时，要检测的所有类别中每种类别的概率.
其实这个和分类模型最后使用softmax函数输出的一组类别概率是类似的，只是二者存在两点不同：

YOLO的对象类别概率中没有background一项，也不需要，因为对background的预测已经交给置信度了，所以它的输出是有条件的，那就是在置信度表示当前box有对象的前提下，所以条件概率的数学形式为 $P_{r}(class_{i}|Object)$ ;

分类模型中最后输出之前使用softmax求出每个类别的概率，也就是说各个类别之间是互斥的，而YOLOv3算法的每个类别概率是单独用逻辑回归函数(sigmoid函数)计算得出了，所以每个类别不必是互斥的，也就是说一个对象可以被预测出多个类别。这个想法其实是有一些YOLO9000的意思的，因为YOLOv3已经有9000类似的功能，不同只是不能像9000一样，同时使用分类数据集和对象检测数据集，且类别之间的词性是有从属关系的。
NMS 非极大值抑制
非极大值抑制用在最后阶段，即所有边界框都已经回归调整过后，对图片每一类使用NMS防止一个目标出现多个边界框。
1、非极大值抑制需要设置一个阈值
2、使用时间是最后调整完预测框位置后
3、多少个类就使用多少次非极大值抑制
4、每一类使用非极大值抑制后找到所有这类的边界框

yolov3中NMS在训练过程中不执行。正是因为不需要训练，所以也就不需要保留梯度。所以可以在代码中看到tensor一会儿加载到cpu一会儿加载到GPU上的操作。这种操作在训练过程中是不允许出现的。

在目标检测网络中，会生成许多重复地目标框，使用NMS去除冗余的目标框，保留置信度高的目标框。

（1）在Bounding Box列表中，首先选择置信度最高的目标框A。
（2）将与A的IoU超过阈值的目标框从Bounding Box中去除，并将A标记并移入保留框列表中。
（3）重复（1）和（2），知道Bounding Box列表清空为止。
对每个分类，都需要使用一次上述流程，直到Bounding Box清空为止。

然而，单纯使用NMS去选取目标框，可能会导致两个相同类别的重合度高的物体，由于IoU较大，较小置信度的目标框被删除而导致漏检。

Soft-NMS就是针对这种情况出现的。

原NMS算法中，当IoU较大时，小置信度的框的置信度会直接置零：

Soft-NMS算法中，当IoU较大时，小置信度的目标框的得分，会被重置，重置方法有两种：

线性加权法：

高斯加权法：

当目标框与当前选定的最大置信度的目标框重合度越高，分数被扣除的越多。
这样，当选取的阈值合适时，就会降低同类目标由于IoU较大而被误删的概率。