缺陷异常检测及定位性能评价指标–AUROC,PRO(per-region-overlap)
异常检测/缺陷检测性能的评估
对于异常检测性能的评估,以接收者特性曲线下方的面积AUROC(area under the receiver operating characteristic)作为评估指标。
异常检测任务本质上是一项分类任务,而AUROC指标从原理上是根据混淆矩阵计算得出,如图为一个二分类混淆矩阵,其中1为异常,0为正常。
第一行的0和1分别对应实际值为正常和异常的情况,第一列的0和1分别对应预测值为正常和异常的情况。
将预测为异常且实际为异常的样本定义为真阳性样本TP(True Positive),而预测为异常但实际为正常的样本则定义为假阳性样本FP(False Positive),剩下两个以此类推。
对于分类的性能的评估通常使用的指标为:准确率(Accuracy)、召回率(Recall)和查准率(Precision)。
准确率(Accuracy)的计算方式是所有分类对的样本数除以总样本数:
召回率(recall)指实际为异常样本中有多少被预测为异常,也被称为查全率、真阳性率(TPR):
而查准率(Precision)表示预测为异常的样本中有多少是实际为异常样本,也被称为精确率:
由于单纯的查准率和召回率会受正负样本不平衡的影响,引入了查准率和召回率的调和平均数F1,综合评估分类性能:
此外,在实际应用中,为了衡量模型的不足,还引入了误检率(FPR)来衡量模型的不足,它表示有多少负样本被错误地预测为正样本:
使用上述公式需要规定阈值进行分类,若阈值设置不合理,则评估结果将很难反馈分类性能,故需要定义一个与阈值无关的指标,来避免这种情况,也可更全面地评价分类性能。
通过设置一系列阈值,评价两个指标在不同阈值下的变化曲线。在缺陷检测的分类任务中,常用的曲线有两种:
1、PR曲线(Precision-recall curve),在不同阈值下,以召回率(recall)作为横坐标轴,查准率(precision)作为纵坐标轴绘制的曲线;
2、ROC曲线(Receiver operator characteristic curve),在不同阈值下,以误检率(FPR)作为横坐标轴,召回率(TPR)作为纵坐标轴绘制的曲线。对于ROC曲线,虚报的越少越好,即TPR保持很高,ROC曲线下的面积越大越好。
总结一下就是TPR越高,同时FPR越低(即ROC曲线越陡),那么模型的性能就越好。通常采用曲线下面积(Area Under Curve,AUC)来度量相应曲线指标所描述的性能,即本文采用的指标AUROC。
异常定位性能的评估
对于异常定位性能的评估,使用了AUROC和per-region-overlap(PRO)两个指标。与用于逐像素测量的AUROC不同,PRO分数平等地对待任何大小的异常区域。
异常定位性能评估一般是将缺陷概率的热力图设定阈值二值化后的结果与像素级别标签图对比计算。而二值化后的结果评价即可转换为分类问题,前文混淆矩阵及相应的评价指标便可由此评价定位性能,即像素级AUROC指标。文章来源:https://www.toymoban.com/news/detail-480355.html
但ROC曲线中TPR值受缺陷面积影响,若正确定位面积大的异常区域(TP值会很大且TP/(TP+FN)会因为TP的比重大而变大)将会大幅提高TPR指标,但若错误定位小的缺陷区域(FP值会增大,但FP/(FP+))则不会有很大的影响,因此该指标在实际应用中存在局限。因此,Bergman等提出连通域级的指标PRO(Per-region-overlap)。如式,第一步将定位的缺陷结果和实际的真值按连通域划分为N个区域,接着求出每个区域中预测结果P和真值Gn的交集,将交集除以Gn后N个区域加权平均即可求得PRO值 。同时预测结果P和真值Gn的交集即真阳性样本TPn,故PRO也可根据混淆矩阵计算。
同样地,为了避免阈值对评估结果的影响,还可绘制PRO曲线来描述异常定位性能。对于PRO曲线,若FPR过高,则代表大面积的正常区域被定位为缺陷,此时由于大面积的区域被定位为缺陷,真正样本TPn的值也会很大,即PRO值很高,显然此时的高PRO不能很好地反应模型定位精度。因此,在用AUC评价PRO曲线时,只选用令FPR处于0-30%之间的阈值,并将AUC归一化作为PRO-Score,即本文使用的PRO分数。文章来源地址https://www.toymoban.com/news/detail-480355.html
到了这里,关于缺陷异常检测及定位性能评价指标–AUROC,PRO(per-region-overlap)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!