ML分类模型的评估量 —— 混淆矩阵、查准率、查全率、正确率、F1值-Toy模板网

这篇具有很好参考价值的文章主要介绍了ML分类模型的评估量 —— 混淆矩阵、查准率、查全率、正确率、F1值。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

ML分类模型的评估量 —— 混淆矩阵、查准率、查全率、正确率、F1值

Some Metrics suitable for machine learning classification model - Confusion Matrix, Precision Score, Recall Score and F1 Score.

概要

本文意在介绍，监督学习（Supervised Learning）中，几个常被用于评估分类模型的指标（model metric），并讨论它们在二分类模型和多分类模型中的具体计算方法。
ML分类模型的评估量 —— 混淆矩阵、查准率、查全率、正确率、F1值,分类,矩阵,机器学习

图 1

1. 混淆矩阵（Confusion Matrix）

混淆矩阵（Confusion Matrix）是一个 n*n 的方阵，n的值等于数据集类别的数量。

二分类模型的混淆矩阵

如图 2 所示，该 2*2 方阵是一个典型的二分类模型的混淆矩阵，该模型中只有 positive 和 negative 两个类别（标签）：

ML分类模型的评估量 —— 混淆矩阵、查准率、查全率、正确率、F1值,分类,矩阵,机器学习

图 2 - 二分类模型的混淆矩阵

TP （True Positive）表示真实值为Positive，模型的预测值为Positive的数据样本数量；

FP （False Positive）表示真实值为Negative，模型的预测值为Positive的数据样本数量；

FN （False Negative）表示真实值为Positive，模型的预测值为Negative的数据样本数量；

TN （True Negative）表示真实值为Negative，模型的预测值为Negative的数据样本数量；

此处的 [True/False Positive/Negative]可以这样理解：“主语” Positive/Negative 描述了模型的预测值，而“形容词” True/False 描述的是预测值与真实值是否一致，一致为True，否则为False。

此外，从【图2】中我们不能发现，混淆矩阵的列（column）表示数据被模型预测的类别（prediction label）；混淆矩阵的行（row）表示数据的真实类别（true label）。以及，混淆矩阵每一列的总和表示数据中被模型预测为该类的样本数量；混淆矩阵每一行的总和表示数据中真实标签为该类的样本数量。

多分类模型的混淆矩阵

上方【图2】是二分类模型的混淆矩阵，下方【图3】将混淆矩阵推广到多分类模型：

ML分类模型的评估量 —— 混淆矩阵、查准率、查全率、正确率、F1值,分类,矩阵,机器学习

图 3 - 多分类模型的混淆矩阵

【图3】为一个n*n的混淆矩阵，该混淆矩阵包含了n个类别（标签），label_1、label_2、… 、label_n ，其中标黄的位置表示被正确分类的样本数量，相当于【图2】中的TP和TN。

2. 查准率（Precision Score）又称 “准确率”

查准率（Precision）描述的模型预测的结果中有多少比例的样本是被正确预测的。

对于二分类模型，一般采用Positive（+）的查准率作为整个模型的评估量：

$P_{+} = \frac{TP}{TP + FP}$

宏查准率 & 微查准率

类似的，将查准率推广到多分类模型。

首先，每个label都有对应的查准率：

$P_{label\_k} = \frac{C_{kk}}{\sum_{1 \leq i \leq n; \;j = k} C_{ij}}, \quad(1 \leq k \leq n)$
其次，存在两种适用于整个模型的查准率评估量，它们分别是下方【式3】描述的宏查准率（macro precision）和下方【式4】描述的微查准率（micro precision）。

宏查准率，先计算出混淆矩阵中个类别的查准率，然后计算均值。

$P_{macro} = \frac{1}{n} \sum_{1 \leq k \leq n} P_{label\_k}$

微查准率，先对混淆矩阵的“对角线元素”和“列元素的和”计算均值，然后在计算查准率。

$P_{micro} = \frac{\frac{1}{n} \sum_{1 \leq k \leq n} C_{kk}}{\frac{1}{n} \sum_{1 \leq k \leq n} (\sum_{1 \leq i \leq n; \;j = k} C_{ij}) }$

相比之下，当不同类别间的样本数量不平衡时，微查准率可以涵盖样本数量不均的信息；对于宏查准率而言，每个类别的查准率对整个模型的查准率的贡献量是相同的，所以它无法体现不同类别间样本数量不均的信息。

3. 查全率（Recall Score）又称 “召回率”

查全率（Recall）描述的是数据集中有多少比例的样本被模型正确预测。

对于二分类模型，一般采用Positive（+）的查全率作为整个模型的评估量：

$R_{+} = \frac{TP}{TP + FN}$

宏查全率 & 微查全率

类似的，将查全率推广到多分类模型。

首先，每个label都有对应的查准率：

$R_{label\_k} = \frac{C_{kk}}{\sum_{i = k; \;1 \leq j \leq n} C_{ij}}, \quad(1 \leq k \leq n)$
其次，同样存在两种适用于整个模型的查全率评估量，它们分别是下方【式7】描述的宏查全率（macro recall）和下方【式8】描述的微查全率（micro recall）。