详解分类指标Precision,Recall,F1-Score

这篇具有很好参考价值的文章主要介绍了详解分类指标Precision,Recall,F1-Score。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在使用机器学习算法的过程中,我们需要对建立的模型进行评估来辨别模型的优劣,下文中主要介绍常见的几种评估指标。以下指标都是对分类问题的评估指标。

在二分类任务中,假设只有正类(1)和负类(0)两个类别,True(1)和False(0)分别表示预测结果对或错;Positive(1)和Negative(0)表示预测为正类或负类。

将标有正负例的数据集喂给模型后,一般能够得到下面四种情况,可以用混淆矩阵来表示:

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能
  • True Positive (TP):模型将正实例判定为正类。(预测正确,预测类别为正类)
  • True Negative (TN):模型将负实例判定位负类。(预测正确,预测类别为负类)
  • False Negative (FN):模型将正实例判定为负类。(预测错误,预测类别为负类)
  • False Positive (FP) :模型将负实例判定位正类。(预测错误,预测类别为正类)

这里:True/False代表判断结果是否正确,Positive/Negative代表预测类别结果。

1. Precision(精度)

Precision(精度):针对判定结果而言,预测为正类的样本(TP+FP)中真正是正实例(TP)所占的比率。

Precision = 被正确预测的Positive样本 / 被预测为Positive的样本总数

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能

Precision(精度)又称为查准率。Precision越高越好,越高意味着模型对“预测为正”的判断越可信。

2. Recall(召回率)

Recall(召回率):针对样本而言,被正确判定的正实例(TP)在总的正实例中(TP+FN)所占的比率。

Recall = 被正确预测的Positive样本 / 实际为Positive的样本总数

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能

Recall(召回率)又称为查全率。Recall同样越高越好,越高意味着模型对“实际为正”的样本误判越少,漏判的概率越低。

注意: 精度和召回率虽然没有必然的关系,然而在大规模数据集合中,这两个指标却是相互制约的。一般情况下,召回率高时,精度低;精度高时,召回率低。

3. F1-Score

F1-Score:是精度(Precision)和召回率(Recall)的加权调和平均

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能

F1-Score值越接近1,则模型在查全率与查准率两方面的综合表现越好。而Precision或Recall中,一旦有一项非常拉跨(接近于0),F值就会很低。

4. Accuracy(准确率)

Accuracy(准确率):模型正确分类的样本数(正实例被判定为正类,负实例被判定为负例)在总样本中的比重。

Accuracy = 被正确预测的样本数 / 样本总数

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能

Accuracy(准确率)vs. Precision(精度)

模型A假设现有模型A对中国人的“恶性肿瘤发病率”进行预测,预测的准确率(Accuracy)为99.7%。请问这个模型效果如何?是否可用?
答:很难说。因为仅通过准确率,我们不知道假正(FP)和假负(FN)的样本量有多少,以及占比如何。实际上,2017年,全国恶性肿瘤发病率为0.3%。我们只要猜测所有中国人都不会患病,就可以达到99.7%的准确率。但这个预测,对于我们而言,并没有带来任何的增量信息。

  • Accuracy(准确率)从全部数据的角度去计算分类正确的样本数所占的比例,是对分类器整体上的正确率的评价。当数据中存在类别不均衡等问题时,使用准确率无法得出具有信息量的判断结果。

  • 而Precision(精度)在分类中对应的是某个类别(分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量)。Precision是分类器预测为某一个类别的正确率的评价。

5. P-R 曲线

P-R Curve(全准曲线):是由P值与R值构成的曲线。将模型不同参数对应的(R值,P值)绘制成曲线,就得到了全准曲线。

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能

6. TPR、FPR

上面讲了这么多评价指标,我们发现一个问题:目前的评价体系当中,并没有用上所有的可用信息。上述指标中,考虑了P值和R值,但是都没有考虑TN(True Negative)样本的影响。

那么,有没有什么度量可以考虑到整个混沌矩阵的信息呢?

这里,可以引入真正率(True Positive Rate)和假正率(False Positive Rate)两个指标来解决上述信息缺失的问题。

6.1 TPR(真正率)

TPR(True Positive Rate,真正率):统计“实际为正的样本”中,有多少预测是正确的。

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能

“真正率”就是“查准率”,只不过对同一个事物,有两个不同的称呼。真正率越高越好,越高意味着模型对“正样本”的误判越少。

6.2 FPR(假正率)

FPR(False Positive Rate,假正率):统计“实际为负的样本”中,有多少预测是错误的。

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能

假正率越低越好,越低意味着模型对“负样本”的误判越少。

TPR和FPR有一个好处:不会受样本的均衡程度的影响。
TPR和FPR的条件概率都是基于真实样本的,而且TPR只基于正样本,而FPR只基于负样本。这就使得TPR和FPR不会受样本均衡程度的影响。
而ROC曲线与AUC面积,就是在TPR和FPR的基础上衍生出来的概念。

7. ROC曲线

ROC曲线(Receiver Operating Characteristic Curve),是以假正率(FPR)为横轴,真正率(TPR)为纵轴所组成的坐标图,和受试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。ROC曲线在测试集中的正负样本的分布变化时,能够保持不变。

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能

在整个ROC曲线上,约靠近左上角(0,1)的点,对应的模型参数越好。

ROC曲线上的每个点对是在某个阈值threshold下得到的(FPR, TPR)。设定一个阈值,大于这个阈值的实例被划分为正实例,小于这个值的实例则被划分为负实例,运行模型,得出结果,计算FPR和TPR值,更换阈值,循环操作,就得到不同阈值下的(FPR, TPR)对,即能绘制成ROC曲线。

8. AUC曲线

AUC曲线(Area Under Curve)是ROC曲线下的面积值,在0.5到1.0区间内。之所以使用AUC值作为评价标准是因为很多时候并不能从ROC曲线中判别模型的好坏,AUC值能量化模型的性能效果。AUC值越接近于1,说明模型性能越好,模型预测的准确率越高;如果多个模型进行性能比较,一般以AUC值大的模型比AUC值小的模型的性能好。

详解分类指标Precision,Recall,F1-Score,分类,机器学习,人工智能

当AUC等于0.5时,整个模型等价于一个随机分类器。AUC的面积越大,模型的整体表现越好。文章来源地址https://www.toymoban.com/news/detail-602090.html

参考资料

  • 机器学习中常见的评估指标:https://blog.csdn.net/weixin_42111770/article/details/81015809
  • accuracy 和 precision 的区别是什么?:https://www.zhihu.com/question/321998017/answer/2303096310

到了这里,关于详解分类指标Precision,Recall,F1-Score的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习笔记15】多分类混淆矩阵、F1-score指标详解与代码实现(含数据)

    参考文章 4.4.2分类模型评判指标(一) - 混淆矩阵(Confusion Matrix)_进击的橘子猫的博客-CSDN博客_混淆矩阵 之前在逻辑回归的文章中简单提到过F1-score,但并没有详细对其进行说明和代码实现。这里补一下。 混淆矩阵 (又称 误差矩阵 )是评判模型结果的指标,属于模型评估的

    2023年04月17日
    浏览(33)
  • Spark - AUC、Accuracy、Precision、Recall、F1-Score 理论与实战

    推荐场景下需要使用上述指标评估离、在线模型效果,下面对各个指标做简单说明并通过 spark 程序全部搞定。 搜广推场景下最常见的就是 Ctr 2 分类场景,对于真实值 real 和预测值 pre 分别有 0 和 1 两种可能,从而最终 2x2 产生 4 种可能性: - TP 真正率 对的预测对 ,即 1 预测

    2024年02月02日
    浏览(33)
  • python 中,sklearn包下的f1_score、precision、recall使用方法,Accuracy、Precision、Recall和F1-score公式,TP、FP、TN、FN的概念

    目录 1.sklearn.metrics.f1_score 2.sklearn.metrics.precision_score 3.sklearn.metrics.recall_score 4.Accuracy,、Precision、 Recall和F1-score公式​​​​​​​ 5.TP、FP、TN、FN的概念 重要参数说明: y_true: 一维数组,或标签指示数组/稀疏矩阵 (真实值) y_pred: 一维数组,或标签指示数组/稀疏矩阵 (

    2023年04月24日
    浏览(33)
  • 【计算机视觉 | 目标检测】术语理解3:Precision、Recall、F1-score、mAP、IoU 和 AP

    在图像目标检测中,常用的评估指标包括以下几项: 精确率(Precision):也称为查准率,表示被分类为正类别的样本中真正为正类别的比例。计算公式为:Precision = TP / (TP + FP),其中TP是真正例(模型正确预测为正类别的样本数),FP是假正例(模型错误预测为正类别的样本数

    2024年02月13日
    浏览(35)
  • 机器学习分类器评价指标详解(Precision, Recall, PR, ROC, AUC等)(一)

    为了系统性地理解机器学习模型的不同评价指标及其之间的关系,我们将从其定义出发,探究其物理含义及彼此之间的联系,并从数学上给出相应的公式推导,以方便后续用到时复习理解。由于篇幅较长,因此将其分为两篇,这是第一部分,第二部分参见:机器学习分类器评

    2024年02月04日
    浏览(31)
  • 在分类任务中准确率(accuracy)、精确率(precision)、召回率(recall)和 F1 分数是常用的性能指标,如何在python中使用呢?

    在机器学习和数据科学中,准确率(accuracy)、精确率(precision)、召回率(recall)和 F1 分数是常用的性能指标,用于评估分类模型的性能。 准确率是模型预测正确的样本数占总样本数的比例。 精确率是指在预测为正的样本中,实际为正的比例。它关注的是预测为正的样本

    2024年01月19日
    浏览(33)
  • 基于sklearn计算precision、recall等分类指标

    在前面的文章中,我们已经介绍了分类指标Precision,Recall,F1-Score的定义和计算公式:详解分类指标Precision,Recall,F1-Score 我们可以知道, 精度(precision)、查全率(recall)、F1的计算,是针对于二分类器来定义的。他们的计算,只与y_true和y_pred有关,要求y_true和y_pred中只含有0和

    2024年02月16日
    浏览(27)
  • 机器学习系列(二)——评价指标Precision和Recall

    Precision 和 Recall 是常考的知识点,就其区别做一个详细总结 1. Precision  中文翻译 “精确率”,“查准率”。 “查准率”这个名字更能反应其特性,就是 该指标关注准确性。  计算公式如下: 这里TP,FP的概念来自统计学中的混淆矩阵,TP指 “预测为正(Positive), 预测正确(

    2024年02月16日
    浏览(31)
  • 准确率、精确率、召回率、F1-score

    TP(True Positives):真正例,即正例预测为真(预测为正例而且实际上也是正例); FP(False Positives):假正例,即负例预测为真(预测为正例然而实际上却是负例); FN(false Negatives):假负例,即正例预测为假(预测为负例然而实际上却是正例); TN(True Negatives):真负例,即

    2024年02月03日
    浏览(38)
  • Lesson 5.2 混淆矩阵与 F1-Score

    接下来,我们重点讨论关于分类模型评估指标相关内容。 分类模型作为使用场景最为广泛的机器学习模型,相关模型评估指标也伴随着使用场景的拓展而不断丰富。 除了此前所介绍的准确率以外,常用的二分类模型的模型评估指标还有召回率(Recall)、F1 指标(F1-Score)、受

    2024年02月05日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包