机器学习算法基础--聚类问题的评价指标

这篇具有很好参考价值的文章主要介绍了机器学习算法基础--聚类问题的评价指标。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.聚类问题指标评价的意义

    聚类算法是非监督学习最常用的一种方法,性能度量是衡量学习模型优劣的指标,
  也可作为优化学习模型的目标函数。聚类性能度量根据训练数据是否包含标记数据
  分为两类,一类是将聚类结果与标记数据进行比较,称为“外部指标”;另一类是直
  接分析聚类结果,称为内部指标。本文对这两类的性能度量以及相似度方法作一个
  详细总结。
  本文将总结的指标如下所示:
  外部指标:
  1.兰德系数(RI)
  2.调整兰德系数(ARI)
  3.同质性(homogeneity)度量
  4.完整性(completeness)度量
  5.V-Measure值(h和c的调和平均值)度量
  内部指标
  1.轮廓系数(Silhouette Coefficient)
  2.Caliniski-Harabaz指数

2.外部评价指标计算

2.1.兰德系数(RI)计算方法

  首先我们定义两两配对变量a和b:
  a:数据集的样本对既属于相同簇C也属于相同簇K的个数
  b:数据集的样本对不属于相同簇C也不属于相同簇K的个数
  比如对于如下的真实簇和预测簇向量:
    真实簇向量:[ 0, 0, 0, 1, 1, 1 ]
    预测簇向量:[ 0, 0, 1, 1, 1, 1 ]
  根据a的定义,a表示在C,K两簇都是相同簇的样本对数,由上我们知道为a=2([0,0]和[1,1]满足题意)
  根据b的定义,b表示在C和K中都是不同簇的样本的个数,由上我们知道b=1([0,1]->[1,1]符合条件)
RI是衡量两个簇类的相似度,假设样本个数是n,定义:
R I = a + b C n 2 RI=\frac{a+b}{C_{n}^{2} } RI=Cn2a+b
  基于上述样本,n=6,cluters=3,所以RI的计算结果如下所示:
R I = a + b C 6 3 = 2 + 1 15 = 1 5 RI=\frac{a+b}{C_{6}^{3} } =\frac{2+1}{15} =\frac{1}{5} RI=C63a+b=152+1=51

2.2.调整兰德系数(ARI)计算方法

  RI系数的缺点是随着聚类数的增加,随机分配簇类向量的RI也逐渐增加,这是不符合理论的,随机分配簇类标记向量的RI应为0。
  对于随机结果,RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数( Adjusted randindex)被提出,它具有更高的区分度,其计算公式如下所示:
A R I = R I − E [ R I ] m a x ( R I ) − E [ R I ] ARI=\frac{RI-E[RI]}{max(RI)-E[RI]} ARI=max(RI)E[RI]RIE[RI]
  相关Python代码如下所示:

from sklearn.metrics import adjusted_rand_score
true_labels = [ 0, 0, 0, 1, 1, 1 ]# 真实的标签
predicted_labels = [ 0, 0, 1, 1, 2, 2 ]# 聚类结果的标签
ari_score = adjusted_rand_score(true_labels, predicted_labels)
print("调整兰德系数:",ari_score )

2.3.同质性度量的计算方法

  我们给出同质性度量的计算公式如下所示:
h = 1 − H ( C ∣ K ) H ( C ) h=1-\frac{H(C|K)}{H(C)} h=1H(C)H(CK)
H ( C ∣ K ) 是给定簇划分条件下类别划分的条件熵 , H ( C ∣ K ) = − ∑ c = 1 ∣ C ∣ ∑ k = 1 ∣ K ∣ n c , k n log ⁡ ( n c , k n k ) , H ( C ) 是类别划分熵 , H ( C ) = − ∑ c = 1 ∣ C ∣ n c n log ⁡ ( n c n ) , n 表示实例总数。 H(C \mid K) 是给定簇划分条件下类别划分的条件熵, \\ H(C \mid K)= -\sum_{c=1}^{|C|} \sum_{k=1}^{|K|} \frac{n_{c, k}}{n} \log \left(\frac{n_{c, k}}{n_{k}}\right), H(C) 是类别划分熵, \\ H(C)=-\sum_{c=1}^{|C|} \frac{n_{c}}{n} \log \left(\frac{n_{c}}{n}\right), n 表示实例总 数。 H(CK)是给定簇划分条件下类别划分的条件熵,H(CK)=c=1Ck=1Knnc,klog(nknc,k),H(C)是类别划分熵,H(C)=c=1Cnnclog(nnc),n表示实例总数。
  相关Python代码如下所示:

from sklearn.metrics import homogeneity_score
true_labels = [ 0, 0, 0, 1, 1, 1 ]# 真实的标签
predicted_labels = [ 0, 0, 1, 1, 2, 2 ]# 聚类结果的标签
homogeneity = homogeneity_score(true_labels, predicted_labels)
print("同质性:", homogeneity)

2.4.完整性度量的计算方法

  完整性度量的各个参数的都类似于同质性度量,其是计算公式如下所示:
h = 1 − H ( K ∣ C ) H ( K ) h=1-\frac{H(K|C)}{H(K)} h=1H(K)H(KC)
  相关Python代码如下所示:

from sklearn.metrics import completeness_score
true_labels = [ 0, 0, 0, 1, 1, 1 ]# 真实的标签
predicted_labels = [ 0, 0, 1, 1, 2, 2 ]# 聚类结果的标签
completeness = completeness_score(true_labels, predicted_labels)
print("完整性:", completeness)

2.5.V-Measure值的计算方法

  V-Measure的计算方法是h和c的调和平均数,其计算公式如下所示:
V = 2 h c h + c V=\frac{2hc}{h+c} V=h+c2hc
  相关Python代码如下所示:

#%%
from sklearn.metrics import v_measure_score
true_labels = [ 0, 0, 0, 1, 1, 1 ]# 真实的标签
predicted_labels = [ 0, 0, 1, 1, 2, 2 ]# 聚类结果的标签
v_measure = v_measure_score(true_labels, predicted_labels)
print("V度量:", v_measure)

3.内部评价指标计算

3.1.轮廓系数的计算方法

  轮廓系数(Silhouette coeffcient ) 适用于实际类别信息未知的情况。对于单个样本,设a 是与它同类别中其他样本的平均距离,b是与它距离最近不同类别中样本的平均距离,轮廓系数为:
s = b − a m a x ( a , b ) s=\frac{b-a}{max(a,b)} s=max(a,b)ba
  相关Python代码如下所示:

#%%
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
X=[[0,1,2,6],[1,0,2,6],[2,1,0,6],[6,6,6,0]]
y=[0,0,0,1]
kmeans = KMeans(n_clusters=3)	
# 根据数据data进行聚类,结果存放于result_list中
result_list = kmeans.fit_predict(X)
# 将原始的数据data和聚类结果result_list
score = silhouette_score(X, result_list)
print(score)

3.2.Calinski-Harabaz的计算方法

  这种计算方法简单直接并且得到的数据越大越好,下面给出Calinski-Harabaz因子的计算方式:
机器学习算法基础--聚类问题的评价指标,机器学习算法基础,机器学习,算法,聚类
  也就是说,类别内部数据的协方差越小越好,类别之间的协方差越大越好,这样的Calinski-Harabasz分数会高。
  相关Python代码如下所示:文章来源地址https://www.toymoban.com/news/detail-729761.html

#%%
#%%
import numpy as np
from sklearn import metrics
from sklearn.cluster import KMeans
X=[[0,1,2,6],[1,0,2,6],[2,1,0,6],[6,6,6,0]]
y=[0,0,0,1]
kmeans = KMeans(n_clusters=3)	
result_list = kmeans.fit_predict(X)
calinski_harabasz_score= metrics.calinski_harabasz_score(X, result_list)
print(calinski_harabasz_score)

4.致谢

本章内容的完成离不开以下大佬文章的启发和帮助,在这里列出名单,如果对于内容还有不懂的,可以移步对应的文章进行进一步的理解分析。
1.聚类评价指标的外部指标评价:https://blog.csdn.net/fengdu78/article/details/103951665
2.聚类评价指标的外部指标评价:https://zhuanlan.zhihu.com/p/145989213
3.聚类评价指标的内部指标评价:https://blog.csdn.net/sinat_26917383/article/details/70577710
在文章的最后再次表达由衷的感谢!!

到了这里,关于机器学习算法基础--聚类问题的评价指标的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 聚类算法常用内部评价指标——轮廓系数、Calinski-Harabasz Index(CH)、Davies-Bouldin Index(DB)

     聚类分析的评价指标也称为:性能度量指标 聚类算法聚类后,如何评价聚类结果,如何确定各聚类算法结果的优劣,如何确定聚类算法的参数值,可以通过聚类性能度量指标从一个侧面说明聚类算法和算法参数的选择。、 聚类性能度量指标分为 外部指标和内部指标 。 外部

    2024年01月19日
    浏览(29)
  • 【机器学习】聚类算法-DBSCAN基础认识与实战案例

    在机器学习中,聚类是一种常见的无监督学习方法,它的目标是将数据集中的数据点分成不同的组,每个组之间具有相似的特征。聚类可以用于各种应用程序,如图像分割,社交媒体分析,医疗数据分析等。DBSCAN是一种聚类算法,它被广泛应用于各种领域。 DBSCAN(Density-Bas

    2024年04月15日
    浏览(39)
  • 机器学习回归任务指标评价及Sklearn神经网络模型评价实践

    机器学习回归模型评价是指对回归模型的性能进行评估,以便选择最佳的回归模型。其中,MAE、MSE、RMSE 用于衡量模型预测值与真实值之间的误差大小,R² 用于衡量模型对数据的拟合程度。在实际应用中,我们可以使用这些指标来评估回归模型的性能,并对模型进行优化。

    2024年02月05日
    浏览(35)
  • 机器学习系列(二)——评价指标Precision和Recall

    Precision 和 Recall 是常考的知识点,就其区别做一个详细总结 1. Precision  中文翻译 “精确率”,“查准率”。 “查准率”这个名字更能反应其特性,就是 该指标关注准确性。  计算公式如下: 这里TP,FP的概念来自统计学中的混淆矩阵,TP指 “预测为正(Positive), 预测正确(

    2024年02月16日
    浏览(31)
  • 机器学习基础之《回归与聚类算法(4)—逻辑回归与二分类(分类算法)》

    一、什么是逻辑回归 1、逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛 2、叫回归,但是它是一个分类算法 二、逻辑回归的应用场

    2024年02月07日
    浏览(33)
  • 机器学习分类器评价指标详解(Precision, Recall, PR, ROC, AUC等)(一)

    为了系统性地理解机器学习模型的不同评价指标及其之间的关系,我们将从其定义出发,探究其物理含义及彼此之间的联系,并从数学上给出相应的公式推导,以方便后续用到时复习理解。由于篇幅较长,因此将其分为两篇,这是第一部分,第二部分参见:机器学习分类器评

    2024年02月04日
    浏览(31)
  • 图像隐写综述(适合小白入门,涉及基础知识、评价指标与前沿算法)

    创作不易,点赞收藏,谢谢!如有交流需要,请关注微信公众号“笔名二十七画生”。 分享有趣知识的公众号 1.图像隐写基础知识 信息保护主要有两种手段: 1.加密技术,是直接对要保护的数据进行数学变换,并使得未授权方无法读取交换的秘密信息。 2.信息隐藏技术,则是将

    2024年02月21日
    浏览(39)
  • 机器学习模型优劣评价指标:混淆矩阵,P-R曲线与平均精确度(附代码实现)

    文章参考:Mean Average Precision (mAP) Explained | Paperspace Blog 目录 一. Confusion Metrics混淆矩阵 二. Precision-Recall Curve, Average precision P-R曲线,平均精确度 三. 举例与代码实现 (1)从预测分数到类别标签(From Prediction Score to Class Label) (2)精确度-召回度曲线(Precision-Recall Curve) (3)平均

    2024年02月05日
    浏览(29)
  • 【机器学习】机器学习上机作业聚类算法

    自编代码实现C均值聚类和FCM聚类,在“IRIS数据集(鸢尾花数据集)”上进行实验,验证所编代码是否正确,并计算准确率。 Iris鸢尾花数|据集:包含花萼长度、花萼宽度、花瓣长度、花瓣宽度四个属性,用于预测鸢尾花种类,标签0、1、2分别表示山鸢尾、变色鸢尾、维吉尼亚鸢

    2024年01月22日
    浏览(33)
  • 【机器学习】聚类算法(一)

    聚类算法是一种无监督的机器学习方法,它可以将数据集中的对象分成若干个组,使得同一组内的对象相似度高,而不同组内的对象相似度低。聚类算法有很多种,例如 K-均值,层次聚类,密度聚类,谱聚类 等。聚类算法可以应用于很多领域,例如数据挖掘,图像分割,社交

    2024年01月25日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包