判断聚类 n_clusters

这篇具有很好参考价值的文章主要介绍了判断聚类 n_clusters。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

基本原理

代码实现:

肘部法则(Elbow Method):

轮廓系数(Silhouette Coefficient)

Gap Statistic(间隙统计量):

Calinski-Harabasz Index(Calinski-Harabasz指数):


基本原理

这些方法(肘部法则、轮廓系数、Gap Statistic、Calinski-Harabasz Index)都是用于确定聚类算法中的 n_clusters(簇的数量)参数,但它们之间存在一些区别。下面是它们的主要特点以及适用情况的总结:

  1. 肘部法则(Elbow Method):

    • 特点:通过绘制聚类结果的损失函数值与 n_clusters 的关系图,找到“肘部”处的拐点作为最佳 n_clusters
    • 适用情况:当数据集的聚类结构明显时,该方法通常有效。但是,对于数据集没有明显的肘部的情况,或者肘部并不明显时,该方法可能无法提供确定的最佳 n_clusters
  2. 轮廓系数(Silhouette Coefficient):

    • 特点:计算每个样本的轮廓系数(介于-1和1之间),并计算出所有样本的平均轮廓系数。最大化平均轮廓系数可以确定最佳的 n_clusters
    • 适用情况:适用于各种类型的数据集,尤其是数据分布相对均匀且没有明显的几何形状的聚类结构。需要注意的是,轮廓系数的计算复杂度较高,对于大型数据集可能会有一定的性能开销。
  3. Gap Statistic(间隙统计量):

    • 特点:通过比较聚类结果与随机数据模拟结果的区别,使用统计学原理来选择最佳 n_clusters。Gap Statistic 值越大,表示聚类效果越好。
    • 适用情况:适合于具有明显聚类结构的数据集,对于不同密度、大小和形状的聚类表现较好。需要注意的是,该方法对数据集的假设要求较高,在某些情况下可能会得到不准确的结果。
  4. Calinski-Harabasz Index(Calinski-Harabasz指数):

    • 特点:通过计算聚类之间的离散度与聚类内部的紧密度之比,确定最佳的 n_clusters。Calinski-Harabasz 指数值越大,表示聚类效果越好。
    • 适用情况:适合于具有清晰、凸形状的聚类结构的数据集。对噪声和异常值比较敏感,处理非凸形状的聚类时可能出现一些偏差。

在选择适当的方法时,应综合考虑以下因素:文章来源地址https://www.toymoban.com/news/detail-678705.html

  • 数据特征:数据集的聚类结构、形状、噪声以及是否具有明显的几何形态等特征。
  • 算法要求:不同的方法可能对数据集的假设和计算复杂度有不同的要求。
  • 领域知识:对数据集具有领域知识,可以帮助理解数据的特点,并选择适合的评估指标和方法。

代码实现:

肘部法则(Elbow Method):

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
# 肘部法则(Elbow Method):绘制不同 n_clusters 下的聚类误差平方和(SSE)曲线。
# 观察 SSE 曲线的形状,找到一个"肘部弯曲点",
# 即在该点后,SSE 的下降速度变得缓慢。
# "肘部弯曲点"对应的 n_clusters 值就是一个合适的选择。
#
# 例如,在上述代码示例中,使用 plt.plot(k_range, sse, 'bx-') 绘制了 SSE 曲线。观察曲线,如果在某个 n_clusters 值处出现明显弯曲,且在该点之后 SSE 的下降速度变得缓慢,那么该 n_clusters 值可以被认为是一个合适的选择。



# 加载Iris数据集
iris = load_iris()

# 构造K-Means聚类模型
model = KMeans()

# 肘部法则选择n_clusters
sse = []
k_range = range(2, 10)  # 需要尝试的n_clusters范围
for k in k_range:
    model.set_params(n_clusters=k)
    model.fit(iris.data)
    sse.append(model.inertia_)

plt.plot(k_range, sse, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('SSE')
plt.title('The Elbow Method')
plt.show()

# 轮廓系数选择n_clusters
silhouette_scores = []
for k in k_range:
    model.set_params(n_clusters=k)
    labels = model.fit_predict(iris.data)
    score = silhouette_score(iris.data, labels)
    silhouette_scores.append(score)

plt.plot(k_range, silhouette_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Silhouette Coefficient')
plt.title('Silhouette Score')
plt.show()

轮廓系数(Silhouette Coefficient)

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 加载Iris数据集
iris = load_iris()

# 构造K-Means聚类模型
model = KMeans()

k_range = range(2, 10)  # 需要尝试的n_clusters范围
silhouette_scores = []
for k in k_range:
    model.set_params(n_clusters=k)
    labels = model.fit_predict(iris.data)
    score = silhouette_score(iris.data, labels)
    silhouette_scores.append(score)

plt.plot(k_range, silhouette_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Silhouette Coefficient')
plt.title('Silhouette Score')
plt.show()
  1. Gap Statistic(间隙统计量):

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances
from sklearn.metrics import silhouette_score
# 选择 Gap Statistic 最大的 n_clusters 值。
# 加载Iris数据集
iris = load_iris()

# 构造K-Means聚类模型
model = KMeans()

k_range = range(2, 10)  # 需要尝试的n_clusters范围
gap_scores = []
for k in k_range:
    model.set_params(n_clusters=k)
    labels = model.fit_predict(iris.data)
    dist_matrix = pairwise_distances(iris.data)
    gap = np.mean(np.log(np.mean(np.min(dist_matrix[:, labels], axis=1))))
    gap_scores.append(gap)

plt.plot(k_range, gap_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Gap Statistic')
plt.title('Gap Statistic')
plt.show()
  1. Calinski-Harabasz Index(Calinski-Harabasz指数):

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import calinski_harabasz_score
# 选择具有最大 Calinski-Harabasz 指数的 n_clusters 值。
# 加载Iris数据集
iris = load_iris()

# 构造K-Means聚类模型
model = KMeans()

k_range = range(2, 10)  # 需要尝试的n_clusters范围
calinski_scores = []
for k in k_range:
    model.set_params(n_clusters=k)
    labels = model.fit_predict(iris.data)
    score = calinski_harabasz_score(iris.data, labels)
    calinski_scores.append(score)

plt.plot(k_range, calinski_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Calinski-Harabasz Index')
plt.title('Calinski-Harabasz Index')
plt.show()

到了这里,关于判断聚类 n_clusters的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习算法】聚类算法-4 模糊聚类 密度聚类,如何判断超参数:数据群数

    目录 聚类算法 模糊聚类法 密度聚类法 DBSCAN的介绍 2个概念密度可达(Density-Reachable)和密度相连(Density-Connected) DBSCAN的优缺点 数据群数的判断 R-Squared(R2) semi-Partial R-Squared 轮廓系数 总结 我的主页:晴天qt01的博客_CSDN博客-数据分析师领域博主 目前进度:第四部分【机器

    2024年02月02日
    浏览(27)
  • 机器学习入门教学——人工智能、机器学习、深度学习

    1、人工智能 人工智能相当于人类的代理人,我们现在所接触到的人工智能基本上都是弱AI,主要作用是正确解释从外部获得的数据,并对这些数据加以学习和利用,以便灵活的实现特定目标和任务。 例如: 阿尔法狗、智能汽车 简单来说: 人工智能使机器像人类一样进行感

    2024年02月09日
    浏览(63)
  • 人工智能|机器学习——基于机器学习的舌苔检测

    基于深度学习的舌苔检测毕设留档.zip资源-CSDN文库 目前随着人们生活水平的不断提高,对于中医主张的理念越来越认可,对中医的需求也越来越多。在诊断中,中医通过观察人的舌头的舌质、苔质等舌象特征,了解人体内的体质信息从而对症下药。 传统中医的舌诊主要依赖

    2024年02月22日
    浏览(50)
  • 人工智能与机器人|机器学习

    原文链接: https://mp.weixin.qq.com/s/PB_n8woxdsWPtrmL8BbehA 机器学习下包含神经网络、深度学习等,他们之间的关系表示如图2-7所示。 图2-7 关系图 那么什么是机器学习、深度学习、他们的区别又是什么呢? 2.7.1 什么是机器学习? 机器学习是 人工智能 (AI) 和计算机科学的一个分支,

    2024年02月06日
    浏览(65)
  • 人工智能与机器学习

    欢迎关注博主 Mindtechnist 或加入【Linux C/C++/Python社区】一起探讨和分享Linux C/C++/Python/Shell编程、机器人技术、机器学习、机器视觉、嵌入式AI相关领域的知识和技术。 专栏:《机器学习》 ​ ​ ☞什么是人工智能、机器学习、深度学习 人工智能这个概念诞生于1956年的达特茅斯

    2024年02月02日
    浏览(45)
  • 【机器学习】人工智能概述

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.人工智能概述 1.1 机器学习、人工智能与深度学习 1.2 机器学习、深度学习能做些什么

    2024年02月09日
    浏览(44)
  • 机器学习--人工智能概述

    入门人工智能,了解人工智能是什么。为啥发展起来,用途是什么,是最重要也是最关键的事情。大致有以下思路。 人工智能发展历程 机器学习定义以及应用场景 监督学习,无监督学习 监督学习中的分类、回归特点 知道机器学习的开发流程 人工智能在现实生活中的应用

    2024年01月19日
    浏览(44)
  • 人工智能、机器学习、深度学习的区别

    人工智能涵盖范围最广,它包含了机器学习;而机器学习是人工智能的重要研究内容,它又包含了深度学习。 人工智能是一门以计算机科学为基础,融合了数学、神经学、心理学、控制学等多个科目的交叉学科。 人工智能是一门致力于使计算机能够模拟、模仿人类智能的学

    2024年02月08日
    浏览(41)
  • 12、人工智能、机器学习、深度学习的关系

    很多年前听一个机器学习的公开课,在QA环节,一个同学问了老师一个问题“ 机器学习和深度学习是什么关系 ”? 老师先没回答,而是反问了在场的同学,结果问了2-3个,没有人可以回答的很到位,我当时也是初学一脸懵,会场准备的小礼品也没有拿到。 后来老师解释“机

    2024年02月05日
    浏览(56)
  • 一探究竟:人工智能、机器学习、深度学习

    1.1 人工智能是什么?          1956年在美国Dartmounth 大学举办的一场研讨会中提出了人工智能这一概念。人工智能(Artificial Intelligence),简称AI,是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的

    2024年02月17日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包