机器学习——Kmeans算法

这篇具有很好参考价值的文章主要介绍了机器学习——Kmeans算法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、实验目的

学习sklearn模块中的KMeans算法

二、实验内容

学习KMeans算法,了解模型创建、使用模型及模型评价等操作

三、实验原理或流程

实验原理:

K-means算法是将样本聚类成k个簇(cluster),具体算法描述如下:

1、随机选取k个聚类质心点(cluster centroids)

机器学习——Kmeans算法

2、重复下面过程直到收敛{
对于每一个样例i,计算其应该属于的类

机器学习——Kmeans算法

对于每一个类j,重新计算该类的质心机器学习——Kmeans算法

K是我们事先给定的聚类数,c(i)代表样例ik个类中距离最近的那个类,c(i)的值是1k中的一个。质心uj代表我们对属于同一个类的样本中心点的猜测,拿星团模型来解释就是要将所有的星星聚成k个星团,首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为c(i),这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心uj (对里面所有的星星坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。求点群中心的算法:
一般来说,求点群中心点的算法你可以使用各个点的X/Y坐标的平均值。

四、实验过程及源代码

1.打开终端模拟器,切换到/data目录下,使用wget命令下载实验数据

机器学习——Kmeans算法

2.开启jupyter notebook

机器学习——Kmeans算法

3.创建一个.ipynb文件

机器学习——Kmeans算法

4.使用pandasread_table方法读取protein.txt文件,以\t分隔并传入protein

机器学习——Kmeans算法

5.查看protein的描述性统计

机器学习——Kmeans算法

​6.查看protein的列名
 

机器学习——Kmeans算法

7.用.shape方法可以读取矩阵的形状

机器学习——Kmeans算法

​8.导入sklearn模块中的preprocessing函数
 

机器学习——Kmeans算法

9.导入sklearn模块中的KMeans方法

机器学习——Kmeans算法

​10.导入Matplotlib模块
 

机器学习——Kmeans算法

11.使用KMeans算法生成实例myKmeans

机器学习——Kmeans算法

12.利用.fit(方法对sprotein_scaled进行模型拟合

机器学习——Kmeans算法

13.打印输出myKmeans模型

机器学习——Kmeans算法

14.使用.predict方法,用训练好的模型进行预测

机器学习——Kmeans算法

​15.编写print_kmcluster函数并输出结果

机器学习——Kmeans算法

五、实验结论及心得

结论:

kmean算法的特点是不能保证该算法收敛域全局最优解,并且它常常终止于一个局部最优解。结果可能依赖于初始簇中心的随机选择,所以为了尽可能的得到好的结果,我们通常会选择不同的初始簇中心,来多疑运行K-均值算法。

算法优点:
1)原理比较简单,实现也是很容易,收敛速度快。
2)聚类效果较优。
3)算法的可解释度比较强。
4)主要需要调参的参数仅仅是簇数k
算法缺点:
1K值的选取不好把握 

2)对于不是凸的数据集比较难收敛
3)如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。
4 采用迭代方法,得到的结果只是局部最优。

心得体会:

学习sklearn模块中的KMeans算法,我了解到它是一种聚类分析的算法。该算法通过不断迭代调整簇心的位置,将数据集划分为多个簇,使得每个簇内部的样本相似度越高,而不同簇之间的样本相似度越低。在使用KMeans算法时,需要指定簇的数量,同时也可以通过设置不同的参数来调整算法的性能。此外,sklearn中还提供了其他的聚类算法,如DBSCAN、层次聚类等,可以根据实际任务需求进行选择。
文章来源地址https://www.toymoban.com/news/detail-500836.html

到了这里,关于机器学习——Kmeans算法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • sklearn.cluster.Kmeans解析

    sklearn.cluster. KMeans(n_clusters=8,init=\\\'k-means++\\\',n_init=10,         max_iter=300, tol=0.0001, precompute_distances=\\\'auto\\\',verbose=0,         random_state=None, copy_x=True,n_jobs=1,algorithm=\\\'auto\\\') n_clusters:  生成类别数, int, optional, default: 8. init:  初始化方法, 默认为‘k-means++,可选{‘k-means++’, ‘rand

    2024年01月25日
    浏览(21)
  • 聚类 kmeans | 机器学习

    是一种无监督学习算法,其主要目的是 将数据点分为k个簇 ,距离近的样本具有更高的相似度,距离近的划分为一个簇,一共划分k个簇,**让簇内距离小,簇间距离大。**距离是样本点到之心的距离。所有样本点到质心距离之和最小,就认为样本越相似。 聚类和分类区别 优化

    2023年04月09日
    浏览(26)
  • 机器学习15-2(Mini Batch Kmeans)

    除了K-Means快速聚类意外,还有两种常用的聚类算法 能够进一步提升快速聚类的速度的 Mini Batch K-Means 算法 能够和K-Means快速聚类形成性能上互补的算法 DBSCAN 密度聚类 非常抱歉,需要先来一段理论基础做铺垫,速览即可! 在 K-Means 的基础上增加了一个 Mini Batch 的 抽样 过程,

    2024年02月11日
    浏览(27)
  • Educode--机器学习基础模型与算法测试闯关实验

    # -*- coding: utf-8 -*- \\\'\\\'\\\' 油气藏的储量密度Y与生油门限以下平均地温梯度X1、 生油门限以下总有机碳百分比X2、生油岩体积与沉积岩体积百分比X3、砂泥岩厚度百分比X4、 有机转化率X5有关,数据文件为“1.xlsx”,字段如下: 样本ID    X1    X2    X3    X4    X5    Y

    2024年02月06日
    浏览(27)
  • 【Python机器学习】实验06 KNN最近邻算法

    1. k k k 近邻法是基本且简单的分类与回归方法。 k k k 近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的 k k k 个最近邻训练实例点,然后利用这 k k k 个训练实例点的类的多数来预测输入实例点的类。 2. k k k 近邻模型对应于基于训练数据集对

    2024年02月15日
    浏览(31)
  • 【BXZ_231228】使用Sklearn Kmeans及RFM对淘宝客户进行分类关怀

    【Talk is cheap】

    2024年02月03日
    浏览(31)
  • sklearn机器学习库(一)sklearn中的决策树

    sklearn中决策树的类都在”tree“这个模块之下。 tree.DecisionTreeClassifier 分类树 tree.DecisionTreeRegressor 回归树 tree.export_graphviz 将生成的决策树导出为DOT格式,画图专用 tree.export_text 以文字形式输出树 tree.ExtraTreeClassifier 高随机版本的分类树 tree.ExtraTreeRegressor 高随机版本的回归树

    2024年02月13日
    浏览(31)
  • sklearn机器学习库(二)sklearn中的随机森林

    集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果, 以此来获取比单个模型更好的回归或分类表现 。 多个模型集成成为的模型叫做集成评估器(ensemble estimator),组成集成评估器的每个模型都叫做基评估器(base estimator)。通常来说,有三类集成算法:

    2024年02月12日
    浏览(35)
  • 机器学习 | sklearn库

    目录 一、样本及样本的划分 1.1 样本划分 1.2 划分样本的方法 二、导入或创建数据集 2.1 导入sklearn自带的样本数据集 2.2 利用sklearn生成随机的数据集 2.3 读入自己创建的数据集 三、数据预处理 3.1 数据标准化 3.2 sklearn中的数据标准化函数 3.3 正则化函数Normalizer() 四、数据的降

    2024年02月08日
    浏览(31)
  • 机器学习--sklearn(决策树)

    决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。 节点 根节点:没有进边,有出边。包含最初的,针对特征的提问。 中间节点:既有进边也有出边,进

    2023年04月18日
    浏览(23)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包