【机器学习笔记】12 聚类

这篇具有很好参考价值的文章主要介绍了【机器学习笔记】12 聚类。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

无监督学习概述

  • 监督学习
    在一个典型的监督学习中,训练集有标签𝑦 ,我们的目标是找到能够区分正样本和负样本的决策边界,需要据此拟合一个假设函数。
  • 无监督学习
    与此不同的是,在无监督学习中,我们的数据没有附带任何标签𝑦,无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。

主要的无监督学习方法

  • 聚类(Clustering)
    如何将教室里的学生按爱好、身高划分为5类?
  • 降维( Dimensionality Reduction )
    如何将将原高维空间中的数据点映射到低维度的空间中?
  • 关联规则( Association Rules)
    很多买尿布的男顾客,同时买了啤酒,可以从中找出什么规律来提
    高超市销售额?
  • 推荐系统( Recommender systems)
    很多客户经常上网购物,根据他们的浏览商品的习惯,给他们推荐什么商品呢?

聚类

  • 主要算法
    K-means、密度聚类、层次聚类

  • 主要应用
    市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测……

  • 案例
    1.医疗
    医生可以使用聚类算法来发现疾病。以甲状腺疾病为例。当我们对包含甲状腺疾病和非甲状腺疾病的数据集应用无监督学习时,可以使用聚类算法来识别甲状腺疾病数据集。
    2.市场细分
    为了吸引更多的客户,每家公司都在开发易于使用的功能和技术。为了了解客户,公司可以使用聚类。聚类将帮助公司了解用户群,然后对每个客户进行归类。这样,公司就可以了解客户,发现客户之间的相似之处,并对他们进行分组。
    3.金融业
    银行可以观察到可能的金融欺诈行为,就此向客户发出警告。在聚类算法的帮助下,保险公司可以发现某些客户的欺诈行为,并调查类似客户的保单是否有欺诈行为。
    4.搜索引擎
    百度是人们使用的搜索引擎之一。举个例子,当我们搜索一些信息,如在某地的超市,百度将为我们提供不同的超市的选择。这是聚类的结果,提供给你的结果就是聚类的相似结果。
    5.社交网络
    比如在社交网络的分析上。已知你朋友的信息,比如经常发email的联系人,或是你的微博好友、微信的朋友圈,我们可运用聚类方法自动地给朋友进行分组,做到让每组里的人们彼此都熟识。

K-means聚类

聚类的背景知识–基本思想

图中的数据可以分成三个分开的点集(称为),一个能够分出这些点集的算法,就被称为聚类算法
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

K-均值算法(K-means)算法概述

K-means算法是一种无监督学习方法,是最普及的聚类算法,算法使用一个没有标签的数据集,然后将数据聚类成不同的组。
K-means算法具有一个迭代过程,在这个过程中,数据集被分组成若干个预定义的不重叠的聚类或子组,使簇的内部点尽可能相似,同时试图保持簇在不同的空间,它将数据点分配给簇,以便簇的质心和数据点之间的平方距离之和最小,在这个位置,簇的质心是簇中数据点的算术平均值。

  • 闵可夫斯基距离(Minkowski distance)
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

𝑝取1或2时的闵氏距离是最为常用的 𝑝
𝑝 = 2即为欧氏距离
𝑝 = 1时则为曼哈顿距离
当𝑝取无穷时的极限情况下,可以得到切比雪夫距离
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

K-means算法流程

  1. 选择K个点作为初始质心。
  2. 将每个点指派到最近的质心,形成K个簇。
  3. 对于上一步聚类的结果,进行平均计算,得出该簇的新的聚类中心。
  4. 重复上述两步/直到迭代结束:质心不发生变化。
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
    首先,初始化称为簇质心的任意点。初始化时,必须注意簇的质心必须小于训练数据点的数目。因为该算法是一种迭代算法,接下来的两个步骤是迭代执行的。
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
    初始化后,遍历所有数据点,计算所有质心与数据点之间的距离。现在,这些簇将根据与质心的最小距离而形成。在本例中,数据分为3个簇(𝐾 = 3)。
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
    第三步:移动质心,因为上面步骤中形成的簇没有优化,所以需要形成优化的簇。为此,我们需要迭代地将质心移动到一个新位置。取一个簇的数据点,计算它们的平均值,然后将该簇的质心移动到这个新位置。对所有其他簇重复相同的步骤。
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
    现在,这个算法已经收敛,形成了清晰可见的不同簇。该算法可以根据簇在第一步中的初始化方式给出不同的结果。
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
  • K值的选择
    现在我们需要找到簇的数量。通常通过“肘部法则”进行计算。我们可能会得到一条类似于人的肘部的曲线。右图中,代价函数的值会迅速下降,在𝐾 = 3的时候达到一个肘点。在此之后,代价函数的值会就下降得非常慢,所以,我们选择𝐾 = 3。这个方法叫“肘部法则”。
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
    K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。
    为了解决这个问题,我们通常需要多次运行K-均值算法,每一次都重新进行随机初始化,最后再比较多次运行K-均值的结果,选择代价函数最小的结果。

K-means的优缺点

  • 优点
    原理比较简单,实现也是很容易,收敛速度快。
    聚类效果较优。
    算法的可解释度比较强。
    主要需要调参的参数仅仅是簇数K
  • 缺点
    需要预先指定簇的数量;
    如果有两个高度重叠的数据,那么它就不能被区分,也不能判断有两个簇;
    欧几里德距离可以不平等的权重因素,限制了能处理的数据变量的类型;
    有时随机选择质心并不能带来理想的结果;
    无法处理异常值和噪声数据;
    不适用于非线性数据集;
    对特征尺度敏感;
    如果遇到非常大的数据集,那么计算机可能会崩溃。

密度聚类-DBSCAN

与划分和层次聚类方法不同,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合‘’能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
密度:空间中任意一点的密度是以该点为圆心,以扫描半径构成的圆区域内包含的点数目

  • DBSCAN使用两个超参数:
    扫描半径 (eps)和最小包含点数(minPts)来获得簇的数量,而不是猜测簇的数目。
    ➢ 扫描半径 (eps) :
    用于定位点/检查任何点附近密度的距离度量,即扫描半径。
    ➢ 最小包含点数(minPts)
    聚集在一起的最小点数(阈值),该区域被认为是稠密的

  • DBSCAN算法将数据点分为三类:
    1.核心点:在半径Eps内含有超过MinPts数目的点。
    2.边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内的点。
    3.噪音点:既不是核心点也不是边界点的点
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

DBSCAN密度聚类的算法流程

1.将所有点标记为核心点、边界点或噪声点;
2. 如果选择的点是核心点,则找出所有从该点出发的密度可达对象形成簇;
3. 如果该点是非核心点,将其指派到一个与之关联的核心点的簇中;
4. 重复以上步骤,直到所点都被处理过

【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
对每个点计算其邻域Eps=3内的点的集合。
集合内点的个数超过MinPts=3的点为核心点。

【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
查看剩余点是否在核点的邻域内,若在,则为边界点,否则为噪声点。

【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
将距离不超过Eps=3的点相互连接,构成一个簇,核心点邻域内的点也会被加入到这个簇中。
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

层次聚类

层次聚类假设簇之间存在层次结构,将样本聚到层次化的簇中。
层次聚类又有聚合聚类(自下而上)、分裂聚类(自上而下)两种方法。
因为每个样本只属于一个簇,所以层次聚类属于硬聚类。

  • 背景知识:
    如果一个聚类方法假定一个样本只能属于一个簇,或簇的交集为空集,那么该方法称为硬聚类方法。如果一个样本可以属于多个簇,或簇的交集不为空集,那么该方法称为软聚类方法。
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

聚合聚类

开始将每个样本各自分到一个簇;
之后将相距最近的两簇合并,建立一个新的簇;
重复此操作直到满足停止条件;
得到层次化的类别。
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

分裂聚类

开始将所有样本分到一个簇;
之后将已有类中相距最远的样本分到两个新的簇;
重复此操作直到满足停止条件;
得到层次化的类别。
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

聚类的评价指标

(1) 均一性:𝑝
类似于精确率,一个簇中只包含一个类别的样本,则满足均一性。其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
(2) 完整性:𝑟
类似于召回率,同类别样本被归类到相同簇中,则满足完整性;(每个聚簇中正确分类的样本数占该类型的总样本数比例的和)
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

(3) V-measure:
均一性和完整性的加权平均( 𝛽 默认为1)
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

(4) 轮廓系数
样本𝑖的轮廓系数:
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
簇内不相似度:计算样本𝑖到同簇其它样本的平均距离为𝑎(𝑖),应尽可能小。
簇间不相似度:计算样本𝑖到其它簇𝐶𝑗的所有样本的平均距离𝑏𝑖𝑗,应尽可能大。
轮廓系数𝑠(𝑖)值越接近1表示样本𝑖聚类越合理,越接近-1,表示样本𝑖应该分类到另外的簇中,近似为0,表示样本𝑖应该在边界上;所有样本的𝑠(𝑖)的均值被成为聚类结果的轮廓系数。

  • 假设数据集被拆分为4个簇,样本𝑖对应的𝑎(𝑖)值就是所有𝐶1 中其他样本点与样本𝑖的距离平均值;样本对应的𝑏(𝑖)值分两步计算,首先计算该点分别到𝐶2、 𝐶3和𝐶4中样本点的平均距离,然后将三个平均值中的最小值作为𝑏(𝑖)的度量.
    【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类

(5).调整兰德系数(ARI, Adjusted Rnd Index
数据集𝑆共有𝑁个元素, 两个聚类结果分别是:
𝑋 = {𝑋1, 𝑋2, . . . , 𝑋𝑟}, 𝑌 = {𝑌1, 𝑌2, . . . , 𝑌𝑠}
𝑋和𝑌的元素个数为:
𝑎 = {𝑎1, 𝑎2, . . . , 𝑎𝑟}, 𝑏 = {𝑏1, 𝑏2, . . . , 𝑏𝑠}
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
【机器学习笔记】12 聚类,机器学习,机器学习,笔记,聚类
ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度文章来源地址https://www.toymoban.com/news/detail-833661.html

到了这里,关于【机器学习笔记】12 聚类的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习】聚类算法(二)

    五、基于密度的算法 5.1 DBSCAN 算法 输出: 5.2 OPTICS算法 OPTICS 聚类算法演示 这段代码的目的是使用 OPTICS 算法对六个簇的数据进行聚类分析,并与不同的 epsilon 值的 DBSCAN 聚类进行比较。代码的主要步骤如下: 导入所需的模块,包括 matplotlib 用于绘图,numpy 用于数值计算,

    2024年02月02日
    浏览(42)
  • 【机器学习】聚类算法(一)

    聚类算法是一种无监督的机器学习方法,它可以将数据集中的对象分成若干个组,使得同一组内的对象相似度高,而不同组内的对象相似度低。聚类算法有很多种,例如 K-均值,层次聚类,密度聚类,谱聚类 等。聚类算法可以应用于很多领域,例如数据挖掘,图像分割,社交

    2024年01月25日
    浏览(37)
  • 机器学习——聚类算法一

    机器学习——聚类算法一 在机器学习中,有多种聚类算法可以用于将数据集中的样本 按照相似性进行分组 。本文将介绍一些常见的聚类算法: K-Means聚类 层次聚类 DBSCAN算法 K-means 是一种迭代算法,它将数据集按照距离 划分为 K 个簇 (其中K是用户预先指定的簇的数量),每

    2024年02月10日
    浏览(42)
  • 机器学习——聚类问题

    📕参考:西瓜书+ysu老师课件+博客(3)聚类算法之DBSCAN算法 - 知乎 (zhihu.com) 目录 1.聚类任务  2.聚类算法的实现 2.1 划分式聚类方法 2.1.1 k均值算法 k均值算法基本原理: k均值算法算法流程: 2.2 基于密度聚类方法 2.2.1 DBSCAN  DBSCAN的基本概念  DBSCAN算法定义 2.3 基于层次聚类

    2024年02月20日
    浏览(32)
  • 聚类 kmeans | 机器学习

    是一种无监督学习算法,其主要目的是 将数据点分为k个簇 ,距离近的样本具有更高的相似度,距离近的划分为一个簇,一共划分k个簇,**让簇内距离小,簇间距离大。**距离是样本点到之心的距离。所有样本点到质心距离之和最小,就认为样本越相似。 聚类和分类区别 优化

    2023年04月09日
    浏览(37)
  • 机器学习 | 聚类问题

    这里我们用鸢尾花数据及进行聚类分析,这种含有标签数据的数据集,只要不调用标签数据,就可以为无监督学习所采用。鸢尾花数据具有4个特征,为了可视化这里选取前两个特征进行聚类分析并指定聚为3类。  尽管都属于超参数,需要人为设置,但K均值聚类中的K与k近邻

    2024年02月08日
    浏览(39)
  • 机器学习-10 聚类算法

    机器学习有两种学习类型: 有监督学习:即数据点有已知的结果。 无监督学习:即数据点没有已知的结果,利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。 注: ①有监督学习和无监督学习的最大区别在于数据是否有标签。 ②无监督学习最常

    2024年02月04日
    浏览(38)
  • 人工智能|机器学习——DBSCAN聚类算法(密度聚类)

    DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,簇集的划定完全由样本的聚集程度决定。聚集程度不足以构成簇落的那些样本视为噪声点,因此DBSCAN聚类的方式也可以用于异常点的检测。 算法的关键在于样本的‘聚集程度’,这个程度的刻画

    2024年04月10日
    浏览(78)
  • 机器学习常识 3: 分类、回归、聚类

    摘要 : 本贴描述分类、回归、聚类问题的基本概念. 机器学习常识 2: 数据类型从输入数据的角度来进行讨论, 这里从输出数据, 或者目标的角度来讨论. 分类 是指将一个样本预测为给定类别之一. 也称为该样本打标签. 例 1: 如果我去向那个女生表白, 她会同意吗? (Y/N) 由于可能的

    2024年02月06日
    浏览(39)
  • 机器学习系列——(十九)层次聚类

    在机器学习和数据挖掘领域,聚类算法是一种重要的无监督学习方法,它试图将数据集中的样本分组,使得同一组内的样本相似度高,不同组间的样本相似度低。层次聚类(Hierarchical Clustering)是聚类算法中的一种,以其独特的层次分解方式,在各种应用场景中得到广泛应用

    2024年02月19日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包