数学建模学习笔记(14)聚类模型

这篇具有很好参考价值的文章主要介绍了数学建模学习笔记(14)聚类模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

聚类问题概述:把样本划分为由相似的对象组成的多个类的过程。

K均值聚类算法和K均值++聚类算法

K均值聚类算法流程

  1. 指定需要划分的簇的个数K。
  2. 随机选择K个数据对象作为初始的聚类中心(不一定是样本点)。
  3. 计算其他的各个数据对象到这K个聚类中心的距离,把数据对象划分到距离它最近的它最近的中心所在的簇中;
  4. 调整新类并更新该簇的聚类中心。
  5. 循环过程三四,直到聚类中心收敛(不变)或达到最大迭代次数。

K均值算法的优点:算法简单且快速,对于大数据集该算法的效率是很高的。

K均值算法的缺点

  • 必须由使用者事先给出需要生产的簇的个数K;
  • 对初值非常敏感;
  • 对于孤立点数据敏感。

K均值++算法概述:K均值++算法是K均值算法的改进,只修改了初始化聚类中心的过程,可以避免K均值算法的后面两个缺点。

K均值++算法选择初始聚类中心的基本原则:初始聚类中心之间的相互距离要尽可能的远。

K均值++算法初始化聚类中心的过程

  1. 随机选择一个样本作为第一个聚类中心;
  2. 计算每个样本与当前已有聚类中心的最短距离,这个值越大,表示被选为下一个聚类中心的概率越大,最后用轮盘法选出下一个聚类中心。
  3. 重复上一个步骤直到选出K个聚类中心。

SPSS使用K均值++算法进行聚类的步骤

1.打开SPSS软件并导入数据,依次点击:分析→分类→K均值聚类

数学建模学习笔记(14)聚类模型

2.添加自变量和聚类的标签变量,并指定聚类生成的簇的个数(默认为2)

数学建模学习笔记(14)聚类模型

3.在“迭代”按钮菜单中可以调整最大迭代次数(迭代次数过少可能会影响聚类结果)

数学建模学习笔记(14)聚类模型

4.在“保存”按钮菜单中同时勾选聚类成员和与聚类中心的距离。

数学建模学习笔记(14)聚类模型

5.在“选项”按钮菜单中勾选初始聚类中心和每个个案的聚类信息。

数学建模学习笔记(14)聚类模型

SPSS进行K均值++聚类的结果分析

  • 初始聚类中心

数学建模学习笔记(14)聚类模型

  • 最终聚类中心

数学建模学习笔记(14)聚类模型

  • 最终聚类中心之间的距离

数学建模学习笔记(14)聚类模型

  • 每个聚类中的个案数目

数学建模学习笔记(14)聚类模型

  • 聚类结果

数学建模学习笔记(14)聚类模型

K均值聚类的簇个数如何确定:通常都会多取几个K值,看一看分为几个簇会更好解释。

K均值算法注意事项:K均值聚类使用之前需要对数据进行去量纲化处理,常使用标准化。

使用SPSS进行数据标准化的方法

1.依次点击:分析→描述统计→描述

数学建模学习笔记(14)聚类模型

2.选择需要进行标准化的属性,并勾选“将标准化值另存为变量”。

数学建模学习笔记(14)聚类模型

系统聚类算法(层次聚类)

样本间距离的常用类型

  • 曼哈顿距离(绝对值距离);
  • 欧氏距离;
  • 闵可夫斯基距离(曼哈顿距离和欧氏距离的推广);
  • 切比雪夫距离;
  • 马氏距离。

系统聚类法的算法流程

  1. 写出样本之间的距离矩阵。
  2. 将每一个样本视为一个类,将两两之间距离最小的两个样本聚成一类,更新这个类的聚类中心。并得到新的距离矩阵。
  3. 重复上述过程,直到最后只剩下一个簇。

谱系图:谱系图是系统聚类的结果,可以根据谱系图选择最合适的聚类个数。

注意事项:使用系统聚类之前也需要对数据进行去量纲化处理。

使用SPSS进行系统聚类的步骤

1.打开SPSS软件并导入数据,依次点击:分析→分类→系统聚类

数学建模学习笔记(14)聚类模型

2.导入自变量和分类依据变量。

数学建模学习笔记(14)聚类模型

3.在“图”按钮菜单中勾选谱系图。(冰柱图使用较少)

数学建模学习笔记(14)聚类模型

4.在“方法”按钮菜单中可以选择类与类之间的距离计算方式和点与点之间的距离计算方式。同时,如果原始数据量纲不统一,可以在左下方的转换值处对数据进行标准化。

数学建模学习笔记(14)聚类模型
5.通过“肘部法则”等方式确定聚类个数后,重新进行一次系统聚类过程。打开系统聚类窗体后打开“保存”按钮菜单,选择单个解,并输入解的个数。

数学建模学习笔记(14)聚类模型

SPSS进行系统聚类的结果

  • 谱系图
    数学建模学习笔记(14)聚类模型
  • 集中计划表:表格中的系数列经过倒序后可以用于绘制聚合系数折线图。
    数学建模学习笔记(14)聚类模型

聚合系数:所有样本点离各自的聚类中心距离的平方和,也称为聚合系数,聚类个数越多则聚合系数越小。

聚合系数折线图:聚合系数随着聚类个数变化情况的曲线图。

选择最佳聚类个数(肘部法则):选择在聚合系数折线图中下降趋势开始变缓且方便解释的点。

SPSS进行聚类结果图的绘制步骤

  • 注意事项:只有指标为二维或三维才能绘图,否则无法绘图,或者需要使用降维算法后再绘图。

1.依次点击:图形→图表构造器

数学建模学习笔记(14)聚类模型

2.在窗口下方选择 散点图与点图,并根据指标个数是两个还是三个选择第三种或第五种图形样式。

数学建模学习笔记(14)聚类模型

3.选择适当的散点图拖动到左上方,并设置横纵坐标。

数学建模学习笔记(14)聚类模型

4.在“设置颜色”处选择类别划分的依据为SPSS进行聚类的结果列。

数学建模学习笔记(14)聚类模型

5.在组/点ID标签下,勾选点ID标签。并用拖动的方式设置点标签变量。

数学建模学习笔记(14)聚类模型

6.双击进入绘图结果,可以修改坐标点的填充色,修改背景颜色,修改图例名称等。

数学建模学习笔记(14)聚类模型
数学建模学习笔记(14)聚类模型

DBSCAN聚类算法

DBSCAN算法特点

  • 聚类前不需要指定簇的个数,生成的簇的个数与数据本身的特点有关。
  • 可以在具有噪声的空间数据块中发现任意形状的簇,可以将密度足够大的相邻区域连接,能有效处理异常数据。

DBSCAN算法原理:要求聚类空间中的一定区域所包含对象的数目不小于某个给定的阈值。

DBSCAN算法中的三类数据点

  • 核心点:在半径内含有不少于指定阈值个数的其他点的点。
  • 边界点:不是核心点,但是在核心点的邻域内;
  • 噪音点:不是核心点且不是边界点的点。

DBSCAN算法优点

  • 可以处理任意形状和大小的簇;
  • 可以在聚类的过程中发现异常点;
  • 不需要指定簇的个数。

DBSCAN算法缺点文章来源地址https://www.toymoban.com/news/detail-465003.html

  • 对输入的参数非常敏感,确定参数困难;
  • 当聚类的密度不均匀时聚类效果差;
  • 当数据量大时,计算复杂度会非常高。

到了这里,关于数学建模学习笔记(14)聚类模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数学建模笔记(四):初等模型

    研究对象的机理比较简单,一般用静态、线性、确定性模型就能达到建模目的时,我们基本上可以用初等数学的方法来构造和求解模型。 如果对于某个实际问题,采用初等方法和高级方法建立的两个模型的应用效果相差无几时,,初等方法更受欢迎。 (1)热量传播只有传导

    2024年02月08日
    浏览(50)
  • 数学建模笔记(十二):概率模型

    从挂钩考虑 m个挂钩,n位工人 s:一周期内运走的产品数 n:所有工人在周期时间内生产总数 D:传送带效率 p:每只挂钩非空概率 q:每只挂钩为空概率,p+q=1 r:挂钩没有被某位工人触到的概率 D = s n = m p n = m ( 1 − q ) n = m ( 1 − ( r n ) ) n = m ( 1 − ( 1 − 1 m ) n ) n D=frac{s}{n}=

    2024年02月11日
    浏览(29)
  • 数学建模笔记(七):综合评价模型

    代表性,也就是这一指标的区分度,最具代表性就是对观测记录最具区分度 强调通行能力前后的变化 (一)指标一致化处理 (二)指标无量纲化处理 (三)定性指标量化 主观评价要量化,无法避免主观因素 f ( 3 ) f(3) f ( 3 ) 使用了两次,其实有四个式子,才解出了四个量

    2024年02月05日
    浏览(47)
  • 【数学建模】传染病模型笔记

    传染病的基本数学模型,研究传染病的传播速度、空间范围、传播途径、动力学机理等问题,以指导对传染病的有效地预防和控制。常见的传染病模型按照传染病类型分为 SI、SIR、SIRS、SEIR 模型等,按照传播机理又分为基于常微分方程、偏微分方程、网络动力学的不同类型。

    2024年04月10日
    浏览(31)
  • 2022 年第十二届 MathorCup 高校数学建模挑战赛D题思路(移动通信网络站址规划和区域聚类问题)

    目录 一、前言 二、问题背景 三、问题 四、解题思路 (1)针对问题1: (2)针对问题2: (3)针对问题3: 五、附上几个典型代码 (1)K-means算法 (2)遗传算法 (3)模拟退火算法         本文是对2022 年第十二届 MathorCup 高校数学建模挑战赛D题 移动通信网络站址规划

    2024年02月10日
    浏览(36)
  • 聚类分析数学建模

    什么是聚类分析 聚类是一个将数据集分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。 相似或不相似是基于数据描述属性的取值来确定的,通常利用各数据对象间的距离来进行表示。 聚类分析尤

    2024年02月07日
    浏览(26)
  • 数学建模之“聚类分析”原理详解

    1、聚类分析(又称群分析)是 研究样品(或指标)分类问题 的一种多元统计法。 2、主要方法:系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。这里主要介绍系统聚类法。根据事物本身的 特性研究个体分类 的方法, 原则是同一类中

    2024年02月12日
    浏览(23)
  • 数学建模软件及算法模型典型问题汇总

    一、 软件篇 编程 、MATLAB(物理建模)、python(数据分析)、R、其他(SPSS、Stata、Origin) 这里其实还有一个 Lingo 软件,不过我不推荐,有更好的替代方案,就是 Yalmip 工具箱+OPTI 工具箱+gurobi 求解器,Yalmip 是基于 matlab 的求解规划问题的高级建模语言,OPTI 提供众多 开源的规

    2024年04月17日
    浏览(37)
  • 2022 年 MathorCup 高校数学建模挑战赛——大数据竞赛(北京移动用户体验影响因素研究高级版代码(迁移学习+kmeas聚类强特征生成))

    赛道 B:北京移动用户体验影响因素研究 移动通信技术飞速发展,给人们带来了极大便利,人们也越来越离不开移动通信技术带来的各种便捷。随着网络不断的建设,网络覆盖越来越完善。各个移动运营商,越来越重视客户的网络使用体验,从而进一步提升网络服务质量。客

    2024年02月13日
    浏览(34)
  • 数学建模—聚类(matlab、spss)K均值 Q型聚类 R型聚类

    聚类三种方法: 【说明】 1、三种方式输入矩阵行为个案,列为变量 量纲不同需要预处理,一般使用zscore() zscore()标准化为对每一列操作减去均值除以标准差 2、k均值需要自己确定k取值。Q、R型聚类需要运行完以后再确定选择 matlab实现 SPSS实现(默认使用kmeans++) 数据预处理

    2024年02月12日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包