参考文献:何晓群.《多元统计分析》中国人民大学出版社第五版(82-105)
数据获取:关注公众号:321红绿灯
回复:4.6
公众号中还有更多的理论知识、个人笔记整理和资源放送,欢迎阅读哦~
实验目的:
通过判别分析,对数据中的变量的各类特征值判别确定其类型属性。
实验内容:
为研究某地区人口死亡状况,已按某种方法将15个一直样品分为3类,指标及原始数据如下,试建立判别函数并判定另外4个待判样品属于哪类。(书本P104.6)
x1:0岁组死亡概率
x2:1岁组死亡概率
x3:10岁组死亡概率
x4:55岁组死亡概率
x5:80岁组死亡概率
x6:平均预期寿命
一、样本的描述性统计分析
通过样本的描述统计可以直观得到共19个样本,计算各个变量样本的最大值、最小值、均值、标准偏差和方差。观察样本的原始状态。
二、判别分析
1.判别分析做法
分组变量范围需要调整为最小值1,最大值3,在定义范围处调整
使用步进法这里我猜是使用逐步判别法的意思(?)
判别结果分析:
缺失或超出范围组代码4个数据,即为未分组的4个数据。
输出组别统计,再次对各个组别中的变量进行平均值和标准差的计算。对各组变量进行了描述性统计分析。对统计数据的各个属性进行平均值和标准差的计算,得到同一组别之间的样本离散程度。同时反映样本量中的有效样本量和变量缺失的情况,这里可以直观看到没有变量缺失的情况存在。
汇聚组内矩阵表中是各个变量之间的协方差值,表示了变量之间的相关程度,协方差越大,相关程度越大。由图中可以看到,x1与x5的相关性是最大的,其次是x1和x2,第三是x1和x4的相关性。即代表了,x1与其他各变量都具有较强的正相关性,而x6与其他各个变量都有较强的负相关性。对比各个变量的实际含义,这是符合实际意义的。
组平均值同等检验是检验6组变量中的均值是否相等的假设检验,P值与经典统计中假设检验的结果原理类似,因此,在0.05的显著性水平下,只有x5的均值和其他有显著性差异,其他变量的均值互相之间并没有显著性差异。
由于样本量的分布问题,反映各组协方差矩阵是否相等的BOX’M检验无法进行。
典则判别函数的输出,反映了特征值、方差百分比和累计百分比以及典型相关性。第一判别函数解释了99.3%的方差,第二判别函数仅仅解释了0.7%的方差,两个判别函数解释了全部的方差。
威尔克lambda表对比了两个判别函数的显著性,得到判别函数1在0.05的显著水平上是显著的,判别函数2则不显著。因此后面只对判别函数1展开分析。
标准化典则判别函数系数表给出了两个判别函数表达式的各项系数,因此我们可以得到两个标准化判别函数的方程:
(这里弄了半天都转不成可以插进来csdn的格式,所以就只能截图了、、我再研究研究哎)
这是未标准化的方程系数,因此得到的方程应为未标准化的判别函数表达式和标准化的同理。
结构矩阵,即为判别载荷,标准化系数即为判别权重,由判别权重和判别载荷可以得到哪些解释变量对判别函数的影响程度较大。在判别函数1中,贡献度较大的变量是x1、x5和x4。
组质心处函数表体现了三个组别的组中心点坐标,判别函数y=1时的重心为(-3.238,0.895),y=2时的重心是(10.576,-0.205),y=3时的重心是(-7.337,-0.690)。
对分类统计结果进行分析
分类处理摘要概括了分类过程,说明了19个样本数据都参与了此次分类。
各组的先验概率可以在分类操作时进行自定义,在分类的选择上前文定义的是所有概率相同,因此每个先验概率是相同的。
分类函数系数表的系数是费歇判别函数的系数
y=1时,费歇判别函数表达式为:
文章来源:https://www.toymoban.com/news/detail-440755.html
y=2、3时同理
通过典则判别函数生成的图形,可以看到未分类个案通过判别后,被分为1,2,3三个组别中。
通过分类结果更是清晰可见,未分类个案中一个被分类为第一组,一个被分类为第二组,两个被分类为第三组。分类准确率为100%。文章来源地址https://www.toymoban.com/news/detail-440755.html
到了这里,关于【多元统计分析】判别分析——SPSS上机实验的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!