基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

这篇具有很好参考价值的文章主要介绍了基于spss的多元统计分析 之 聚类分析+判别分析(3/8)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

实验目的:

1. 掌握多元数据的相关性、正态性、可视化表征的基本原理;

2.熟悉掌握SPSS软件/R软件的基本用法和基本操作;

3.利用实验指导中及软件中内置的实例数据,上机熟悉相关性检验+正态性检验+可视化数据方法。

实验内容:

1.实验数据为女性汗液+ 32名学生核心课程成绩+R中iris数据+USairpolution;

2.分析变量之间的相关性,数据的正态性检验方法,解释结果;

3.利用SPSS或者R软件绘制均值条图、线图(带误差线)、箱式图(带误差线)、星象图、脸谱图等。

实验前预习:

1.变量之间的相关性基本原理为,软件操作步骤;

2.数据正态性检验基本方法,操作步骤;

3.数据可视化方法操作步骤或者操作函数等。

程序测试、运行结果及分析:

相关性

  1. 两个变量的相关性:

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“相关”à 选择“双变量” à 拖动算法和数分3至变量框 à 勾选“皮尔逊”和“双尾”(双尾表示两边进行显著性检验) à 点击确定

运行结果:

相关性

算法

数分3

算法

皮尔逊相关性

1

.453**

Sig.(双尾)

.009

个案数

32

32

数分3

皮尔逊相关性

.453**

1

Sig.(双尾)

.009

个案数

32

32

结果分析:

由结果显示算法和数分3的皮尔逊相关系数为0.453介于0.4和0.6之间,所以相关程度为中等,sig(双尾)为0.009,也就是在0.01级别p值为0.009小于0.05,所以显著相关性。

  1. 偏相关:

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“相关” à 选择“偏相关” à 拖动高代1和数分1至变量框 à 拖动数分1至控制框 à 点击“选项”勾选“零阶相关性” à 勾选 “双尾”(双尾表示两边进行显著性检验) à 点击”继续”和“确定”

运行结果:

相关性

控制变量

高代1

高代2

数分1

- 无

高代1

相关性

1.000

.576

.743

显著性(双尾)

.

.001

.000

自由度

0

30

30

高代2

相关性

.576

1.000

.731

显著性(双尾)

.001

.

.000

自由度

30

0

30

数分1

相关性

.743

.731

1.000

显著性(双尾)

.000

.000

.

自由度

30

30

0

数分1

高代1

相关性

1.000

.072

显著性(双尾)

.

.699

自由度

0

29

高代2

相关性

.072

1.000

显著性(双尾)

.699

.

自由度

29

0

结果分析:

在没有控制变量(数分1)的影响下,高代1和高代2的相关系数为0.576,相关程度为中等,p值为0.001小于0.05具有显著相关性。在有控制变量(数分1)的影响下高代1和高代2相关系数为0.072,相关程度极低,p值为0.669大于0.05说明没有显著相关性。

数据正态性检验基本方法

      方法一:Q-Q图和P-P图检验:

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“描述统计” à 选择“Q-Q图”或者“p-p图” à 拖动c语言至变量框 à 检验分布选择“正态” à 点击“确定”


运行结果及分析:

基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

Q-Q图就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图其斜率为标准差,截距为均值,由图形可知,在60到70之间的数据绝大多数都偏离正态分布,所以c语言不符合正态分布。

p-p图就是由标准正态分布的累积比例为横坐标,样本值的累积比例为纵坐标的散点图,同Q-Q图的分析,60到70的样本数据偏离正态分布的标准值,所以我们认为c语言不服从正态分布。

 

基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

c语言的去趋势正态Q-Q图用于表示各个数据的残差,由上图可知,在70到80之间的数据残差的绝对值均比其他数据小,如果将70到80的数据拿出检验其正态性,一定比剩余数据好。但此样本的残差绝对值绝大数大于0.05,所以我们认为c语言不符合正态分布。

由图可知0.2到0.4之间的数据与标准线的距离较大并且大于0.05,表明样本数据的离散程度在累计比例0.2到0.4的区间最大,也就成绩在60到70之间的数据离散程度最大,所以我们认为c语言不服从正态分布

  1. 方法二: 峰度和偏度:

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“描述统计” à 选择“描述” à 拖动c语言至变量框 à 点击“选项”à 勾选“峰度”和“偏度”à 点击“确定”

运行结果:

描述统计

N

最小值

最大值

均值

标准偏差

偏度

峰度

统计

统计

统计

统计

统计

统计

标准 错误

统计

标准 错误

c语言

32

60

90

71.19

8.731

.500

.414

-.470

.809

有效个案数

32

结果分析:

c语言的偏度为0.500,说明该数据为正偏态,表示数据左端有较多的极端值,数据均值左侧的离散程度强。也就时上面所分析的60到70之间的数据离散程度大。峰度为-0.470,而完全服从正态分布的数据的峰度值时3。无论偏度和峰度都偏离标准的正态分布过多,所以c语言不符合正态分布。

  1. 方法三: 正态曲线直方图

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“描述统计” à 选择“频率” à 拖动c语言至变量框 à 点击“选项”à 点击“图表”à 勾选“直在直方图中显示正态曲线” à 点击“继续”和“确定”

运行结果:

基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

结果分析:

由图可知,直方图的左边由许多极端值,所以c语言数据不符合正态分布。

  1. 方法四:K-S正态检验:。

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“非参数检验” à 选择“旧对话框” à 点击“单样本K-S” à 拖动数分1至变量框 à 点击“选项” à 勾选“描述”和“四分位数” à 点击“继续”和“确定”

运行结果:

单样本柯尔莫戈洛夫-斯米诺夫检验

数分1

个案数

32

正态参数a,b

平均值

70.0000

标准 偏差

9.94825

最极端差值

绝对

.219

.219

-.157

检验统计

.219

渐近显著性(双尾)

.000c

结果分析:

表格中渐进显著性(双尾)为0小于0.05,则拒绝原假设(服从正态分布),认为数分1的数据不服从正态分布。

  1. 利用SPSS绘制均值条图、线图(带误差线)、箱式图(带误差线)、星象图、脸谱图等。(均值条图在正态检验部分已经画出,这里省略)
  1. 线图(带误差线)

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“图形”à 点击“图表构建器” à 在图库栏点击“折线图”à 双击第一个简单线图à 拖动花瓣长至y轴,不同种类的分类拖动至x轴à 在元素属性框点击“折线图” à 在统计框选择“平均值”à勾选下方“显示误差条形图”à在插值框类型选择为“样条”à点击“确定”

运行结果:

基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

结果分析:

由图形可知第3类品种的花瓣普遍比其他两类的长,花瓣最短的是第1类花的花瓣。

  1. 箱式图

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“图形”à 点击“图表构建器” à 在图库栏点击“箱图” à 双击最后一个1-D框图形式的箱图à 拖动c语言至右侧x轴 à 点击“确定”

运行结果:

基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

结果分析:

为了方便分析,我把c语言的第一个数据改成了1,由图形显示可以看出出现了一个下标为1的星形点,说明了这个第一个数据偏离总数据,视为异常值,分析的时候可以剔除。

  1. 星象图

操作步骤:

打开r软件,在输入框输入install.packages("caret"),按回车出现对话框,选择china(beijing 2)[https],点击确定,等待加载。分别录入加载包library(caret),library(ggplot2),library(lattice),install.packages("aplpack"),library(aplpack)在最后一行输入 data <- read.table("clipboard",header=T),不能按回车,在excel复制核心课程数据,再按回车,然后在r输入框内输入data点击回车,出现数据,输入stars(data),出现星象图

运行结果:

基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

  1. 脸谱图

R语言实现

操作步骤:

打开r软件,在输入框输入install.packages("caret"),按回车出现对话框,选择china(beijing 2)[https],点击确定,等待加载。分别录入加载包library(caret),library(ggplot2),library(lattice),install.packages("aplpack"),library(aplpack)在最后一行输入 data <- read.table("clipboard",header=T),不能按回车,在excel复制32名学生核心课程成绩数据,再按回车,然后在r输入框内输入data点击回车,出现数据,输入faces(data),出现脸谱图。

基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

结果分析:

1到32的序号分别代表2018级32名学生核心课程成绩的脸谱图,脸谱图是用来比较数据的,用于发现不同年级学生学习成绩数据的共性并进行分类。

讨论:

1.变量之间的相关性基本原理

变量之间的相关性基本原理:研究两个变量之间的相关性原理,也就是研究当一个变量发生变化时,另外一个变量如何变化,所以只需要通过计算相关系数来做定量考察,相关系数R值越大说明两个变量越相关,反之相关程度越低,算出的p值如果大于0.05那么就接受原假设,反之拒绝原假设 有显著相关性。对于偏相关则指的是两变量同时与第三个变量相关时,把第三个变量的影响剔除,分析另外两个变量的相关过程,其基本原理与两变量相关性分析类似

2.数据正态性检验基本方法

方法一:正态曲线直方图。在分析选项卡下,选择描述--频率,在频率页面,在绘图选项选择带正态曲线的直方图。绘制带正态曲线的直方图通过对比直方图与正态曲线的拟合程度,判定数据序列的分布形态是否接近正态分布。

方法二:Q-Q图和P-P图。在分析选项卡下,选择“分析”-“描述统计”-“P-P图或Q-Q图”。P-P图与Q-Q图的判断原理相同,区别在于横纵坐标的单位不同,P是累积比例,Q是分位数。散点能够与斜线很好的吻合,则说明该数据序列符合正态分布,明显点分散在两侧,没有集中在一条直线上,不成正态分布。
    方法三:K-S正态检验。这是在不确定数据分布是否成正态性分布经常用的检验方法,在分析选项卡下,选择:分析-非参数检验-旧对话框-样本K-S。用K-S作正态性检验则是通过对比数据序列与标准正态分布有没有显著性差异来判断序列是否满足正态分布。通过比较检测Р值,P>0.05,说明与正态性没有显著差异,成正态分布。

方法四:峰度和偏度检验。偏度大于0表示正偏态,表示数据左端有较多的极端值,数据均值左侧的离散程度强。同理偏度小于0表示负偏态,表示数据右端有较多的极端值,数据均值右侧的离散程度强。偏度绝对值越大表示数据分布偏斜程度越大,所以偏度越接近于0其正态性越好,在用峰度和偏度对数据进行正态性检验时,除了要观察偏度是否在0附近,峰度是否在3附近之外,还需要满足以下要求:可以分别计算偏度和峰度的Z评分(Z-score),偏度Z-score = 偏度值/偏度标准差,以c语言的数据为例,其偏度Z-score=0.5/0.414=1.207,峰度Z-score = 峰度值/峰度值的标准差,同样以c语言的数据为例,峰度Z-score=-0.47/0.809=-0.58。

  1. 数据可视化各种图图形的含义

对于脸谱图:按照切尔诺夫于1973年提出的画法,脸谱图采用15个指标,各指标代表的面部特征为:1表示脸的范围,2表示脸的形状,3表示鼻子的长度,4表示嘴的位置,5表示笑容曲线,6表示嘴的宽度,7~11分别表示眼睛的位置、分开程度、角度、形状和宽度;12表示瞳孔的位置;,13~15分别表示眼眉的位置、角度和宽度。

对于箱线图:如果在箱图的上方或者下方出现点,说明该点为异常值,研究数据的时候可以剔除。(其他图较简单,在结果分析里已经详细说明,这里省略)文章来源地址https://www.toymoban.com/news/detail-494694.html

到了这里,关于基于spss的多元统计分析 之 聚类分析+判别分析(3/8)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 标准正态变换(SPSS统计描述分析)

    题目:对 CCSS_Sample中的总指数、现状指数和预期指数进行标准正态变换,对变换后的变量进行统计描述。 数据文件:CCSS_Sample.csv 本篇文章小玥各位学习SPSS软件里面的 标 准正 态变 换!!! 目录  一、前言 二、题目分析 1、分析: 三、解题步骤 1、先对总指数、现状指数和

    2024年02月05日
    浏览(47)
  • 多元统计分析-主成分分析的原理与实现

    目录 一、什么是主成分分析? 二、主成分分析的原理 三、主成分分析的应用 四、使用sklearn实现主成分分析 五、总结 主成分分析(Principal Component Analysis,PCA)是一种常用的多元统计分析方法,它是一种线性变换技术,可以将高维数据转换为低维数据,同时保留数据的主要

    2024年02月03日
    浏览(40)
  • 【统计分析数学模型】聚类分析

    聚类分析(Cluster Analysis) 是研究“物以类聚”的一种方法,有时称为群分析、点群分析、簇类分析等。 聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。聚类分析是应用最广泛的分类技术,它把性质相近的个体归为一类,使同一类的个体具有高度

    2024年02月22日
    浏览(39)
  • R语言-多元统计学分析课程报告

    本文我们应用的软件为R语言,进行多元统计分析,所用的数据集为鸢尾花数据集;我们进行了Bayes判别、Fisher判别、系统聚类法、k-均值聚类和主成分分析。 我们首先画出变量之间的散点图: 紧接着我们运用Fisher判别: 可以得到结果为 :    紧接着应用Bayes判别,将数据分

    2024年02月12日
    浏览(39)
  • GPT与R语言回归模型(lm&glm)、混合效应模型、多元统计分析

    自2022年GPT(Generative Pre-trained Transformer)大语言模型的发布以来,它以其卓越的自然语言处理能力和广泛的应用潜力,在学术界和工业界掀起了一场革命。在短短一年多的时间里,GPT已经在多个领域展现出其独特的价值,特别是在数据统计分析领域。GPT的介入为数据处理、模

    2024年04月10日
    浏览(41)
  • 【案例实践】R语言多元数据统计分析在生态环境中的实践应用

    查看原文R语言生物群落分析绘图、多元统计分析、CMIP6、遥感碳储量、GEE林业、InVEST等 生态环境领域研究中常常面对众多的不同类型的数据或变量,当要同时分析多个因变量(y)时需要用到多元统计分析(multivariate statistical analysis)。多元统计分析内容丰富,应用广泛,是

    2023年04月12日
    浏览(48)
  • 【多元统计分析及R语言建模】【详解】因子分析法综合应用(教材P271页表9-4): 1. 计算样本相关系数矩阵R、特征根、特征向量。2. 确定因子的个数,并解释这些因子的含义。计算各因子得分并解释

    因子分析法综合应用(教材P271页表9-4): 计算样本相关系数矩阵R、特征根、特征向量。 引入nFactors包,使用eigen()函数求特征值与特征向量。 library(nFactors) ev - eigen(cor(mydata)) # 获取特征值 print(ev) 确定因子的个数,并解释这些因子的含义。计算各因子得分,画出前两个因子的

    2024年02月05日
    浏览(52)
  • 基于SPSS的聚类分析原理概述

    在声音样本数目比较多的情况下,直接进行成对比较法,工作量非常大,且评价者容易疲劳,在很大程度上影响评价结果的一致性和准确性。对于这种情况,采用聚类分析,从 30 个声音样本中选择有代表性的样本进行主观评价试验,大大降低了主观评价试验的工作量 1 。 [

    2024年02月06日
    浏览(45)
  • Wireshark 基于生成的IP统计分析

    在网络分析过程,往往会使用到对某个地址的详细内容进行分析和统计,这个要求使用显示过滤器配合会话及终端分析功能还不足以满足。 1、怎样打开IP统计 基于IP统计分别针对IPv4和IPv6,这里只介绍IPv4的统计功能。点击菜单统计——IPv4 Statistics下拉菜单,能看到Wireshark自带

    2024年04月16日
    浏览(28)
  • 基于Kylin的数据统计分析平台架构设计与实现

    目录 1 前言 2 关键模块 2.1 数据仓库的搭建 2.2 ETL 2.3 Kylin数据分析系统 2.4 数据可视化系统 2.5 报表模块 3 最终成果 4 遇到问题             这是在公司云平台部门做的一个项目,总体包括云上数据统计平台的架构设计和组件开发,在此只做技术分享,不涉及其他用途。该

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包