R语言-多元统计学分析课程报告

这篇具有很好参考价值的文章主要介绍了R语言-多元统计学分析课程报告。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文我们应用的软件为R语言,进行多元统计分析,所用的数据集为鸢尾花数据集;我们进行了Bayes判别、Fisher判别、系统聚类法、k-均值聚类和主成分分析。

# 导入鸢尾花数据集
data<-read.csv("E:/数学专业/多元统计学上机作业/iris.csv",header=T)
iris<-data[,-6]
# 分析变量之间的关系
data1<-as.matrix(data[,-c(5,6)]) # 去除最后一行符号行

我们首先画出变量之间的散点图:

# 画出变量之间的散点图
pairs(data1)

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

紧接着我们运用Fisher判别:

# Fisher判别
head(data)
by(data[,1:4],data[,5],colMeans) # 比较三类鸢尾花在4个变量上的均值
library(MASS)
z<-lda(species~.,data[,-6],prior=c(1,1,1)/3) # Fisher判定,设定三个类别的先验概率均为1/3
z
iris.lda.values<-predict(z) # 对现有样本进行预测
ldahist(data=iris.lda.values$x[,1],g=iris$species) # 输出在第一方向上,三个类别投影的直方图
ldahist(data=iris.lda.values$x[,2],g=iris$species)

可以得到结果为 :

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 紧接着应用Bayes判别,将数据分为训练集与测试集可以得到准确率吧达到97%。

在应用k-均值聚类,得到

# k-means聚类
install.packages("factoextra")
library(ggplot2)
library(factoextra)
library(cluster)
kmeans(data1[,1:4],3,nstart = 100) # 使用足够大的nstart,更容易得到对于最小的RSS值得模型

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

画出碎石图,可以知道我们将样本分为三类是最好的结果,这一结果也符合我们数据的本来特性。

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析 

最后用主成分分析可以得到 

r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 r语言课程设计报告,课程报告,实验报告,R语言,大数据,r语言,数据分析

 文章来源地址https://www.toymoban.com/news/detail-523656.html

# 主成分分析
PCA1<-princomp(data1,cor=T)
summary(PCA1,loadings=T)
samplePC<-round(PCA1$scores,3) # 取样本主成分得分后3位
round(predict(PCA1),3)
screeplot(PCA1,type='lines') # 画碎石图
plot(samplePC[,1],samplePC[,2],xlab='大小因子',ylab='体型因子')
text(samplePC[,1],samplePC[,2],1:30,adj=-0.5,cex=0.8)

到了这里,关于R语言-多元统计学分析课程报告的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 统计学-R语言-4.5

    本篇文章将继续对数据的类型做介绍,本片也是最后一个介绍数据的。 掌握描述多变量数据的分析方法:多维列联表、复式条形图、并列箱线图、点带图、多变量散点图(重叠散点图和矩阵式散点图)。 除了一维表、二维表,在实际中更多的是多维表,也就是多个变量交叉

    2024年02月01日
    浏览(36)
  • 统计学-R语言-5.2

    本篇文章将继续上篇的进行介绍。 大数定理大数定理”的另一种表达方式是“均值定理”,其含义是,随机变量X多个观察值的均值会随着观察值的增加越发趋近于总体的期望值,中心极限定理进一步告诉我们,均值服从期望为μ 的正态分布。在各种测量试验中,我们一般都

    2024年01月18日
    浏览(34)
  • 统计学-R语言-4.4

    上一篇文章介绍的是单变量数据,本篇将介绍双变量数据。 描述分类数据对分类数据的描述方法:二维表、复式条形图。 描述分类型数据对数值型数据的描述方法:箱线图。 描述数值型数据对数值型数据的描述方法:散点图、相关系数。 二维表(two-dimensional table)是两个变

    2024年01月19日
    浏览(31)
  • 统计学-R语言-6.1

    本篇文章将开始介绍参数估计的相关知识。 在调查居民对延迟退休态度的例子中,每个爱民区居民的态度称为(这个调查问题中的)个体(element, individual, unit),而所有爱民区居民对这个问题的观点称为总体(population) 总体是包含所有要研究的个体的集合。 由于包含的个体数有限

    2024年01月19日
    浏览(24)
  • 统计学-R语言-4.3

    本篇介绍的是数值型数据怎么进行数据可视化,本篇介绍的有直方图、茎叶图、箱线图。 直方图(Histogram)用于描述连续型变量的频数分布,实际应用中常用于考察变量的分布是否对称;是否服从某种分布类型,如正态分布 直方图以矩形的面积表示各组段的频数或频率, 各

    2024年01月16日
    浏览(32)
  • 统计学-R语言-4.6

    本篇文章是对数据可视化的补充文章。 跳转至该篇博客 跳转至该篇博客 在上面两篇博客中,对单变量和双变量的列联表进行了实例展示,下面是对三维列联表进行实例。 行变量为被调查者所属社区和性别,列变量为态度的三维列联表: 生成行变量为被调查者性别和态度,

    2024年01月18日
    浏览(31)
  • 统计学-R语言-6.4

    本片是对以上三个介绍的篇章的题进行介绍。 1、利用下面的信息,构建总体均值μ的置信区间: 总体均值的区间估计(大样本的估计) 利用下面的信息,构建总体均值μ的置信区间: (1)总体不服从正态分布,已知 ,n=35, =8900,s=510,置信水平为95% (2)总体不服从正态分布, 未

    2024年01月20日
    浏览(29)
  • 统计学-R语言-4.1

    安装完R软件之后就可以对其进行代码的编写了。 如果对数据分析有些特殊需要,已有的R包或函数不能满足,可以在R中编写自己的函数。函数的定义格式如下所示: 该式中, functionname是函数名称; function指明该对象为函数类型;a1,a2,为函数中涉及的参数; expression是函数

    2024年01月16日
    浏览(28)
  • 统计学-R语言-7.2

    本篇将继续上篇文章进行介绍。 小样本的检验 假定条件 小样本(n30) 总体服从正太分布 检验统计量的选择与总体方差是否已知有关 已知样本,均值经标准化后服从标准正态分布: 单样本t检验的效应量通常使用 Cohen的d统计量来度量,计算公式为: 该效应量表示样本均值与假

    2024年01月21日
    浏览(35)
  • 统计学-R语言-6.3

    本篇文章是最后一个介绍参数估计的章节。 研究一个总体时,推断总体方差 使用的统计量为样本方差 。研究两个总体时,所关注的参数是两个总体的方差比( ),用于推断的统计量则是两个样本的方差比( )。 估计一个总体的方差或标准差假定条件: 假设总体服从正态分

    2024年01月20日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包