拿到数据之后,首先要做的是「探索性数据分析」,什么是探索性数据分析呢?大致可以分为以下4类:
一维数据看看分布和离群值;
二维数据看看关系和趋势;
三维数据看看维度间的两两关系;
高维数据降维。
这里需要注意的是,即使刚开始拿到的是高维数据(这里指的是三维及以上数据),也要先进行一维数据和二维数据的探索性数据分析,因为高维数据是由一维数据或二维数据组成的,一维数据和二维数据的探索性数据分析是高维数据探索性数据分析的基础。
对于高维数据,
我们可以先将高维数据拆分成一维数据,看看各个一维数据的分布和离群值;
再将拆分的一维数据两两组合成二维数据,看看各个二维数据的关系和趋势;
最后再进行高维数据的探索性数据分析。
「直方图」是看一维数据分布的最常用方法,「箱线图」是看一维数据离群值的最常用方法。「散点图」是看二维数据关系和趋势的最常用方法,如果我们只有两个变量,我们画一幅散点图就可以了。如果我们有n个变量,那么,我们需要画很多幅散点图才可以。如果我们一个一个地画散点图,那太费劲了。偷懒的方法是画「散点图矩阵」,那么,怎么画散点图矩阵呢?文章来源:https://www.toymoban.com/news/detail-490577.html
示例数据集简介:gWQS包中有一个内置数据集,内置数据集的名称叫wqs_data[1],「wqs_data」数据集有「34种多环芳烃暴露数据」、25种邻苯二甲酸酯暴露数据和其他类型数据。文章来源地址https://www.toymoban.com/news/detail-490577.html
# 提取wqs_data中前5种多环芳烃暴露数据
PCBs <<
到了这里,关于R语言:散点图矩阵的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!