[机器学习、Spark]Spark MLlib实现数据基本统计

10月前作者：发量不足分类：Toy博客阅读(47) 违法举报

这篇具有很好参考价值的文章主要介绍了[机器学习、Spark]Spark MLlib实现数据基本统计。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

👨‍🎓👨‍🎓博主：发量不足

📑📑本期更新内容：Spark MLlib基本统计

📑📑下篇文章预告：Spark MLlib的分类🔥🔥

简介：耐心，自信来源于你强大的思想和知识基础！！

文章来源地址https://www.toymoban.com/news/detail-781801.html

目录

Spark MLlib基本统计

一．摘要统计

二．相关统计

三．分层抽样

Spark MLlib基本统计

MLlib提供了很多统计方法，包含摘要统计、相关统计、分层抽样、假设检验、随机数生成等统计方法，利用这些统计方法可帮助用户更好地对结果数据进行处理和分析

MLlib三个核心功能：

1.实用程序：统计方法，如描述性统计、卡方检验、线性代数、模型评估方法等
2.数据准备：特征提取、变换、分类特征的散列和一些自然语言处理方法
3.机器学习方法：实现了一些流行和高级的回归，分类和聚类算法

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

一．摘要统计

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

导包

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary,Statistics}

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

创建密集矩阵

val observations=sc.parallelize(Seq(Vectors.dense(1.0,10.0,100.0),Vectors.dense(2.0,20.0,200.0),Vectors.dense(3.0,30.0,300.0)))

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

计算列摘要统计信息

val sum:MultivariateStatisticalSummary=Statistics.colStats(observations)

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

打印平均值

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

打印方差

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

打印每列非零元素的个数

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

二．相关统计

相关系数是反应两个变量之间相关关系密切程度的统计指标，这也是统计学中常用的统计方式，MLlib提供了计算多个序列之间相关统计的方法，目前MLlib默认采用皮尔森相关系数计算方法。皮尔森相关系数也称皮尔森积矩相关系数，它是一种线性相关系数。

导包

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

创建序列

val seriesX:RDD[Double]=sc.parallelize(Array(1,2,3,3,5))

val seriesY:RDD[Double]=sc.parallelize(Array(11,22,33,33,555))

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

计算seX和seY的相关系数

val correlation:Double = Statistics.corr(seriesX,seriesY,"pearson")

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

打印数据

println(s"Correlation is : $correlation")

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

利用皮尔森方法计算密集矩阵相关系数

val data:RDD[Vector]=sc.parallelize(Seq(Vectors.dense(1.0,10.0,100.0),Vectors.dense(2.0,20.0,200.0),Vectors.dense(5.0,33.0,366.0)))

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

val corMx:Matrix = Statistics.corr(data,"pearson")

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

打印数据

println(corMx.toString)

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

三．分层抽样

分层抽样法也叫类型抽样法，它是先将总体样本按照某种特征分为若干次级(层),如何再从每一层内进行独立取样，组成一个样本的统计学计算方法。

创建键值对RDD

val data=sc.parallelize(Seq((1,'a'),(1,'b'),(2,'c'),(2,'d'),(2,'e'),(3,'f')))

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

设定抽样格式

val fra = Map(1->0.1,2->0.6,3->0.3)

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

从每层获取抽样样本

val app=data.sampleByKey(withReplacement=false,fractions=fra)

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

从每层获取精确样本

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

打印抽样样本

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

打印精确样本

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

到了这里，关于[机器学习、Spark]Spark MLlib实现数据基本统计的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Spark-机器学习（1）什么是机器学习与MLlib算法库的认识

从这一系列开始，我会带着大家一起了解我们的机器学习，了解我们spark机器学习中的MLIib算法库，知道它大概的模型，熟悉并认识它。同时，本篇文章为个人spark免费专栏的系列文章，有兴趣的可以收藏关注一下，谢谢。同时，希望我的文章能帮助到每一个正在学习的你们。

2024年04月16日
浏览(34)
Spark MLlib机器学习库(一)决策树和随机森林案例详解

数据集的下载地址： https://www.kaggle.com/datasets/uciml/forest-cover-type-dataset 该数据集记录了美国科罗拉多州不同地块的森林植被类型，每个样本包含了描述每块土地的若干特征，包括海拔、坡度、到水源的距离、遮阳情况和土壤类型，并且给出了地块对应的已知森林植被类型。很

2024年02月12日
浏览(49)
Spark MLlib与深度学习：构建新型计算机视觉应用

作者：禅与计算机程序设计艺术随着大数据、云计算和移动互联网的普及，人工智能（AI）正在成为继“机器学习”之后又一个重要方向。作为一个专门研究人类智能的科学领域，人工智能主要包括机器学习、深度学习、模式识别等多个分支领域。而近年来随着数据处理和存

2024年02月12日
浏览(34)
大数据课程K12——Spark的MLlib概述

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ⚪ 了解Spark的MLlib概念； ⚪ 掌握Spark的MLlib基本数据模型； ⚪ 掌握Spark的MLlib统计量基础； MLlib是Apache Spark的可迭代机器学习库。适用于Java、Scala、Python和R语言。 MLlib适用于Spark的API，并与Python中的NumPy（从Spa

2024年02月11日
浏览(38)
【大数据学习篇6】 Spark操作统计分析数据操作

通过前面的文章安装好环境下面我们就可以开始来操作使用MySQL的root用户对数据库进行修改以下设置

2024年02月05日
浏览(45)
Spark大数据处理学习笔记（2.4）IDEA开发词频统计项目

该文章主要为完成实训任务，详细实现过程及结果见【http://t.csdn.cn/0qE1L】从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html 安装在默认位置安装完毕在命令行窗口查看Scala版本（必须要配置环境变量）启动HDFS服务启动Spark集群在master虚拟机上创建单词文件

2024年02月08日
浏览(56)
11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包：链接：https://pan.baidu.com/s/1zABhjj2umontXe2CYBW_DQ 提取码：1123（若链接失效在下面评论，我会及时更新）. 目录（1）安装Spark 1.先用xftp将安装包传到home/hadoop/Downloads文件夹下，然后解压安装。 2.解压缩： 3. 更改文件夹名称： 4.修改hadoop用户对文件夹spark的访问权限

2024年02月06日
浏览(47)
spark-shell（pyspark）单机模式使用和编写独立应用程序

spark有四种部署方式：Local，Standalone，Spark on Mesos，Spark on yarn。第一个为单机模式，后三个为集群模式。 spark-shell支持python和scala，这里使用python。 1.启动pyspark环境在spark安装目录下进入之后，如下图： 2.编写程序新建代码文件WordCount.py，并编写程序运行代码：python3 Wor

2024年04月14日
浏览(35)
无涯教程-机器学习 - 数据统计

在进行机器学习项目时，通常无涯教程会忽略两个最重要的部分，分别是数学和数据。这是因为知道ML是一种数据驱动的方法，并且ML模型只会产生与提供给它的数据一样好的或坏的输出。在上一章中，讨论了如何将CSV数据上传到ML项目中，但是最好在上传之前了解数据。

2024年02月10日
浏览(46)
军用大数据 - Spark机器学习

本关任务：使用 pyspark ml 的LogisticRegression分类器完成 Iris 分类任务。 1：观察数据集我们本次使用的数据集是sklearn自带的数据集Iris。接下来，我们来了解下Iris数据集的数据吧！示例代码：打印结果：简单来说明下数据集，我们第一个打印输出的结果集是Iris的特征，第二

2024年02月05日
浏览(47)