[机器学习、Spark]Spark MLlib实现数据基本统计

这篇具有很好参考价值的文章主要介绍了[机器学习、Spark]Spark MLlib实现数据基本统计。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

👨‍🎓👨‍🎓博主:发量不足

📑📑本期更新内容:Spark MLlib基本统计

📑📑下篇文章预告:Spark MLlib的分类🔥🔥

简介:耐心,自信来源于你强大的思想和知识基础!!

 文章来源地址https://www.toymoban.com/news/detail-781801.html

目录

Spark MLlib基本统计

一.摘要统计

二.相关统计

三.分层抽样


 

Spark MLlib基本统计

MLlib提供了很多统计方法,包含摘要统计、相关统计、分层抽样、假设检验、随机数生成等统计方法,利用这些统计方法可帮助用户更好地对结果数据进行处理和分析

MLlib三个核心功能:

1.实用程序:统计方法,如描述性统计、卡方检验、线性代数、模型评估方法等
2.数据准备:特征提取、变换、分类特征的散列和一些自然语言处理方法
3.机器学习方法:实现了一些流行和高级的回归,分类和聚类算法

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

一.摘要统计

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

导包

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary,Statistics}

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

创建密集矩阵

val observations=sc.parallelize(Seq(Vectors.dense(1.0,10.0,100.0),Vectors.dense(2.0,20.0,200.0),Vectors.dense(3.0,30.0,300.0)))

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml 

 

计算列摘要统计信息

val sum:MultivariateStatisticalSummary=Statistics.colStats(observations)

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

打印平均值

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

打印方差

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

打印每列非零元素的个数

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

二.相关统计

相关系数是反应两个变量之间相关关系密切程度的统计指标,这也是统计学中常用的统计方式,MLlib提供了计算多个序列之间相关统计的方法,目前MLlib默认采用皮尔森相关系数计算方法。皮尔森相关系数也称皮尔森积矩相关系数,它是一种线性相关系数。

 

导包

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

创建序列

val seriesX:RDD[Double]=sc.parallelize(Array(1,2,3,3,5))

val seriesY:RDD[Double]=sc.parallelize(Array(11,22,33,33,555))

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

计算seX和seY的相关系数

val correlation:Double = Statistics.corr(seriesX,seriesY,"pearson")

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

打印数据

println(s"Correlation is : $correlation")

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

利用皮尔森方法计算密集矩阵相关系数

val data:RDD[Vector]=sc.parallelize(Seq(Vectors.dense(1.0,10.0,100.0),Vectors.dense(2.0,20.0,200.0),Vectors.dense(5.0,33.0,366.0)))

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml 

 

val corMx:Matrix = Statistics.corr(data,"pearson")

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

打印数据

println(corMx.toString)

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

三.分层抽样

分层抽样法也叫类型抽样法,它是先将总体样本按照某种特征分为若干次级(层),如何再从每一层内进行独立取样,组成一个样本的统计学计算方法。

 

创建键值对RDD

val data=sc.parallelize(Seq((1,'a'),(1,'b'),(2,'c'),(2,'d'),(2,'e'),(3,'f')))

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

设定抽样格式

val fra = Map(1->0.1,2->0.6,3->0.3)

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

从每层获取抽样样本

val app=data.sampleByKey(withReplacement=false,fractions=fra)

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

从每层获取精确样本

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml 

 

打印抽样样本

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

打印精确样本

 

在spark-shell 中,参照教材和课件,验证mllib基本统计,理解相关类、方法、参数。完,机器学习,Linux,spark,spark,scala,大数据,机器学习,spark-ml

 

 

到了这里,关于[机器学习、Spark]Spark MLlib实现数据基本统计的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark-机器学习(1)什么是机器学习与MLlib算法库的认识

    从这一系列开始,我会带着大家一起了解我们的机器学习,了解我们spark机器学习中的MLIib算法库,知道它大概的模型,熟悉并认识它。同时,本篇文章为个人spark免费专栏的系列文章,有兴趣的可以收藏关注一下,谢谢。同时,希望我的文章能帮助到每一个正在学习的你们。

    2024年04月16日
    浏览(34)
  • Spark MLlib机器学习库(一)决策树和随机森林案例详解

    数据集的下载地址: https://www.kaggle.com/datasets/uciml/forest-cover-type-dataset 该数据集记录了美国科罗拉多州不同地块的森林植被类型,每个样本包含了描述每块土地的若干特征,包括海拔、坡度、到水源的距离、遮阳情况和土壤类型,并且给出了地块对应的已知森林植被类型。 很

    2024年02月12日
    浏览(49)
  • Spark MLlib与深度学习:构建新型计算机视觉应用

    作者:禅与计算机程序设计艺术 随着大数据、云计算和移动互联网的普及,人工智能(AI)正在成为继“机器学习”之后又一个重要方向。作为一个专门研究人类智能的科学领域,人工智能主要包括机器学习、深度学习、模式识别等多个分支领域。而近年来随着数据处理和存

    2024年02月12日
    浏览(34)
  • 大数据课程K12——Spark的MLlib概述

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解Spark的MLlib概念; ⚪ 掌握Spark的MLlib基本数据模型; ⚪ 掌握Spark的MLlib统计量基础; MLlib是Apache Spark的可迭代机器学习库。 适用于Java、Scala、Python和R语言。 MLlib适用于Spark的API,并与Python中的NumPy(从Spa

    2024年02月11日
    浏览(38)
  • 【大数据学习篇6】 Spark操作统计分析数据操作

    通过前面的文章安装好环境下面我们就可以开始来操作 使用MySQL的root用户对数据库进行修改以下设置

    2024年02月05日
    浏览(45)
  • Spark大数据处理学习笔记(2.4)IDEA开发词频统计项目

    该文章主要为完成实训任务,详细实现过程及结果见【http://t.csdn.cn/0qE1L】 从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html 安装在默认位置 安装完毕 在命令行窗口查看Scala版本(必须要配置环境变量) 启动HDFS服务 启动Spark集群 在master虚拟机上创建单词文件

    2024年02月08日
    浏览(56)
  • 11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

    本案例软件包:链接:https://pan.baidu.com/s/1zABhjj2umontXe2CYBW_DQ  提取码:1123(若链接失效在下面评论,我会及时更新). 目录 (1)安装Spark 1.先用xftp将安装包传到home/hadoop/Downloads文件夹下,然后解压安装。 2.解压缩: 3. 更改文件夹名称: 4.修改hadoop用户对文件夹spark的访问权限

    2024年02月06日
    浏览(47)
  • spark-shell(pyspark)单机模式使用和编写独立应用程序

    spark有四种部署方式:Local,Standalone,Spark on Mesos,Spark on yarn。第一个为单机模式,后三个为集群模式。 spark-shell支持python和scala,这里使用python。 1.启动pyspark环境 在spark安装目录下 进入之后,如下图:  2.编写程序 新建代码文件WordCount.py,并编写程序 运行代码:python3 Wor

    2024年04月14日
    浏览(35)
  • 无涯教程-机器学习 - 数据统计

    在进行机器学习项目时,通常无涯教程会忽略两个最重要的部分,分别是 数学 和 数据 。这是因为知道ML是一种数据驱动的方法,并且ML模型只会产生与提供给它的数据一样好的或坏的输出。 在上一章中,讨论了如何将CSV数据上传到ML项目中,但是最好在上传之前了解数据。

    2024年02月10日
    浏览(46)
  • 军用大数据 - Spark机器学习

    本关任务:使用 pyspark ml 的LogisticRegression分类器完成 Iris 分类任务。 1:观察数据集 我们本次使用的数据集是sklearn自带的数据集Iris。 接下来,我们来了解下Iris数据集的数据吧! 示例代码: 打印结果: 简单来说明下数据集,我们第一个打印输出的结果集是Iris的特征,第二

    2024年02月05日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包