[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

这篇具有很好参考价值的文章主要介绍了[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

👨‍🎓👨‍🎓博主:发量不足

📑📑本期更新内容:Spark机器学习库MLlib的概述与数据类型

📑📑下篇文章预告:Spark MLlib基本统计

💨💨简介:分享的是一个当代疫情在校封校的大学生学习笔记

目录

Spark机器学习库MLlib的概述

一.MLib的简介

二.Spark机器学习工作流程

数据类型

一.本地向量

二.标注点

三.本地矩阵


 文章来源地址https://www.toymoban.com/news/detail-406818.html

MLlib是Spark提供的可扩展的机器学习库,其特点是采用较为先进的迭代式、内存存储的分析计算,使得数据的计算处理速度大大高于普通的数据处理引擎。

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

Spark机器学习库MLlib的概述

一.MLib的简介

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

二.Spark机器学习工作流程

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 [机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

数据类型

MLlib的主要数据类型包括本地向量、标注点、本地矩阵。

本地向量和本地矩阵是提供公共接口的简单数据模型,Breeze和Jblas提供了底层的线性代数运算。

在监督学习中用标注点类型表示训练样本。

 

一.本地向量

本地向量分为密集向量(Dense)和稀疏向量(Sparse),密集向量是由Double类型的数组支持,而稀疏向量是由两个并列的数组支持。

 

启动Spark集群服务(hadoop用户下spark路径):sbin/start-all.sh

启动Spark-Shell:bin/spark-shell --master local[2]

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

导包

import org.apache.spark.mllib.linalg.{Vector,Vectors}

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

创建一个密集本地向量

val dv:Vector=Vectors.dense(1.0,0.0,3.0)

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

创建一个稀疏本地向量

val sv1:Vector=Vectors.sparse(3,Array(0,2),Array(1.0,3.0))

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

通过指定非零项目,创建稀疏本地向量

val sv22:Vector = Vectors.sparse(3,Seq((0,1.0),(2,3.0)))

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

 

二.标注点

标签点(Labeled Point)是一个本地向量,也分稀疏或者稠密,并且是一个带有标签的本地向量。

在 MLlib 中,标签点常用于监督学习类算法。标签(Label)是用 Double 类型存放的,因此标签点可以用于回归或者分类算法中。如果是二维分类,标签则必须是 0 或 1 之间的一种。而如果是多个维度的分类,标签应当是从 0 开始的数字,代表各个分类的索引。

 

导包

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.regression.LabeledPoint

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

创建带有正标签和密集向量的标注点pos和带有负标签和稀疏向量的标注点neg

val pos = LabeledPoint(1.0,Vectors.dense(1.0,0.0,3.0))

val neg = LabeledPoint(0.0,Vectors.sparse(3,Array(0,2),Array(1.0,3.0)))

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

三.本地矩阵

导包

import org.apache.spark.mllib.linalg.{Matrix,Matrices}

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

创建一个3行2列的密集矩阵

val dm:Matrix = Matrices.dense(3,2,Array(1.0,3.0,5.0,2.0,4.0,6.0))

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

创建一个3行2列的稀疏矩阵

val sm:Matrix = Matrices.sparse(3,2,Array(0,1,3),Array(0,2,1),Array(9,6,8))

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

 

 

到了这里,关于[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Spark编程实验六:Spark机器学习库MLlib编程

    目录 一、目的与要求 二、实验内容 三、实验步骤 1、数据导入 2、进行主成分分析(PCA) 3、训练分类模型并预测居民收入  4、超参数调优 四、结果分析与实验体会 1、通过实验掌握基本的MLLib编程方法; 2、掌握用MLLib解决一些常见的数据分析问题,包括数据导入、成分分析

    2024年02月20日
    浏览(40)
  • Spark-机器学习(1)什么是机器学习与MLlib算法库的认识

    从这一系列开始,我会带着大家一起了解我们的机器学习,了解我们spark机器学习中的MLIib算法库,知道它大概的模型,熟悉并认识它。同时,本篇文章为个人spark免费专栏的系列文章,有兴趣的可以收藏关注一下,谢谢。同时,希望我的文章能帮助到每一个正在学习的你们。

    2024年04月16日
    浏览(33)
  • Spark MLlib机器学习库(一)决策树和随机森林案例详解

    数据集的下载地址: https://www.kaggle.com/datasets/uciml/forest-cover-type-dataset 该数据集记录了美国科罗拉多州不同地块的森林植被类型,每个样本包含了描述每块土地的若干特征,包括海拔、坡度、到水源的距离、遮阳情况和土壤类型,并且给出了地块对应的已知森林植被类型。 很

    2024年02月12日
    浏览(46)
  • Spark MLlib与深度学习:构建新型计算机视觉应用

    作者:禅与计算机程序设计艺术 随着大数据、云计算和移动互联网的普及,人工智能(AI)正在成为继“机器学习”之后又一个重要方向。作为一个专门研究人类智能的科学领域,人工智能主要包括机器学习、深度学习、模式识别等多个分支领域。而近年来随着数据处理和存

    2024年02月12日
    浏览(32)
  • 军用大数据 - Spark机器学习

    本关任务:使用 pyspark ml 的LogisticRegression分类器完成 Iris 分类任务。 1:观察数据集 我们本次使用的数据集是sklearn自带的数据集Iris。 接下来,我们来了解下Iris数据集的数据吧! 示例代码: 打印结果: 简单来说明下数据集,我们第一个打印输出的结果集是Iris的特征,第二

    2024年02月05日
    浏览(45)
  • Spark MLlib ----- ALS算法

    在谈ALS(Alternating Least Squares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟

    2024年02月02日
    浏览(40)
  • 大数据笔记--Spark机器学习(第一篇)

    目录 一、数据挖掘与机器学习 1、概念 2、人工智能 3、数据挖掘体系 二、机器学习 1、什么是机器学习 2、机器学习的应用 3、实现机器学习算法的工具与技术框架 三、Spark MLlib介绍 1、简介 2、MLlib基本数据类型 Ⅰ、概述 Ⅱ、本地向量 Ⅲ、向量标签的使用 Ⅳ、本地矩阵 Ⅴ、

    2024年02月07日
    浏览(86)
  • 机器学习常识 2: 数据类型

    摘要 : 本贴讨论常见的数据类型. 基本元素的类型包括: 布尔型、枚举型、实型等。 布尔型有两种取值, 如: Yes/No, Pass/Fail. 枚举型有多种取值, 如: 颜色有红/黄/绿, 形状有方/圆/梯. 这些值之间一般没有大小关系. 实型如: 人的身高, 体重. 简便起见整型一般也当成实型, 而不是枚

    2024年02月06日
    浏览(94)
  • Azure - 机器学习:使用 Apache Spark 进行交互式数据整理

    关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。 数据整理已经成为机器学习项目中最重要的步骤之一。

    2024年02月08日
    浏览(45)
  • 【机器学习】Spark ML 对数据特征进行 One-Hot 编码

    什么是 One-Hot 编码? 在机器学习中,一般需要对非数值型的特征进行编码处理,将其转化为数值型的特征。其中,One-Hot 编码是一种常见的特征编码方式。 One-Hot 编码是将一个离散特征的每个取值映射为一个唯一的整数编号,并将该编号表示成一个二进制向量的形式。具体来

    2024年02月04日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包