[机器学习、Spark]Spark MLlib分类

这篇具有很好参考价值的文章主要介绍了[机器学习、Spark]Spark MLlib分类。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

👨‍🎓👨‍🎓博主:发量不足

📑📑本期更新内容:Spark MLlib分类🔥🔥

📑📑下篇文章预告:Hadoop全分布部署🔥🔥🔥

简介:耐心,自信来源于你强大的思想和知识基础!!

 文章来源地址https://www.toymoban.com/news/detail-785694.html

目录

一、线性支持向量机

二、逻辑回归


 

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

MLB支持多种分类分新方法。如一元分类、多元分类

分析方法

相关算法

二元分类

线性支持向量机、逻辑回归、决策树、随机森林、梯度提升树、朴素贝叶斯

多元分类

逻辑回归、决策树、随机森林朴素贝叶斯

本文章主要介绍Spark MLlib的两种线性分类方法:线性支持向量机(SVM)和逻辑回归

一、线性支持向量机

线性支持向量机在机器学习领域中是一种常见的判别方法,是一一个有监督学习模型,通常用来进行模式识别,分类以及回归分析

通过找到支持向量从而获得分类平面的方法,称为支持向量机。可以非常成功地处理回归(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广到预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。
MLlib中对支持向量机算法有较好的支持,用来解决一般线性回归和逻辑回归不好处理的数据分类内容,结果验证其准确性较好。

1.导入线性支持向量机所需包

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

2.导入二元分类评估类

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

3.MLUtils提供了一些辅助方法,用于加载,保存和预处理MLLib中使用的数据

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

4.加载Spark官方提供数据集

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

5.将数据的60%分为训练数据,40%分为测试数据

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

 

 

6.设置迭代次数

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

7.执行算法来构建模型

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

8.用测试数据评估模型

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

9.获取评估指标

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

10.计算二元分类的PR和ROC曲线下的面积

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

11.保存并加载模型

 

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

二、逻辑回归

逻辑回归又称为逻辑回归分析,它是一个概率模型的分类算法,常用于数据挖掘、疾病自动诊断以及经济预测等领域。

逻辑回归和线性回归类似,但它不属于回归分析家族,差异主要是在于变量不同,因此其解法和生成曲线也不尽相同。逻辑回归也是无监督学习的一个重要算法,特别是用在二分分类中。
逻辑回归实际上就是对已有数据进行分析从而判断其结果可能是多少,它可以通过数学公式来表达。MLlib中MulticlassMetrics类是对数据进行分类的类,其中包括各种方法。

1.导人逻辑回归所需包

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

2.导入分类评估器

 

 

 ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

3.加载spark官方提供数据集

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

4.将数据的60%分为训练数据,40%分为测试数据

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

 

 

5.运行训练算法来构建模型

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

6.用测试数据评估模型

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

7.获取评估指标

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

8.保存并加载模型

 

ilb模型,机器学习,spark,大数据,机器学习,人工智能,spark-ml,分类

 

到了这里,关于[机器学习、Spark]Spark MLlib分类的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建鸢尾花决策树分类预测模型】

    通过IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建鸢尾花决策树分类预测模型,这是一个分类模型案例,通过该案例,可以快速了解Spark MLlib分类预测模型的使用方法。

    2024年02月14日
    浏览(39)
  • 【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建逻辑回归鸢尾花分类预测模型】

    基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建逻辑回归鸢尾花分类预测模型,这是一个分类模型案例,通过该案例,可以快速了解Spark MLlib分类预测模型的使用方法。 运行结果如下:

    2024年02月14日
    浏览(45)
  • Spark-机器学习(1)什么是机器学习与MLlib算法库的认识

    从这一系列开始,我会带着大家一起了解我们的机器学习,了解我们spark机器学习中的MLIib算法库,知道它大概的模型,熟悉并认识它。同时,本篇文章为个人spark免费专栏的系列文章,有兴趣的可以收藏关注一下,谢谢。同时,希望我的文章能帮助到每一个正在学习的你们。

    2024年04月16日
    浏览(34)
  • Spark MLlib机器学习库(一)决策树和随机森林案例详解

    数据集的下载地址: https://www.kaggle.com/datasets/uciml/forest-cover-type-dataset 该数据集记录了美国科罗拉多州不同地块的森林植被类型,每个样本包含了描述每块土地的若干特征,包括海拔、坡度、到水源的距离、遮阳情况和土壤类型,并且给出了地块对应的已知森林植被类型。 很

    2024年02月12日
    浏览(49)
  • Java语言在Spark3.2.4集群中使用Spark MLlib库完成朴素贝叶斯分类器

    贝叶斯定理是关于随机事件A和B的条件概率,生活中,我们可能很容易知道P(A|B),但是我需要求解P(B|A),学习了贝叶斯定理,就可以解决这类问题,计算公式如下:     P(A)是A的先验概率 P(B)是B的先验概率 P(A|B)是A的后验概率(已经知道B发生过了) P(B|A)是

    2023年04月12日
    浏览(35)
  • Spark-机器学习(5)分类学习之朴素贝叶斯算法

    在之前的文章中,我们学习了回归中的逻辑回归,并带来简单案例,学习用法。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。 Spark-机器学习(4)回归学习之逻辑回归-CSDN博客 文章浏览阅读2.6k次

    2024年04月28日
    浏览(58)
  • Spark MLlib与深度学习:构建新型计算机视觉应用

    作者:禅与计算机程序设计艺术 随着大数据、云计算和移动互联网的普及,人工智能(AI)正在成为继“机器学习”之后又一个重要方向。作为一个专门研究人类智能的科学领域,人工智能主要包括机器学习、深度学习、模式识别等多个分支领域。而近年来随着数据处理和存

    2024年02月12日
    浏览(34)
  • 大数据课程K12——Spark的MLlib概述

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ⚪ 了解Spark的MLlib概念; ⚪ 掌握Spark的MLlib基本数据模型; ⚪ 掌握Spark的MLlib统计量基础; MLlib是Apache Spark的可迭代机器学习库。 适用于Java、Scala、Python和R语言。 MLlib适用于Spark的API,并与Python中的NumPy(从Spa

    2024年02月11日
    浏览(38)
  • 军用大数据 - Spark机器学习

    本关任务:使用 pyspark ml 的LogisticRegression分类器完成 Iris 分类任务。 1:观察数据集 我们本次使用的数据集是sklearn自带的数据集Iris。 接下来,我们来了解下Iris数据集的数据吧! 示例代码: 打印结果: 简单来说明下数据集,我们第一个打印输出的结果集是Iris的特征,第二

    2024年02月05日
    浏览(47)
  • Spark MLlib ----- ALS算法

    在谈ALS(Alternating Least Squares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟

    2024年02月02日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包