Spark-机器学习(3)回归学习之线性回归

这篇具有很好参考价值的文章主要介绍了Spark-机器学习(3)回归学习之线性回归。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在之前的文章中,我们了解我们的机器学习,了解我们spark机器学习中的特征提取和我们的tf-idf,word2vec算法。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。

Spark-机器学习(2)特征工程之特征提取-CSDN博客文章浏览阅读2k次,点赞54次,收藏36次。今天的文章,我会带着大家一起了解我们的特征提取和我们的tf-idf,word2vec算法。希望大家能有所收获。同时,本篇文章为个人spark免费专栏的系列文章,有兴趣的可以收藏关注一下,谢谢。同时,希望我的文章能帮助到每一个正在学习的你们。也欢迎大家来我的文章下交流讨论,共同进步。https://blog.csdn.net/qq_49513817/article/details/137844271今天的文章,我们来学习我们回归中的线性回归,希望大家能有所收获。 

目录

一、线性回归

        什么是线性回归? 

        spark线性回归

二、示例代码

拓展-线性回归算法介绍及用法

1.算法

2.用法


一、线性回归

什么是线性回归? 

Spark-机器学习(3)回归学习之线性回归,机器学习,回归,spark,scala,线性回归,大数据线性回归

线性回归研究是一种统计学上分析的方法,旨在确定两种或两种以上变量间相互依赖的定量关系。这种关系通常用一个线性方程来表示,其中一个或多个自变量(也称为解释变量或特征)与因变量(也称为响应变量或目标)之间的关系被假定为线性。

在线性回归模型中,因变量被假设为自变量通过一个线性组合加上一个常数项(截距)以及一个误差项(随机扰动)来影响。这个线性组合中的系数,也被称为回归系数,反映了各自变量对因变量的影响程度和方向。

线性回归研究通常包括以下步骤:

  1. 数据收集:收集包含自变量和因变量的数据集。

  2. 模型建立:根据收集的数据,建立线性回归模型。

  3. 参数估计:使用最小二乘法等方法来估计模型中的参数(回归系数和截距)。最小二乘法通过最小化预测值与实际值之间的平方误差和来找到最佳拟合的回归系数。

  4. 模型检验:对模型的拟合效果进行检验,包括检验回归系数的显著性(如t检验)以及模型整体的拟合优度(如R²值)。

  5. 预测与解释:利用拟合好的模型进行预测,并解释各自变量对因变量的影响。

线性回归研究在多个领域都有广泛应用,如经济预测、市场营销、医学、社会科学等。它提供了一种量化变量间关系的方法,并能通过统计检验来评估这种关系的可靠性。然而,线性回归的前提假设(如线性关系、误差项的独立性等)需要在实际应用中进行检验,以确保模型的适用性。如果数据不满足这些假设,可能需要使用其他类型的回归模型,如多项式回归、逻辑回归等。

spark线性回归

Spark线性回归是Apache Spark框架中实现线性回归分析的一种功能。线性回归是利用线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。在Spark中,线性回归模型可以通过最小二乘法等优化算法来估计模型的参数,从而建立自变量和因变量之间的线性关系。

Spark支持多种线性回归方法,包括普通线性回归(LinearRegression)、加L1正则化的线性回归(LassoRegression)以及加L2正则化的线性回归(RidgeRegression)。这些方法提供了灵活性和鲁棒性,以适应不同的数据和分析需求。

通过Spark线性回归,用户可以处理大规模数据集,并利用分布式计算能力来加速模型的训练和预测过程。这使得线性回归在大数据场景下更加高效和实用。

Spark线性回归是一种利用Apache Spark框架进行线性回归分析的方法,旨在从大规模数据集中发现变量之间的线性关系,并为预测和决策提供支持。

二、示例代码

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.sql.SparkSession
object p4 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("ppp")
    val sc = new SparkContext(conf)
    val spark = SparkSession.builder().appName("SimpleLinearRegression").getOrCreate()
    import spark.implicits._

    // 假设这里有一些数据,例如:(1.0, 2.0, 3.0), (2.0, 3.0, 5.0), ...
    // 这里我们使用一些随机数据作为示例
    val data = sc.parallelize(Seq(
      (1.0, 2.0, 3.0),
      (2.0, 3.0, 5.0),
      (3.0, 4.0, 7.0)
    )).toDF("feature1", "feature2", "label")

    // 使用VectorAssembler将所有特征转换为一个特征向量
    val assembler = new VectorAssembler()
      .setInputCols(Array("feature1", "feature2"))
      .setOutputCol("features")
    val output = assembler.transform(data)

    // 分割数据集为训练集和测试集
    val Array(trainingData, testData) = output.randomSplit(Array(0.7, 0.3))

    // 创建线性回归模型
    val lr = new LinearRegression()
      .setMaxIter(10)
      .setRegParam(0.3)
      .setElasticNetParam(0.8)

    // 在训练集上训练模型
    val lrModel = lr.fit(trainingData)

    // 在测试集上进行预测
    val predictions = lrModel.transform(testData)

    // 选择(预测值, 真实值)并计算测试误差
    val evaluator = new RegressionEvaluator()
      .setLabelCol("label")
      .setPredictionCol("prediction")
      .setMetricName("mse")
    val mse = evaluator.evaluate(predictions)
    println(s"Root-mean-square error = $mse")

  }
}

代码首先创建了一个SparkContext和一个SparkSession对象,然后创建了一个包含三个字段(feature1feature2label)的DataFrame,其中feature1feature2是特征,label是目标变量。

然后,代码使用VectorAssemblerfeature1feature2合并成一个特征向量,接着将数据集分割为训练集和测试集。

接下来,代码创建了一个线性回归模型,设置了最大迭代次数、正则化参数和弹性网络混合参数,然后在训练集上训练了这个模型。 

最后,代码在测试集上进行了预测,并使用RegressionEvaluator计算了均方误差(MSE)。

运行代码Spark-机器学习(3)回归学习之线性回归,机器学习,回归,spark,scala,线性回归,大数据

 我们成功得到了我们的均方根误差(Root-mean-square Error,简称RMSE)

RMSE 的值越小,说明模型的预测性能越好,即模型的预测值与实际观测值之间的差异越小。相反,RMSE 的值越大,则模型的预测性能越差。

RMSE 对于大的误差非常敏感,因此它可以有效地揭示模型在预测大误差时的性能。

拓展-线性回归算法介绍及用法

1.算法

  • 最小二乘法(Ordinary Least Squares)

    • 描述:最基础的线性回归方法,通过最小化预测值与实际值之间的平方误差来求解回归系数。
    • 特点:计算速度快,但当数据量大或特征多时可能不太稳定。
  • 梯度下降法(Gradient Descent)

    • 描述:通过迭代的方式逐步调整回归系数,以最小化损失函数。
    • 变种
      • 批量梯度下降(Batch Gradient Descent):每次迭代使用所有数据点来更新系数。
      • 随机梯度下降(Stochastic Gradient Descent):每次迭代只使用一个数据点来更新系数,速度更快,适用于大数据集。
    • 特点:灵活,可以通过调整学习率和迭代次数来控制收敛速度和精度。
  • 正则化方法文章来源地址https://www.toymoban.com/news/detail-855410.html

    • 描述:为了防止过拟合,可以在损失函数中加入正则化项。
    • 类型
      • Lasso回归(L1正则化):使用L1范数作为正则化项,有助于产生稀疏模型。
      • Ridge回归(L2正则化):使用L2范数作为正则化项,有助于稳定模型。
      • ElasticNet回归:结合L1和L2正则化,提供了更多的灵活性。

2.用法

方法/算法关键字 描述 使用场景 示例代码关键字/片段
最小二乘法 (Ordinary Least Squares) 通过最小化预测值与实际值之间的平方误差来求解回归系数。 基础线性回归场景,当数据量和特征数量适中时。 LinearRegression().fit(training)
批量梯度下降 (Batch Gradient Descent) 使用所有数据点来计算梯度并更新回归系数,每次迭代都会遍历整个数据集。 数据集较小,或需要精确求解的场景。 LinearRegression().setMaxIter(10).setRegParam(0.3).fit(training)
随机梯度下降 (Stochastic Gradient Descent) 每次迭代只使用一个数据点来计算梯度并更新系数,适用于大数据集。 大规模数据集,需要快速迭代更新的场景。 LinearRegression().setSolver("sgd").setMaxIter(100).fit(training)
Lasso回归 (L1正则化) 在损失函数中加入L1正则化项,有助于产生稀疏模型,适用于特征选择。 需要进行特征选择,或希望模型具有稀疏性的场景。 LinearRegression().setElasticNetParam(1.0).fit(training)
Ridge回归 (L2正则化) 在损失函数中加入L2正则化项,有助于稳定模型,防止过拟合。 数据集存在噪声或特征间存在相关性,需要稳定模型的场景。 LinearRegression().setRegParam(0.3).fit(training)
ElasticNet回归 结合L1和L2正则化,提供了更多的灵活性,可以根据数据和需求调整正则化强度。 需要平衡特征选择和模型稳定性的场景。 LinearRegression().setElasticNetParam(0.8).fit(training)

到了这里,关于Spark-机器学习(3)回归学习之线性回归的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据技术学习之Storm、Spark学习手册,这还不码住学起来

    Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。 1.Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统,按照Storm作者的说法

    2024年02月04日
    浏览(40)
  • 军用大数据 - Spark机器学习

    本关任务:使用 pyspark ml 的LogisticRegression分类器完成 Iris 分类任务。 1:观察数据集 我们本次使用的数据集是sklearn自带的数据集Iris。 接下来,我们来了解下Iris数据集的数据吧! 示例代码: 打印结果: 简单来说明下数据集,我们第一个打印输出的结果集是Iris的特征,第二

    2024年02月05日
    浏览(45)
  • 机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】

    目录 前言 一、什么是线性回归 二、什么是逻辑回归 三、基于Python 和 Scikit-learn 库实现线性回归 示例代码:  使用线性回归来预测房价: 四、基于Python 和 Scikit-learn 库实现逻辑回归 五、总结  线性回归的优缺点总结: 逻辑回归(Logistic Regression)是一种常用的分类算法,具有

    2024年04月13日
    浏览(43)
  • 大数据笔记--Spark机器学习(第一篇)

    目录 一、数据挖掘与机器学习 1、概念 2、人工智能 3、数据挖掘体系 二、机器学习 1、什么是机器学习 2、机器学习的应用 3、实现机器学习算法的工具与技术框架 三、Spark MLlib介绍 1、简介 2、MLlib基本数据类型 Ⅰ、概述 Ⅱ、本地向量 Ⅲ、向量标签的使用 Ⅳ、本地矩阵 Ⅴ、

    2024年02月07日
    浏览(86)
  • Spark Scala大数据编程实例

    Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想,只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”,从写个小脚本到建立

    2024年02月04日
    浏览(48)
  • Spark 读写 es 数据(scala 版)

    读取 hdfs 文件 解析采用 fast-json : 1、 pom.xml 2、 main 文件 运行结果: 1、 pom.xml 2、 main 文件 参考文章 Spark读写ES数据时遇到的问题总结 Spark读写ES 使用Apache Spark将数据写入ElasticSearch

    2024年02月11日
    浏览(39)
  • spark之action算子学习笔记(scala,pyspark双语言)

    函数签名:def collect(): Array[T] 功能说明:收集每个分区数据,以数组Array的形式封装后发给driver。设置driver内存:bin/spark-submit --driver-memory 10G(内存大小) 注意:collect会把所有分区的数据全部拉取到driver端,如果数据量过大,可能内存溢出。 图1 结果 图2 结果 返回RDD中元素的

    2024年02月04日
    浏览(45)
  • 简单使用Spark、Scala完成对天气数据的指标统计

    目录 一、前言   什么是Spark?   什么是Scala 二、数据准备(数据类型的转换) 三、Spark部分 1、使用Spark完成数据中的“风级”,“风向”、“天气情况”相关指标统计及筛选 四、Scala部分 1、使用Scala统计某月、全年的温差、平均气温以及最值等相关的指标 五、遇到的问题

    2024年02月03日
    浏览(49)
  • Azure - 机器学习:使用 Apache Spark 进行交互式数据整理

    关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。 数据整理已经成为机器学习项目中最重要的步骤之一。

    2024年02月08日
    浏览(45)
  • 大数据学习之Spark性能优化

    窄依赖(Narrow Dependency):指父RDD的每个分区只被子RDD的一个分区所使用,例如map、filter等这些算子。一个RDD,对它的父RDD只有简单的一对一的关系,也就是说,RDD的每个partition仅仅依赖于父RDD中的一个partition,父RDD和子RDD的partition之间的对应关系,是一对一的。 宽依赖(Shuffl

    2024年02月04日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包