机器学习实战:Python基于LR线性回归进行预测(十)

这篇具有很好参考价值的文章主要介绍了机器学习实战:Python基于LR线性回归进行预测(十)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 前言

注意这里的LR指的是Linear Regression,线性回归。而非逻辑回归Logistic Regression,虽然二者简称都是LR,但是后者我们还是俗称Logistic多点

1.1 LR的介绍

线性回归(Linear Regression)是一种用于建立自变量与连续因变量之间线性关系模型的统计学和机器学习方法。它是最简单、最常见的回归分析方法之一。

线性回归的目标是通过拟合最优的直线(一元线性回归)或超平面(多元线性回归)来描述自变量与因变量之间的关系。它假设自变量和因变量之间存在线性关系,即因变量可以被自变量的线性组合所解释。

一元线性回归模型的数学表达式为:Y = β0 + β1*X + ε,其中Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。这个模型描述了因变量Y与自变量X之间的直线关系,β0是截距,β1是斜率。

多元线性回归模型扩展了一元线性回归,可以处理多个自变量。数学表达式为:Y = β0 + β1X1 + β2X2 + ... + βn*Xn + ε,其中Y是因变量,X1, X2, ..., Xn是多个自变量,β0, β1, β2, …, βn是回归系数,ε是误差项。

优点:

  • 简单和解释性: 线性回归是一种简单直观的方法,易于理解和解释。它建立了自变量与因变量之间的线性关系,通过回归系数可以解释自变量对因变量的影响程度和方向。

  • 计算效率高: 线性回归的计算效率通常很高,特别是在具有大量样本和低维特征空间的情况下。拟合线性回归模型的计算复杂度较低,可以处理大规模数据集。

  • 可解释性强: 线性回归可以提供变量之间的关系和影响程度的定量信息。回归系数可以量化自变量对因变量的贡献,帮助了解变量之间的关联关系。

  • 预测准确度高: 在数据符合线性关系的情况下,线性回归可以提供较高的预测准确度。当自变量与因变量之间存在线性关系时,线性回归可以得到较好的拟合效果。

缺点:

  • 线性假设限制: 线性回归假设自变量和因变量之间存在线性关系,这在实际问题中并不总是成立。如果数据的真实关系是非线性的,线性回归模型可能无法捕捉到复杂的模式和关联。

  • 对异常值敏感: 线性回归对异常值(在因变量或自变量中的极端值)比较敏感。异常值可能对模型的拟合产生显著影响,导致模型的不准确性。

  • 无法处理高维特征: 线性回归在处理高维特征空间的问题时面临挑战。当自变量的数量远大于样本数量时,线性回归可能会遇到过拟合问题。

  • 缺乏灵活性: 线性回归的灵活性较低,无法捕捉复杂的非线性关系。对于非线性问题,需要采用其他更复杂的模型来提高拟合能力。

1.2 LR的应用

这是最基础的机器学习算法,应用领域也十分广泛:

  1. 经济学和金融学:线性回归可以用于预测经济指标(如GDP、通货膨胀率等)与自变量(如消费、投资、出口等)之间的关系,进行经济预测和政策分析。在金融领域,线性回归可用于预测股票价格、利率等金融指标。

  2. 市场营销:线性回归可以用于市场营销研究,例如预测销售量与广告投入、价格等因素之间的关系,进行市场需求分析和营销策略制定。

  3. 医学和健康科学:线性回归可用于分析医学和健康领域的数据,例如预测疾病发展与风险因素之间的关系,评估治疗方法的效果,分析生物医学数据等。

  4. 社会科学:线性回归可用于社会科学领域的研究,如教育研究中预测学生成绩与学习时间、家庭背景等因素之间的关系,社会经济学中分析收入与教育水平、职业等的相关性。

  5. 环境科学:线性回归可用于分析环境数据,如预测气温与温室气体排放、大气污染物之间的关系,评估环境因素对生态系统的影响。

  6. 工程和物理科学:线性回归可用于建立物理模型和工程设计中的预测。例如,预测材料强度与温度、压力等因素之间的关系,分析电子元件的性能与设计参数的关联。

2. weather数据集实战演示

2.1 导入函数

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as seabornInstance 
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn import metrics
%matplotlib inline

2.2 导入数据

weather数据集包括降水,降雪,温度,风速以及当天是否包括雷暴或其他恶劣天气条件。任务是预测以输入特征为最低温度的最高温度。
下载地址:https://github.com/Vaibhav-Mehta-19/linear-regression-weather-dataset
python 机器学习算法 lr,机器学习,Python,python,机器学习,线性回归,jupyter

dataset = pd.read_csv('weather.csv')
print(dataset.shape)
dataset.describe()

python 机器学习算法 lr,机器学习,Python,python,机器学习,线性回归,jupyter

2.3 数据整体可视化

# 最高温和最低温的二维散点图
dataset.plot(x='MinTemp', y='MaxTemp', style='o')  
plt.title('MinTemp vs MaxTemp')  
plt.xlabel('MinTemp')  
plt.ylabel('MaxTemp')  
plt.show()

python 机器学习算法 lr,机器学习,Python,python,机器学习,线性回归,jupyter

# 检查平均最高温
plt.figure(figsize=(15,10))
plt.tight_layout()
seabornInstance.distplot(dataset['MaxTemp'])

python 机器学习算法 lr,机器学习,Python,python,机器学习,线性回归,jupyter
根据结果看大概在15~20。

2.4 训练模型

X = dataset['MinTemp'].values.reshape(-1,1)
y = dataset['MaxTemp'].values.reshape(-1,1)
# 老惯例,训练集/测试集按7/3分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
regressor = LinearRegression()  
regressor.fit(X_train, y_train) 

计算截距和斜率:

print(regressor.intercept_)
print(regressor.coef_)

python 机器学习算法 lr,机器学习,Python,python,机器学习,线性回归,jupyter
意味着最小温度每变化一个单位,最高温度的变化约为0.82

2.5 预测模型

y_pred = regressor.predict(X_test)
df = pd.DataFrame({'Actual': y_test.flatten(), 'Predicted': y_pred.flatten()})
df

python 机器学习算法 lr,机器学习,Python,python,机器学习,线性回归,jupyter

# 柱状图可视化结果
df1 = df.head(25)
df1.plot(kind='bar',figsize=(16,10))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.show()

python 机器学习算法 lr,机器学习,Python,python,机器学习,线性回归,jupyter
这里展示了25组数据,模型准确性有点不高,但是预测的百分比还是相对接近实际百分比

# 绘制组间比较线
plt.scatter(X_test, y_test,  color='gray')
plt.plot(X_test, y_pred, color='red', linewidth=2)
plt.show()

python 机器学习算法 lr,机器学习,Python,python,机器学习,线性回归,jupyter

2.6 评估模型

  • 平均绝对误差(MAE),误差绝对值的平均值:

MAE = (1/n) * Σ|i - yi|

  • 均方误差(MSE),平方误差的平均值:

MSE = (1/n) * Σ(i - yi)^2

  • 均方根误差(RMSE),平方误差均值的平方根:

RMSE = √(MSE)

评估模型主要是以上三个指标,用Scikit-Learn库预构建的函数计算即可

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))  
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))  
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

python 机器学习算法 lr,机器学习,Python,python,机器学习,线性回归,jupyter
三个指标都是越小越好,虽然有点差强人意,不过均方根误差为4.42,平均绝对误差为3.76,可以认为该模型的预测误差相对较小

3.讨论

我认为线性回归是机器学习中最基础和常见的模型之一。线性回归模型通过建立特征与目标变量之间的线性关系来进行预测。它具有一些优点,如模型的简单性和可解释性,使其在许多应用领域得到广泛应用。

然而,线性回归模型也有一些限制。它假设特征与目标之间的关系是线性的,并且对异常值敏感,像2.3的散点图中可以看出数据的发散性较强。此外,它不能捕捉到非线性关系和特征之间的复杂交互作用。对于这些情况,可能需要考虑更复杂的模型或对特征进行转换。文章来源地址https://www.toymoban.com/news/detail-775783.html

到了这里,关于机器学习实战:Python基于LR线性回归进行预测(十)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习算法实战(scikit-learn版本)---线性回归

    目录 文章目标: 1,导入库  2,导入数据集 3,缩放/归一化训练数据 4,创建并拟合回归模型 5,查看参数 6,预测 7,可视化  有一个开源的、商业上可用的机器学习工具包,叫做[scikit-learn](https://scikit-learn.org/stable/index.html)。这个工具包包含了你在本课程中要使用的许多算法的实

    2024年02月05日
    浏览(40)
  • 机器学习5:基于线性回归理解减少“损失”的方法

    在上节《机器学习4:基本术语》中,笔者介绍了“损失(Loss)”的定义,在训练模型时,减少损失(Reducing Loss)是极为关键的,只有“损失”足够小的机器学习系统才有实用价值。 在本节中,笔者将基于线性回归(Linear Regression)来介绍减少损失的具体方法。 目录 1.线性回

    2024年02月11日
    浏览(47)
  • 机器学习(三):基于线性回归对波士顿房价预测

    ✍ 作者简介: i阿极 ,CSDN Python领域新星创作者, 专注于分享python领域知识。 ✍ 本文录入于《机器学习案例》 ,本专栏精选了经典的机器学习算法进行讲解,针对大学生、初级数据分析工程师精心打造ÿ

    2023年04月25日
    浏览(52)
  • python机器学习(五)逻辑回归、决策边界、代价函数、梯度下降法实现线性和非线性逻辑回归

    线性回归所解决的问题是把数据集的特征传入到模型中,预测一个值使得误差最小,预测值无限接近于真实值。比如把房子的其他特征传入到模型中,预测出房价, 房价是一系列连续的数值,线性回归解决的是有监督的学习。有很多场景预测出来的结果不一定是连续的,我们

    2024年02月15日
    浏览(88)
  • 机器学习与深度学习——使用paddle实现随机梯度下降算法SGD对波士顿房价数据进行线性回归和预测

    随机梯度下降(SGD)也称为增量梯度下降,是一种迭代方法,用于优化可微分目标函数。该方法通过在小批量数据上计算损失函数的梯度而迭代地更新权重与偏置项。SGD在高度非凸的损失表面上远远超越了朴素梯度下降法,这种简单的爬山法技术已经主导了现代的非凸优化。

    2024年02月03日
    浏览(57)
  • 机器学习实战:Python基于SVD奇异值分解进行矩阵分解(八)

    1.1 奇异值分解 奇异值分解( Singular Value Decomposition,SVD )是一种重要的矩阵分解技术,它可以将一个矩阵分解为三个矩阵的乘积,分别为左奇异矩阵、奇异值矩阵和右奇异矩阵。SVD 的原理可以描述如下: 对于任意 m × n m times n m × n 的矩阵 A A A ,它的 SVD 分解为: A = U $

    2024年02月02日
    浏览(59)
  • 机器学习实战:Python基于DT决策树模型进行分类预测(六)

    1.1 决策树的介绍 决策树(Decision Tree,DT)是一种类似流程图的树形结构,其中内部节点表示特征或属性,分支表示决策规则,每个叶节点表示结果。在决策树中,最上方的节点称为根节点。它学习基于属性值进行分区。它以递归方式进行分区,称为递归分区。这种类似流程

    2023年04月27日
    浏览(60)
  • 机器学习实战:Python基于KDE核密度估计进行分布估计(十六)

    1.1 KDE简介 核密度估计( Kernel Density Estimation ,简称 KDE )是用于估计连续随机变量概率密度函数的非参数方法。它的工作原理是在每个数据点周围放置一个“ 核 ”(通常是某种平滑的、对称的函数),然后将这些核加起来,形成一个整体的估计。这可以被视为对直方图的平

    2024年02月07日
    浏览(35)
  • 吴恩达机器学习-可选实验:使用ScikitLearn进行线性回归(Linear Regression using Scikit-Learn)

    有一个开源的、商业上可用的机器学习工具包,叫做scikit-learn。这个工具包包含了你将在本课程中使用的许多算法的实现。 在本实验中,你将:利用scikit-learn实现使用梯度下降的线性回归 您将使用scikit-learn中的函数以及matplotlib和NumPy。 np.set_printoptions(precision=2) 的作用是告诉

    2024年03月14日
    浏览(49)
  • 机器学习实战:Python基于K均值K-means进行聚类(九)

    1.1 K-means的介绍 K均值( K-means )是一种基于距离度量的聚类算法,其主要思想是将数据集划分为k个不同的簇,每个簇代表一个相似度较高的数据组。该算法通过迭代优化来最小化所有数据点与其所属簇的欧氏距离之和,从而找到最佳的簇划分。 需要区分一下,K-means和KNN是两

    2024年02月16日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包