【机器学习】正规方程与梯度下降API及案例预测

这篇具有很好参考价值的文章主要介绍了【机器学习】正规方程与梯度下降API及案例预测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

正规方程与梯度下降API及案例预测

1. 正规方程与梯度下降

回归模型是机器学习中用于预测连续数值(实数)的模型,通常用于解决回归问题。两种常见的回归模型求解方法是正规方程和梯度下降。

正规方程(Normal Equation)

正规方程是一种封闭解法,用于直接计算线性回归模型的权重(系数)。

原理
给定一个线性回归模型的数据集,我们的目标是找到最佳的权重(系数)w,使得模型的预测值尽可能接近实际值。正规方程的原理是通过最小化损失函数来找到最佳权重。对于线性回归问题,损失函数通常是均方误差(Mean Squared Error):
J ( w ) = 1 2 m ∑ i = 1 m ( h w ( x ( i ) ) − y ( i ) ) 2 J(w) = \frac{1}{2m} \sum_{i=1}^{m} (h_w(x^{(i)}) - y^{(i)})^2 J(w)=2m1i=1m(hw(x(i))y(i))2

其中,m 是训练样本数量,
h w ( x ( i ) ) h_w(x^{(i)}) hw(x(i))
是模型的预测值,
y ( i ) y^{(i)} y(i)
是实际值。

正规方程的目标是找到权重w,使损失函数J(w)最小化。通过求解损失函数的梯度等于零的方程,可以得到权重w的解析解:

∇ J ( w ) = 0 \nabla J(w) = 0 J(w)=0

这个方程的解即为最佳权重w,从而得到线性回归模型。

优点

  • 正规方程提供了封闭解,不需要手动选择学习率或迭代次数。
  • 适用于小型数据集,通常在特征数量较少时表现良好。

缺点

  • 对于大型数据集,计算复杂度高,需要计算特征矩阵的逆,时间复杂度较高。
  • 不适用于非线性模型。

梯度下降(Gradient Descent)

梯度下降是一种迭代优化算法,用于调整模型的参数,使损失函数最小化。

原理
梯度下降的核心思想是通过迭代来更新模型参数,使损失函数逐渐减小。对于线性回归,梯度下降的损失函数是均方误差(Mean Squared Error),目标是最小化这个损失函数。

梯度下降的迭代过程如下:

  1. 初始化权重w。
  2. 计算损失函数J(w)关于权重 w w w的梯度
    ∇ J ( w ) \nabla J(w) J(w)
  3. 更新权重w,通常按照以下规则更新:
    w = w − α ∇ J ( w ) w = w - \alpha \nabla J(w) w=wαJ(w)
    ,其中α是学习率,控制每次更新的步长。
  4. 重复步骤2和3,直到满足停止条件(例如,达到最大迭代次数或损失函数收敛)。

梯度下降的关键是学习率α的选择,过大的学习率可能导致算法不收敛,过小的学习率可能导致收敛速度慢。

优点

  • 适用于大型数据集和高维特征,计算复杂度较低。
  • 可以用于各种不同类型的模型和损失函数,包括非线性模型。

缺点

  • 需要手动选择学习率和迭代次数,选择不当可能导致收敛问题或性能下降。
  • 对特征缩放和初始化敏感。

2. API

sklearn.linear_model.LinearRegression(fit_intercept=True)

  • 通过正规方程优化
  • fit_intercept:是否计算偏置
  • LinearRegression.coef_:回归系数
  • LinearRegression.intercept_:偏执

sklearn.linear_model.SGDRegressor(loss=“squared_loss”,fit_intercept=True,learning_rate=“invscaling”,eta0=0.01)

  • SGDRegressor类实现了随机梯度下降学习,它支持不同的loss函数和正则化惩罚项来拟合线性回归模型
  • loss:损失类型
    • loss=“squared_loss”:普通最小二乘法
  • fit_intercept:是否计算偏置
  • learning_rate:string,optional
    • 学习率填充
    • “constant”:eta=eta0
    • “optimal”:eta=1.0/(alpha*(t+t0))[default]
    • “invscaling”:eta=eta0/pow(t,power_t),power_t存在父类之中
    • 对于一个常数值的学习率来说,可以使用learning_rate=“constant”,并使用eta0来指定学习率
  • SGDRegressor.coef_:回归系数
  • SGDRegressor.intercept_:偏置

3. 波士顿房价预测

  • 实例数量:506,属性数量:13数值型或类别墅,帮助预测的属性
  • 属性信息:
    • CRIM城镇人均犯罪率
    • ZN占地面积超过2.5万平方英尺的住宅用地比例
    • INDUS城镇非零售业务地区的比例
    • CHAS查尔斯河虚拟变量(=1,如果土地在河边;否则是0)
    • NOX一氧化氮浓度(每1000万份)
    • RM平均每居民房数
    • AGE在1940年之前建成的所有者占用单位的比例
    • DIS与五个波士顿就业中心的加权距离
    • RAD辐射状公路的可达性指数
    • TAX每10000美元的全额物业税率
    • PTRATIO城镇师生比例
    • B 1000(Bk-0.63)^2其中Bk是城镇中的黑人比例
    • LSTAT人口中地位较低人群的百分数
    • MEDV以1000美元计算的自由住房的中位数
  • 缺失属性值:无

流程:文章来源地址https://www.toymoban.com/news/detail-743678.html

  • 获取数据集
  • 划分数据集
  • 特征工程:无量纲化处理–标准化
  • 预估器流程,fit()–>模型:coef_,intercept_
  • 模型评估
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

def linear_demo():
    """
    正规方程的方法对波士顿房价进行预测
    :return:
    """
    # 1. 获取数据
    boston = load_boston()
    # 2. 划分数据集
    x_train, x_test, y_train,y_test = train_test_split(boston.data, boston.target, random_state= 22)
    # 3. 标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 4. 预估器
    estimator = LinearRegression()
    estimator.fit(x_train, y_train)
    # 5. 得出模型
    print("权重系数为:\n", estimator.coef_)
    print("偏置为:\n", estimator.intercept_)
    # 6. 模型评估
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接对比真实值和预测值:\n", y_test == y_predict)
    score = estimator.score(x_test, y_test)
    print("准确率为:\n", score)
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDRegressor

def linear_demo():
    """
    梯度下降的方法对波士顿房价进行预测
    :return:
    """
    # 1. 获取数据
    boston = load_boston()
    # 2. 划分数据集
    x_train, x_test, y_train,y_test = train_test_split(boston.data, boston.target, random_state= 22)
    # 3. 标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 4. 预估器
    estimator = SGDRegressor()
    estimator.fit(x_train, y_train)
    # 5. 得出模型
    print("权重系数为:\n", estimator.coef_)
    print("偏置为:\n", estimator.intercept_)
    # 6. 模型评估
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接对比真实值和预测值:\n", y_test == y_predict)
    score = estimator.score(x_test, y_test)
    print("准确率为:\n", score)

到了这里,关于【机器学习】正规方程与梯度下降API及案例预测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python机器学习(三)特征预处理、鸢尾花案例--分类、线性回归、代价函数、梯度下降法、使用numpy、sklearn实现一元线性回归

    数据预处理的过程。数据存在不同的量纲、数据中存在离群值,需要稳定的转换数据,处理好的数据才能更好的去训练模型,减少误差的出现。 标准化 数据集的标准化对scikit-learn中实现的大多数机器学习算法来说是常见的要求,很多案例都需要标准化。如果个别特征或多或

    2024年02月16日
    浏览(46)
  • 机器学习——线性回归、梯度下降

    监督学习 :学习数据带有标签 无监督学习 :没有任何的标签,或者有相同的标签 其他:强化学习、推荐系统等 还是房价预测的例子, 训练集如下: 定义各个变量的含义如下: m——代表训练集中实例的数量 x——代表特征/输入变量 y——代表目标变量/输出变量 (x,y)——代

    2024年02月07日
    浏览(50)
  • 机器学习梯度下降法笔记

    梯度下降法(Gradient Descent)是一种常用的优化算法,用于在机器学习和深度学习中最小化或最大化一个函数的值。在机器学习中,梯度下降法常用于调整模型的参数,使得模型能够更好地拟合训练数据。 这个优化算法的基本思想是通过迭代的方式,不断调整参数的值,使得

    2024年02月15日
    浏览(48)
  • 机器学习——梯度下降法

    问:梯度下降法一定能求得最小值??? 答: 在某些情况下,梯度下降法可以找到函数的最小值,但并非总是如此。这取决于函数的形状和梯度下降法的参数设置。如果函数具有多个局部最小值,梯度下降法可能会收敛到其中一个局部最小值,而不是全局最小值。此外,如

    2023年04月08日
    浏览(43)
  • 机器学习_梯度下降

    计算梯度向量其几何意义,就是函数变化的方向,而且是变化最快的方向。对于函数f(x),在点(xo,yo),梯度向量的方向也就是y值增加最快的方向。也就是说,沿着梯度向量的方向 △f(xo),能找到函数的最大值。反过来说,沿着梯度向量相反的方向,也就是 -△f(xo)的方向,梯度

    2024年01月19日
    浏览(47)
  • 梯度下降与机器学习的关系

    梯度下降是一种优化算法,常用于机器学习中的参数优化问题。在机器学习中,我们通常需要通过调整模型的参数来最小化损失函数,从而使模型能够更好地拟合数据。梯度下降算法通过不断迭代更新参数,沿着损失函数的负梯度方向移动,逐步接近最优解。 以下是梯度下降

    2024年02月22日
    浏览(44)
  • [机器学习] 1. 梯度下降 Gradient Descent 与随机梯度下降 Stochastic Gradient Descent

    ML Theory 太魔怔了!!!!! 从微积分课上我们学到 对一个 (mathscr C^2) 函数,其二阶泰勒展开的皮亚诺余项形式 [f(bm w\\\') = f(bm w) + langle nabla f(bm w), bm w\\\' - bm wrangle + o(|bm w\\\' - bm w|)] 这说明只要 (bm w\\\') 和 (bm w) 挨得足够接近,我们就可以用 (f(bm w) + langle nabla f(

    2024年02月08日
    浏览(55)
  • 机器学习&&深度学习——随机梯度下降算法(及其优化)

    在我们没有办法得到解析解的时候,我们可以用过梯度下降来进行优化,这种方法几乎可以所有深度学习模型。 关于优化的东西,我自己曾经研究过智能排班算法和优化,所以关于如何找局部最小值,以及如何跳出局部最小值的一些基本思想是有感触的,随机梯度算法和其优

    2024年02月15日
    浏览(45)
  • 机器学习--决策树、线性模型、随机梯度下降

    🤵‍♂️ 个人主页:@Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+    目录  一、决策树 二、线性模型 三、随机梯度下降 决策树(decision

    2024年02月03日
    浏览(44)
  • 机器学习_通过梯度下降找到最佳参数

    所谓训练机器,也称拟合的过程,也就是 确定模型内部参数的过程 。具体到线性模型,也就是确定y’=wx+b 函数中的w和b。 对于线性回归来说,针对损失函数的 梯度下降 (gradient descent )方法可以使猜测沿着 正确的方向前进 ,因此总能找到比起上一次猜测时 误差更小的w和b组

    2024年01月21日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包