回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法,回归系数

这篇具有很好参考价值的文章主要介绍了回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法,回归系数。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 多重共线性       

        多重共线性是指线性回归模型中的解释变量之间由于存在精确或高度相关关系

        例如:某个回归模型包含2个变量,年龄工作经验年数,常识可知年龄越大,工作经验年数越大,两个变量可能存在高度关联,因此模型中可能存在多重共线性

2. 多重共线性的危害

        a. 模型估计失真难以估计准确 稳定性降低,意味着回归方程的标准误差可能会增大;

        b. 模型参数估计不准确,方差大,这也是模型估计不准的原进一步原因,至于为什么看3

        c. 无法判断单独变量的影响,计算特征贡献度;

        d. 因此自变量显著性可能会失去意义,本应该显著的自变量不显著,本不显著的自变量却是显著

3. 共线性的存在导致模型估计不准的原因

        最小化损失函数的目的是找到一组最优回归系数,宏观定义上可以理解为模型参数。多重共线性的存在会导致模型参数估计不准确,进而导致模型估计失真估计不准的问题

        简单穿插一下回归系数的概念:

回归系数:regression coefficient

        回归系数在 回归方程 中表示 自变量 x 对 因变量 y 影响大小的参数,它反映当自变量每变化一个单位时,因变量所期望的变化量

        回归系数越大表示 x 对 y 的影响越大,正回归系数表示 y 随 x 增大而增大,负回归系数表示 y 随 x 增大而减小。

        例如回归方程式Y=bX+a中,斜率 b称为回归系数,表示X每变动一单位,平均而言,Y将变动b单位。

更通俗的讲:从线性回归的角度进一步理解回归系数。

        变量 y 与变量 x = (x1, x2, x3.....,xn),之间的关系是 多重共线性对回归模型的影响,机器学习细节研讨,回归,机器学习,人工智能,线性回归,此时称 f(x) 为 y 对 x 的回归,f(x) 称为回归函数。通常在正态分布情形,若 f(x) 是 x 的线性函数多重共线性对回归模型的影响,机器学习细节研讨,回归,机器学习,人工智能,线性回归 ,是回归常数, 称为回归系数

        回到多重共线性的危害上:

        如果模型中存在多重共线性,这说明至少有两个自变量 A 和 B 是高度或完全相关的,即两个变量的变化趋势一致,其中一个变化,另一个也会发生类似的变化。相关性越强,在只改变A,不改变B的情况下,单纯从A的变化解释Y的变化就很困难,也就是和实际不符(实际环境可能是从A和B共同变化的角度解释Y的变化,因此很难理解)。

        因此,会降低估计系数的可信度 或者 降低模型 的稳定性和性能。

4. 判断标准

        a. 皮尔逊相关系数,可以解释连续型变量之间的线性相关程度,该值大于0.8,则可以认为存在多重共线性;对于连续型—离散型和离散型—离散型的变量对,则可以利用其他的方式(后续会另开一篇);

        b.  实现增加一个变量或者删除一个变量,观察回归系数的值是否有很大变化,若变化很大,则说明该变量的估计系数不可信 或 不稳定;

        c. 如果说 F 检验通过,并且决定系数值也较大,但是 t 检验并不显著,也可能存在多重共线性;

        d. 回归系数的正负符号与专业知识相反或与实际分析结果不符,也会存在多重共线性的可能。

以上a ~ d,均为主观判断方法;还有一种正规的检验方法!

        观察回归分析中的VIF值(方差膨胀因子),表达式1 / (1 - r2)。多重共线性会使参数估计值的方差变大,方差膨胀因子越大,说明共线性越强。通常的判断标准是VIF值大于10,即具有多重共线性,有的文献也说大于5即有共线性。​​​​​​​

5. 解决办法,如何消除多重共线性​​​​​​​

        a. 保留一个变量,并删除与其高度相关的其他变量,以逐步回归法得到最广泛的应用;

        b. 引入L1 和 L2 正则化,减少参数量的方差,降低VIF,可以处理多重共线性;

        c. 特征合并或者特征组合,将相关变量线性组合在一起处理;

        d. 特征降维,如PCA

        e. 差分法,时间序列数据、线性模型:将原模型变换为差分模型(转自百度百科,我没懂。。)

上述内容源自:回归系数_百度百科,多重共线性_百度百科,​​​​​​​速进!!关于多重共线性你知道多少? - 知乎 以及 自己的学习和理解,可以的话,这几篇都可以看看。文章来源地址https://www.toymoban.com/news/detail-679441.html

到了这里,关于回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法,回归系数的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习300问】11、多元线性回归模型和一元线性回归有什么不同?

            在之前的文章中,我们已经学习了一元线性回归模型,其中最关键的参数是w和b。机器学习的目的就是去得到合适w和b后能准确预测未知数据。但现实世界是复杂的,一个事情的发生绝大多数时候不会是一个原因导致。         因此多元线性回归模型区别与一元线

    2024年01月22日
    浏览(35)
  • 【机器学习】线性回归模型详解

    PS:本文有一定阅读门槛,如果有不明白的地方欢迎评论询问! 接下来我们将要学习我们的第一个模型——线性回归。比如说我需要根据数据预测某个面积的房子可以卖多少钱 接下来我们会用到以下符号: m:训练样本数量 x:输入值,又称为属性值 y:输出值,是我们需要的结果

    2024年02月03日
    浏览(52)
  • 线性回归模型分析学生成绩

    LinearRegression 是线性回归模型的实现类; train_test_split 用于将数据集分成训练集和测试集; cross_val_score 用于交叉验证; r2_score 用于评估模型在测试集上的预测性能。 计算各个特征之间的相关系数,并打印输出 corr_matrix = df.corr() print(corr_matrix) 使用 corr() 方法计算各个特征之间

    2024年02月06日
    浏览(37)
  • 多元线性回归模型

    目录 一、一元线性回归之旧轿车价格案例 二、多元线性回归之洞庭湖污染物案例实测 三、说一说plot函数的用法 四、感想 直接上例题 一、一元线性回归之旧轿车价格案 以x表示使用年数,y表示相应平均价格。根据表中x、y的数据,建立一个数据模型,分析旧轿车平均价格与

    2024年02月05日
    浏览(30)
  • 机器学习10—多元线性回归模型

    在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化

    2023年04月24日
    浏览(33)
  • 用Pytorch实现线性回归模型

    前面已经学习过线性模型相关的内容,实现线性模型的过程并没有使用到Pytorch。 这节课主要是利用Pytorch实现线性模型。 学习器训练: 确定模型(函数) 定义损失函数 优化器优化(SGD) 之前用过Pytorch的Tensor进行Forward、Backward计算。 现在利用Pytorch框架来实现。 准备数据集

    2024年01月19日
    浏览(35)
  • 基于Python多元线性回归模型

    提示:基于Python的多元线性回归模型 文章目录 前言 一、读取数据 二、建立模型  三、预测新值  四、去截距模型 总结 本文主要是基于多元回归线性模型,然后建立模型和分析,解决多元线性回归模型存在的问题和优化多元线性回归模型,原理就不多讲了,可查看《应用回

    2024年02月07日
    浏览(34)
  • Python构建简单线性回归模型教程

    本文介绍如何构建简单线性回归模型及计算其准确率,最后介绍如何持久化模型。 线性回归表示发现函数使用线性组合表示输入变量。简单线性回归很容易理解,使用了基本的回归技术,一旦理解了这些基本概念,可以更好地学习其他类型的回归模型。 回归用于发现输入变

    2023年04月21日
    浏览(28)
  • 如何对多元线性回归模型调参?

    多元线性回归模型通常不像复杂的机器学习模型那样拥有许多可调节的超参数。然而,仍有一些关键步骤和技巧可以用于优化多元线性回归模型的性能: 特征选择 移除无关特征:通过分析特征与目标变量的关联度,移除与目标变量关联度低的特征。 使用特征选择方法:可以

    2024年01月23日
    浏览(31)
  • 【AI】机器学习——线性模型(逻辑斯蒂回归)

    逻辑回归输出的是实例属于每个类别的似然概率,似然概率最大的类别就是分类结果 在一定条件下,逻辑回归模型与朴素贝叶斯分类器等价 多分类问题可以通过多次二分类或者Softmax回归解决 3. 线性回归模型 4.4 线性分类模型——感知器 目标:用判别模型解决分类问题 4.1.

    2024年02月09日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包