回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法，回归系数

这篇具有很好参考价值的文章主要介绍了回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法，回归系数。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. 多重共线性

多重共线性是指线性回归模型中的解释变量之间由于存在精确或高度相关关系。

例如：某个回归模型包含2个变量，年龄和工作经验年数，常识可知年龄越大，工作经验年数越大，两个变量可能存在高度关联，因此模型中可能存在多重共线性。

2. 多重共线性的危害

a. 模型估计失真 或 难以估计准确 或 稳定性降低，意味着回归方程的标准误差可能会增大；

b. 模型参数估计不准确，方差大，这也是模型估计不准的原进一步原因，至于为什么看3

c. 无法判断单独变量的影响，计算特征贡献度；

d. 因此自变量显著性可能会失去意义，本应该显著的自变量不显著，本不显著的自变量却是显著

3. 共线性的存在导致模型估计不准的原因

最小化损失函数的目的是找到一组最优回归系数，宏观定义上可以理解为模型参数。多重共线性的存在会导致模型参数估计不准确，进而导致模型估计失真 或 估计不准的问题。

简单穿插一下回归系数的概念：

回归系数：regression coefficient

        回归系数在回归方程中表示自变量 x 对因变量 y 影响大小的参数，它反映当自变量每变化一个单位时，因变量所期望的变化量。

        回归系数越大表示 x 对 y 的影响越大，正回归系数表示 y 随 x 增大而增大，负回归系数表示 y 随 x 增大而减小。

        例如回归方程式Y=bX+a中，斜率 b称为回归系数，表示X每变动一单位，平均而言，Y将变动b单位。

更通俗的讲：从线性回归的角度进一步理解回归系数。

        变量 y 与变量 x = (x1, x2, x3.....,xn)，之间的关系是 $多重共线性对回归模型的影响,机器学习细节研讨,回归,机器学习,人工智能,线性回归$ ，此时称 f(x) 为 y 对 x 的回归，f(x) 称为回归函数。通常在正态分布情形，若 f(x) 是 x 的线性函数 $多重共线性对回归模型的影响,机器学习细节研讨,回归,机器学习,人工智能,线性回归$ ，是回归常数，称为回归系数。

回到多重共线性的危害上：

如果模型中存在多重共线性，这说明至少有两个自变量 A 和 B 是高度或完全相关的，即两个变量的变化趋势一致，其中一个变化，另一个也会发生类似的变化。相关性越强，在只改变A，不改变B的情况下，单纯从A的变化解释Y的变化就很困难，也就是和实际不符（实际环境可能是从A和B共同变化的角度解释Y的变化，因此很难理解）。

因此，会降低估计系数的可信度或者降低模型的稳定性和性能。