手把手教你做多重线性逐步回归-Toy模板网

这篇具有很好参考价值的文章主要介绍了手把手教你做多重线性逐步回归。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.案例背景与分析策略

1.1 案例背景介绍

某研究收集到美国50个州关于犯罪率的一组数据，包括人口、面积、收入、文盲率、高中毕业率、霜冻天数、犯罪率共7个指标，现在我们想考察一下州犯罪率和哪些指标有关。数据上传SPSSAU后，在 “我的数据”中查看浏览原始数据，前5行数据如下：

手把手教你做多重线性逐步回归

图1 “我的数据”查看浏览数据集

1.2 明确目的与分析策略

从数据分析的目的上，我们想了解犯罪率是否受到人口、面积、收入、文盲率、高中毕业率、霜冻天数6个方面的影响。影响因素分析，可以考虑回归分析、方差分析等统计方法，考虑到目标变量即因变量犯罪率为连续型数据，其他6个指标也为连续型变量，因此考虑尝试拟合多重线性回归模型，用以研究犯罪率的影响因素。

其中，犯罪率作为因变量，其他人口、面积等6个变量作为自变量。为高效分析、精简模型，本例将采用逐步回归的方式由模型自动筛选对因变量有影响的自变量。

2.初步数据分析

2.1 线性关系探查

拿到数据后，不宜马上开始线性回归拟合，应当首先探查各自变量X与因变量Y是否存在线性关系这一基础条件。如果拒绝该条件，则考虑对数据做转换或改用其他统计方法在SPSSAU中，可以借助“散点图”、“Pearson相关系数矩阵”初判X与Y的线性关系是否存在。

在“通用方法”栏目中选择【相关】，将人口~犯罪率共7个变量拖拽至【定量分析项】框中，默认选择“Pearson相关系数”，最后点击“开始分析”。

手把手教你做多重线性逐步回归

图2 自变量、因变量间的相关性

各变量两两间的线性相关系数见图2。人口、文盲率、高中毕业率、霜冻天气与犯罪率存在线性相关（均P值＜0.05），是我们重点的研究对象。面积、收入两个指标与犯罪率的相关系数无统计学意义，但考虑到专业经验与既往研究结论认为二者对犯罪率有线性关系，本次案例仍拟将二者作为次要因素参与线性拟合。

X与Y是否有线性关系，建议绘制多变量散点图矩阵，通过散点图观察线性趋势，比相关系数更直观高效。

2.2 共线性问题排查

由图2可知，6个自变量间相关系数绝对值介于（0.023，0.672）之间，初步认为各自变量间无强相关性。

在SPSSAU中，有两处功能可以实现线性回归。“通用方法”栏目下的【线性回归】适用于自变量较少的情况，此时拟考察的自变量将全部进入模型。而“进阶方法”栏目下的【逐步回归】适用于自变量较多的情况，此时众多自变量可以采取逐步回归的策略进入模型。

现在我们可以借助【线性回归】，考察所有6个自变量的多重共线性问题。打开【线性回归】界面，犯罪率移入【定量Y】框，其他6个自变量移入【定量X】框，不勾选“保存残差和预测值”选项，点击“开始分析”。

手把手教你做多重线性逐步回归

图3 线性回归系数、VIF、方差分析结果表格

图3中可见各自变量的VIF方差膨胀因子，一般认为VIF低于5（也有说法是低于10）可忽略共线性问题。本例中，VIF最高值为3.911低于5，再结合没有强相关性，初步判断认为，6个自变量间的共线性问题可忽略不计。

3.逐步回归分析

3.1 软件操作

自变量个数较少时，可采取强制纳入的方式，自变量个数较多时，可考虑采取逐步回归。有的研究会根据样本量大小，选择先做一元线性回归，逐个考察单个自变量的影响，然后再选择有显著影响的自变量做多重线性回归。结合相关性结果与样本量，本例拟直接采用逐步回归，接下来做多重线性逐步回归。

在“进阶方法”栏目下，选择【逐步回归】，将犯罪率拖拽至【定量Y】框内，人口、面积等6个自变量拖拽至【定量/定类X】框内。默认勾选【保存残差和预测值】，默认选择【逐步法】进行回归。最后点击“开始分析”即可。

手把手教你做多重线性逐步回归

图4 SPSSAU逐步回归操作界面

SPSSAU对用户极为友好，逐步回归的操作只需要拖拽变量即可完成，极大降低新手的操作难度。

3.2 回归结果解读

SPSSAU输出的回归结果表格，是一张整合后的三线表表格，内含回归系数、自变量显著性t检验、模型评价决定系数R评分，以及总体回归模型显著性检验结果。具体见下图5。

手把手教你做多重线性逐步回归

图5 逐步回归分析系数、VIF、方差分析结果表格

（1）最终模型中只保留了人口、文盲率，人口、文盲率对犯罪率的影响有统计学意义（t=2.808，p=0.007；t=6.978，p＜0.01）；面积、收入、高中毕业率、霜冻天数不在模型内，说明这4个自变量对犯罪率的影响无统计学意义。由标准化回归系数可知，对犯罪率的影响，相对而言是文盲率比人口相对要重要。

（2）回归模型：Hat Y = 1.652+0.00022*人口+4.081*文盲率；回归模型总体有统计学意义（F=30.75，P＜0.01）。

（3）模型调整后的R平方=0.548，即该回归模型可解释因变量犯罪率变化的54.8%，模型解释能力略先不足。