Stata 回归结果详解

这篇具有很好参考价值的文章主要介绍了Stata 回归结果详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、数据信息

使用stata自带的auto数据,
被解释变量(因变量):price(价格)
解释变量(自变量):mpg(里程)、rep78(1978年后的修理记录)、weight(重量)、length(长度)、foreign(本土/国外品牌)
Stata 回归结果详解
回归结果分两部分,上半部分为回归结果的总体描述信息,下半部分为具体变量信息。

二、指标

1.上半部分

指标 英文 名称 解释
SS sum of squares 平方和
df degrees of freedom 自由度
MS mean square 均方差
Model(SSM) sum of squares model 模型平方和 衡量预测值的离散程度
Residual(SSR) sum of squares residual 残差平方和 衡量预测值与真实值的偏差程度
Total(SST) sum of squares total 总平方和 衡量真实数据的离散程度
Number of obs 观测值数量 观测值数量
F(a,b) F值 检验系数不为0的概率
Prob > F P值 1%、5%、10%水平上显著
R-squared 拟合系数 表示模型的拟合程度
Adj R-squared 调整后的拟合系数 更精确的表示模型的拟合程度
Root MSE Root Mean square of error 均误差平方根 衡量模型中的误差项的大小

2.下半部分

指标 英文名 中文名 解释
Coefficient 系数 β
Std. err. The standard error of the coefficient 回归系数标准误 估计系数的波动水平
t t值 检验系数不为0的概率
p > [t] P值 1%、5%、10%水平上显著
[95% conf. interval] confidence interval 置信区间 回归系数取值范围,该范围有效率是95%

三、详细解释

Stata 回归结果详解

SSM - 模型平方和

每一个预测值与平均值之间距离的平方之和
Stata 回归结果详解
SSM越大越好

SSR - 残差平方和

每一个真实值与预测值之间距离的平方之和,即误差项的平方和
Stata 回归结果详解
SSR越小越好

SST - 总平方和

每一个真实值与平均值之间距离的平方之和,用于衡量真实值的离散程度
Stata 回归结果详解
SST = SSM + SSR ,即【总平方和=模型平方和+残差平方和】

R-squared - R方 - 拟合系数

拟合系数表示模型能解释的数据波动占总体波动的百分比,表示拟合程度
R方越高,表示模型的拟合程度越高,回归预测越准确
R方的值在0到1之间,具体的大小并无要求,需要根据不同的领域具体判断,在某些领域,10%-30%是合理的;而在某些领域甚至达到50%才是合理。
Stata 回归结果详解

Adj R-squared - 调整后的拟合系数

R-squared无法控制变量的增加而导致过度拟合,Adj R-squared则在此基础上,引入了自变量的个数这一因素,以更加准确地评估模型的拟合效果。
在多元线性回归模型中,当自变量的数量增加时,R-squared也会随之增加。但是,当自变量的数量增加时,也容易出现过拟合(overfitting)现象,导致模型的预测能力下降。因此,为了避免过拟合,我们需要使用Adj R-squared对R-squared进行修正。Adj R-squared可以更精确地反映自变量对因变量的解释程度,避免了因自变量数量增加而导致的过拟合问题,是多元线性回归模型中一个比较重要的评估指标。

df - 自由度

自由度是表示能够自由变动的变量的个数

例如:有3个变量a、b、c,加入限制条件 a + b + c = 100,则a和b任意取一个值后,c无法自由取值,即df=2。
在本文章的数据中,观测值 n= 69,自由度 df = 69 - 1 = 68

本章数据中,假设观测值个数为n,自变量个数为k,则:
df_Total = n - 1
df_Model = k (不是k-1,因为模型中有常数项β0,所以模型的自由度就是自变量个数)
df_Residual = n - k -1 = 69 - 5 - 1 = 63

MS - 均方差

MS = SS / df

简单理解就是平方和的平均数

F - 总体显著性检验

F = MS_Model / MS_Residual

原假设H0:所有系数β均为0
备择假设H1:系数β不全为0

F值越大越好

Prob > F - P值

P值表示在在原假设成立的情况下,能够得到F值的概率,通常有模型在1%、5%、10%水平下拒绝原假设,从而认为自变量对因变量影响的显著水平,也可以说模型在1%、5%、10%水平上显著。
P值由F值查表得出

P值指的是假设检验中得到的显著性水平,其英文单词为"p-value"。其中,p表示概率(probability),value则代表一个数值,即显著性水平。
P值表示在在原假设成立的情况下,能够得到F值的概率,通常有模型在1%、5%、10%水平下拒绝原假设,从而认为自变量对因变量影响的显著水平,也可以说模型在1%、5%、10%水平上显著。
当 P < 0.1 时,模型在10%水平上显著。
当 P < 0.05 时,模型在5%水平上显著。
当 P < 0.01 时,模型在1%水平上显著。

P值越小越好

Root MSE

衡量模型中的误差项的大小,Root MSE越大,误差越大
Stata 回归结果详解
Root MSE越小越好

Coef.

回归系数,其中_cons表示常数项

例:连续变量和0-1变量的解释不用,本文数据中:
车辆重量weight为连续变量,weight每增加一千克,价格price将增加6.006738美元。
是否为外国车辆foreign为0-1变量,当foreigh=1时,价格price将增加3303.213美元。

Std. Err.

衡量估计系数的波动水平

t

t = Coef. / Std. Err.

t检验中的字母t来源于英文单词"t-distribution",也就是t分布。T分布是一种概率分布函数,是一类常用于小样本假设检验的概率分布。T分布的形态与自由度有关,当自由度越大时,T分布越趋近于标准正态分布。在t检验中,t值的计算需要用到样本均值、标准差和样本量,然后再根据自由度和置信水平查找t分布表,得到检验的p值,以此来判断是否拒绝零假设。

越大越好

P > | t |

仍是P值,根据t值查表获得

当 | t | > 1.65 或 P < 0.1 时,模型在10%水平上显著,标记*。
当 | t | > 1.96 或 P < 0.05 时,模型在5%水平上显著,标记**。
当 | t | > 2.58 或 P < 0.01 时,模型在1%水平上显著,标记***。

越小越好

95% Conf. Interval

95%置信区间,表示回归系数的取值范围,该范围有效的概率是95%文章来源地址https://www.toymoban.com/news/detail-438986.html

到了这里,关于Stata 回归结果详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Stata | 分组回归系数差异性检验

    这篇博客介绍的是在两个样本组的模型设定是一样的情形下,进行分组回归后,比较相同变量中二者在系数大小上是否显著差异。如果系数差异显著,则说明二者在经济意义上显著差异。 因为我们常常使用的数据是面板数据,并且,我们常常由于控制很多固定效应,导致在进

    2023年04月11日
    浏览(34)
  • stata基础--回归,画散点图,异质性分析

    代码: sysuse auto sysuse dir       /*可以看到所有的数据*/ su price mpg foreign reg price mpg predict u,residual       /* 新变量u=每一个观测的残差*/                                    /*生成残差u需要紧接着回归*/ mpg和price在0.01显著性水平上负相关。 经验回归方程:

    2024年02月01日
    浏览(24)
  • stata回归?固定效应模型(组内变换OR LSDV最小二乘法)

    面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据分析与Stata应用课程,笔记中部分图片来自课程截图。 笔记内容还参考了陈强教授的《高级计量经济学及Stata应用(第二版)》 面板数据(panel data或longitudinaldata),指的是在一段时间内跟踪同一组个体

    2024年02月02日
    浏览(30)
  • 【数学建模笔记】【第七讲】多元线性回归分析(二):虚拟变量的设置以及交互项的解释,以及基于Stata的普通回归与标准化回归分析实例

    温馨提示: 本文共有9683字,阅读并理解全文需要半小时左右 书接上文,上文谈到内生性的解决之后,我们对回归问题的探究还没有完。 比如下面这个问题: 我们说线性回归他的表达式可以是广义的,可以含有二次项,可以含有对数项,那么含有对数项的模型中的β怎么解释

    2023年04月25日
    浏览(38)
  • 面板数据协整检验(Stata)

    当时间序列数据存在非平稳性时,直接将经济变量进行回归可能产生伪回归问题。针对非平稳数据计量建模,首先要判定这些变量是否存在同阶单整,如果满足同阶单整,才有必要对这些变量进行协整检验。当所涉及的变量存在协整时,由这些变量构建的回归模型才有意义,

    2024年02月05日
    浏览(30)
  • 面板数据缺失填补-stata实现线性插值法过程

    目录 一、原始数据说明: 二、代码及过程解释 1.设定面板数据 2.内插法填补数据 3.外插法填补数据 三、注意事项 线性插值是指插值函数为一次多项式的插值方式,其在插值节点上的插值误差为零。线性插值相比其他插值方式,如抛物线插值,具有简单、方便的特点。线性插

    2023年04月22日
    浏览(28)
  • 跨国面板数据(1960-2020)九:企业、创业、进出口成本(excel、stata版)

    跨国面板数据(1960-2020)九:企业、创业、进出口成本(excel、stata版) 数据来源:世界银行 数据范围:1996-2020年,全球264个国家 作者收集整理所得!!! 下载地址:https://bbs.pinggu.org/thread-10896759-1-1.html 具体指标包括: 企业信息披露程度指数(0=信息披露少,10=信息披露多

    2023年04月19日
    浏览(26)
  • 计量经济学及Stata应用 陈强 第九章模型设定与数据问题习题9.4

    9.4使用数据集Growth.dta考察贸易与增长的关系。该数据集的被解释变量为65个国家1960-1995年的平均增长率(growth),而主要解释变量为1960-1995年的平均贸易开放度(tradeshare) (1)将growth与tradeshare的散点图与线性拟合图画在一起,二者看上去是否有关系? (2)有一个国家马耳

    2024年02月04日
    浏览(70)
  • 计量经济学及Stata应用 陈强 第九章模型设定与数据问题习题9.5

    9.5美国的汽油需求函数是否稳定?使用数据集gasoline.dta,估计美国1953-2004年的汽油需求函数: 其中,被解释变量lgasq为人均汽油消费量的对数,解释变量lincome为人均收入对数,lgasp为汽油价格指数的对数,lpnc为新车价格指数的对数,lpuc为二手车价格指数的对数。 (1)将lgas

    2024年02月06日
    浏览(117)
  • stata学习笔记(一)stata入门与基本操作

    这里开个新坑,主题有关stata使用以及定量分析入门,主要内容来自于之前与之后的课程学习、作业以及资料查询整理,主要目的是对个人学习过程的一个记录,方便日后回顾。 方法1:点击文件选项,选择导入,根据数据类型选择即可; 方法2::点击进入数据编辑器界面,点

    2024年02月21日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包