数学建模-线性回归

这篇具有很好参考价值的文章主要介绍了数学建模-线性回归。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

多元线性回归

回归分析: 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。

本次主要学习线性回归。(划分依据是因变量Y的类型)
ps. other 0-1回归,定序回归,计数回归,生存回归

(一)基本概念

a. 关键词

关键词: 相关性YX

相关性 != 因果性

Y 是需要研究的核心变量(因变量)

X是解释变量(自变量)

b. 回归分析的作用

  1. 分析哪些X变量是同Y真的相关,哪些不是 (变量选择) -----采用 逐步回归法
  2. 除去与Y不相关的X变量之后,需要分析这些重要的X同Y相关系数 正负 的关系
  3. 赋予不同X不同的权值(即不同的回归系数,进而知道不同变量之间的相对重要性)

三个使命:

一. 识别重要变量
二. 判断相关性的方向
三. 要估计权重(回归系数)

c. 线性回归的要求

模型: OLS 、GLS (最小二乘)
Y的特点:连续数值型变量
栗子: GDP、产量、收入

ps. 区分
数学建模-线性回归

d. 数据分类

  1. 横截面数据: 同一时间点收集的不同对象的数据 (各对象)
  2. 时间序列数据: 同一对象在不同时间连续观察的数据 (各时间)
  3. 面板数据:1和2的综合 (各对象+各时间)

ps.
数学建模-线性回归
所以在多元线性回归中重点关注 横截面数据

e. 一元线性回归

类似拟合的做法(一元线性函数拟合)

数学建模-拟合算法

(二)基础概念解释

a. 线性关系

线性假设不要求初始模型都呈现严格的线性关系
自变量和因变量可以通过变量替换转化成线性模型

所以 在进行线性回归模型进行建模前,需要对数据进行预处理(Excel、Matlab、Stata)

b. 回归系数的解释

在保持其他变量不变的情况下,XXX 每增加or减少一个单位,该产品的平均XXX 增加or减少 …

数学建模-线性回归
β0_h 的数值意义一般不讨论

βi_h 可以用数学中的偏导数来定义, 在保持其他变量不变的情况下,自变量xi的变化 对 yi 的影响

c. 内生性的探究

遗漏变量会导致内生性

数学建模-线性回归

假设的模型中u表示无法观测且满足一定条件的扰动项

如果满足误差项u和所有的自变量x均不相关,则该模型具有外生性

(如果相关则满足内生性,将会导致回归系数估计的不准确:不满足无偏和一致性

u包含了所有与y相关,但未添加到回归模型中的变量
如果这些变量和我们已经添加的自变量相关,则存在内生性

在一般模型中,被解释变量应该是内生的,解释变量应该是外生的,解释变量的取值是不能被我们的模型所决定的。

内生性产生的原因

  1. 测量误差(measurement error)
  2. 遗漏解释变量(explanatory variable omitted)
  3. 互为因果(simultaneity)

重点关注第2点

具体分析与解释: 内生性问题及其产生原因

我们也可以利用内生性的蒙特卡罗仿真进行模拟

蒙特卡罗方法详解

代码:数学建模多元线性回归内生性问题的蒙特卡洛模拟matlab代码

若要满足无内生性的条件很难满足,可以适当弱化条件:
将解释变量分成核心解释变量控制变量两类
只需满足核心解释变量与u不相关即可

d. 虚拟变量X

对于定性变量(性别、地域 and so on),可以利用虚拟变量给予数值定义

注意为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1 (在stata会进行自动处理,无需关心)

eg. from 清风数学建模
数学建模-线性回归

e. 含交互项的自变量

f. 球型扰动项

在之前的回归分析中,我们都默认了扰动项是球型扰动项。

球型扰动项:满足“同方差”和“无自相关”两个条件。

但是:
横截面数据容易出现异方差的问题

时间序列数据容易出现自相关的问题。

g. 异方差概念

这里的异方差可以理解为对于模型的稳定程度所做的贡献
异方差是指各个扰动项的方差不相同,那么方差较大的扰动项破坏模型稳定性的程度就较大

扰动项存在异方差:

  1. OLS估计出来的回归系数是无偏、一致的
  2. 假设检验无法使用(构造的统计量失效了)
  3. OLS估计量不再是最优线性无偏估计量(BLUE)

解决异方差:

  1. 使用OLS + 稳健的标准误
  2. 广义最小二乘估计法GLS

方差较小的数据给予更大的权重
方差较小的数据包含的信息较多,我们可以给予信息量大的数据更大的权重

e. 异方差的检验方法

采用假设检验法 (H0 & H1)

  1. BP检验
    方法:见 stata
    原假设:扰动项不存在异方差
    P值小于0.05,说明在95%的置信水平下拒绝原假设,即我们认为扰动项存在异方差。
  2. 怀特检验
    方法:见stata
    怀特检验原假设:不存在异方差

f. 异方差的处理方法

  1. 使用OLS + 稳健的标准误
    仍然进行OLS 回归,但使用稳健标准误
    这是最简单,也是目前通用的方法
    只要样本容量较大,即使在异方差的情况下,若使用稳健标准误,则所 有参数估计、假设检验均可照常进行。

  2. 广义最小二乘法GLS
    原理:方差较大的数据包含的信息较少,我们可以给予信息量大的数据(即方差
    较小的数据更大的权重)

缺点:我们不知道扰动项真实的协方差矩阵,因此我们只能用样本数据来估计,
这样得到的结果不稳健,存在偶然性。

Stock and Watson (2011)推荐,在大多数情况下应该使用“OLS + 稳健标准误”。

g. 多重共线性

from 清风数学建模课件

数学建模-线性回归

数学建模-线性回归

处理方法:

  1. 不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则
    通常可以 不必理会多重共线性(假设你的整个方程是显著的)

  2. 关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那
    么也可以不必理会。

  3. 多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导
    致严重共线性的变量(不要轻易删除,因为可能会有内生性的影响),或对
    模型设定进行修改。

h. 逐步回归分析

  1. 向前逐步回归
    将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。
    (缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,
    但是,并没有将其及时从回归方程中剔除掉。
    )

  2. 向后逐步回归
    与向前逐步回归相反
    先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。
    (缺点:计算量大。当然随着现在计算机的能力的提升,已经变得不成问题)

一般采用向后逐步回归

注意:

  1. 向前逐步回归和向后逐步回归的结果可能不同
  2. 不要轻易使用逐步回归分析,因为剔除了自变量后很有可能会产生新的问
    题,例如内生性问题
  3. 更加优秀的筛选方法:每种情况都尝试一次,最终一共有排列组合种可能。如果自变量很多,那么计算相当费时

(三)线性回归常用建模方法

a. 取对数ln处理

经验法则:
数学建模-线性回归

取对数的好处:

  1. 减弱数据的异方差性
  2. 如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布
  3. 模型形式的需要,让模型具有经济学意义

数学建模-线性回归ps. 详细见ppt
证明见 多元线性回归分析 II

b. 标准化回归系数

目的:去除量纲的影响
为了更为精准的研究影响评价量的重要因素

方法: 对数据进行标准化处理
将原始数据减去它的均数后,再除以该变量的标准差,计算得到新的变量值

新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化回归系数。

标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数)

注意:
常数项没有标准化回归系数: 常数的均值是其本身,经过标准化后变成了0.

和之前的回归结果完全相同,除了多了最后那一列标准化回归系数:
对数据进行标准化处理不会影响回归系数的标准误,也不会影响显著性.

c. 使用 OLS + 稳健的标准误 解决异方差问题

e. 利用逐步回归选取重要的变量

(四)利用Stata软件进行建模

a. 导入excel

import excel " " 

b. 描述性统计

  1. 对于定量数据
summarize 变量1 变量2 ....

可以直接图表中点击加入

  1. 对于定性数据
tabulate 变量名,gen(A)

返回对应的这个变量的频率分布表,并生成对应的虚拟变量(以A开头)。

也可以利用Excel的数据透视表进行分析

Excel 数据透视表怎么做
Excel的透视表:概念、用途、应用

c. 回归

regress y x1 x2 ... xk

ps. 在变量窗口中按住Shift不放,可同时选中一列,然后再直接拖动到输入区域

默认使用OLS:普通最小二乘估计法

from 清风数学建模课件
数学建模-线性回归

Stata会自动检测数据的完全多重共线性问题

e. 拟合优度 R2

若拟合优度较低
可以:

  1. 对模型进行调整,例如对数据取对数或者平方后再进行回归。
  2. 回归分为解释型回归和预测型回归
    预测型回归一般才会更看重𝑅2
    解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著
  3. 数据中可能有存在异常值或者数据的分布极度不均匀

我们引入的自变量越多,拟合优度会变大
倾向于使用调整后的拟合优度
数学建模-线性回归

f. 标准化回归

regress y x1 x2 ... xk, beta

g. 检验异方差

在回归结束后运行命令:
rvfplot (画残差与拟合值的散点图)
rvpplot x (画残差与自变量x的散点图)

h. BP检验

在回归结束后使用:
estat hettest ,rhs iid

属于异方差的假设检验

i. 怀特检验

在回归结束后使用:
estat imtest,white

j. OLS + 稳健的标准误

regress y x1 x2 … xk,robust

k. 检验多重共线性

Stata计算各自变量VIF的命令(在回归结束后使用):
estat vif

l. 向前逐步回归Forward selection

stepwise regress y x1 x2 … xk, pe(#1)

pe(#1) specifies the significance level for addition to the model; terms with p<#1 are eligible for addition(显著才加入模型中).

m. 向后逐步回归Backward elimination

tepwise regress y x1 x2 … xk, pr(#2)

pr(#2) specifies the significance level for removal from the model; terms with p>= #2 are eligible for removal(不显著就剔除出模型).

注:
(1)x1 x2 … xk之间不能有完全多重共线性 (和regress不同,要自己手动去设置)
(2)可以在后面再加参数b和r,即标准化回归系数或稳健标准误

(五)参考资料

清风数学建模

数学建模-拟合算法

内生性问题及其产生原因

蒙特卡罗方法详解

数学建模多元线性回归内生性问题的蒙特卡洛模拟matlab代码

Excel 数据透视表怎么做

Excel的透视表:概念、用途、应用

多元线性回归分析 II文章来源地址https://www.toymoban.com/news/detail-408560.html

到了这里,关于数学建模-线性回归的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数学建模matlab实现一元线性回归

            一元线性回归是统计学中用于建立一个自变量(或称为解释变量、预测变量)和一个因变量(或称为响应变量、被预测变量)之间的线性关系的回归模型。它假设两个变量之间存在一个直线关系,通过拟合这条直线,可以用自变量的值来预测因变量的值。     

    2024年01月21日
    浏览(51)
  • 数学建模matlab实现多元线性回归

            多元线性回归是统计学中一种常用的回归分析方法,用于研究多个自变量对一个连续因变量的关系。它基于线性假设,假设因变量与自变量之间存在线性关系。         在多元线性回归中,我们考虑多个自变量的影响,并试图找到一条最佳拟合直线(或超平面

    2024年02月02日
    浏览(48)
  • 数学建模学习笔记(9)多元线性回归分析(非常详细)

    回归分析的地位 :数据分析中最基础也是最重要的分析工作,绝大多数的数据分析问题都可以使用回归的思想来解决。 回归分析的任务 :通过研究自变量和因变量的相关关系,尝试用自变量来解释因变量的形成机制,从而达到通过自变量去预测因变量的目的。具体如下:

    2024年02月03日
    浏览(46)
  • 【数学建模】多元线性回归(Python&Matlab代码实现)

    目录 1 概述 2 算例1 2.1 算例 2.2 Python代码实现  2.3 结果 3 算例2  3.1 算例 3.2 Python代码 3.3 结果 4 算例3 4.1 算例 4.2 Python代码 4.3 结果 5 算例4——Matlab代码实现 5.1 算例 5.2 Matlab代码实现 5.3 结果  6 写在最后 一元线性回归模型研究的是一个因变量与一个自变量之间呈直线趋势的

    2023年04月15日
    浏览(48)
  • 数学建模【基于清风】:相关系数法与多元线性回归

    个人理解为:如果当X增加时,Y趋向于减少,斯皮尔曼,皮尔逊相关系数则为负。斯皮尔曼,皮尔逊相关系数为零表明当X增加时Y没有任何趋向性。当X和Y越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。 如 但是,对于相关系数来说,相关系数的大小与其

    2024年02月08日
    浏览(58)
  • 【数学建模笔记】【第七讲】多元线性回归分析(二):虚拟变量的设置以及交互项的解释,以及基于Stata的普通回归与标准化回归分析实例

    温馨提示: 本文共有9683字,阅读并理解全文需要半小时左右 书接上文,上文谈到内生性的解决之后,我们对回归问题的探究还没有完。 比如下面这个问题: 我们说线性回归他的表达式可以是广义的,可以含有二次项,可以含有对数项,那么含有对数项的模型中的β怎么解释

    2023年04月25日
    浏览(55)
  • 2023年数学建模:逻辑回归在数学建模中的应用

    目录 引言 逻辑回归原理 1. 数学原理 2. 直观解释

    2024年02月09日
    浏览(42)
  • 数学建模学习:岭回归和lasso回归

    线性回归 在多元线性回归模型中,估计回归系数使用的是OLS,并在最后讨论异方差和多重共线性对模型的影响。事实上,回归中自变量的选择大有门道,变量过多可能会导致多重共线性问题导致回归系数不显著,甚至造成OLS估计失效。 岭回归和lasso回归在OLS回归模型的损失函

    2024年02月08日
    浏览(50)
  • 数学建模常用模型——回归

            今天我们来介绍一下回归。回归在百度百科里面的定义是:回归是一种数学模型,研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。回归主要的种类有

    2024年02月16日
    浏览(39)
  • 数学建模|回归分析

    人们关心的 因变量 受 自变量 的关联性(非因果性)的影响,并且存在众多随机因素,难以用机理分析方法找出它们之间的关系;需要建立这些变量的数学模型,使得 能够根据自变量的数值预测因变量的大小,或者解释因变量的变化。 换句话说:回归分析是一种类相关性分析

    2024年02月04日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包