SPSS----加权回归分析你了解多少(随笔笔记)

这篇具有很好参考价值的文章主要介绍了SPSS----加权回归分析你了解多少(随笔笔记)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

spss统计分析书中这样写到:
在线性回归模型中,有一个同方差性假设,就是要求所有观测对回归模型的变异具有相同的贡献,以此为基础的回归方法称之为普通最小二乘法(OLS)。当因某些观测的变异较其他观测大而导致样本的方差不等时,就不能使用OLS方法了。如果观测的变异是可以通过其他变量进行预测,就可以使用加权最小二乘法(WLS)来拟合线性回归模型。WLS实际上是在回归中按观测量方差的倒数对观测进行加权,这样就会降低具有较大方差的观测记录对计算过程的影响。

例如在研究通货膨胀和失业率对股票价格的影响时,考虑到高市值的股票较低市值的具有更高的变异性(价格波动大),使用OLS法便不能很好地反应制定因素对变异性较大的股票的影响,这个时候就需要使用WLS方法来解决这个问题

数学公式:
它的回归方程仍然是
SPSS----加权回归分析你了解多少(随笔笔记)

唯一区别是代价函数变成了
SPSS----加权回归分析你了解多少(随笔笔记)w为权重

数据要求和假设:

  1. 自变量和因变量:应该是数值型变量,类似于宗教、民族和地区这样的分类变量应该重新编码成二分类变量或其他的对照(contrast)变量;

  2. 加权变量必须是与因变量有关的数值型变量;

  3. 对于自变量的每个取值,对应因变量的取值分布必须是正态的;

  4. 因变量和每一个自变量的相关关系应该是线性的;

  5. 所有观测量之间相互独立;

  6. 各观测的方差可以不同,但是这些差异可以通过加权变量进行预测;

spss中的回归有很多,单因素、多因素线性回归,曲线回归,逻辑斯蒂回归(分类问题)等等。

spss中至少有两种方式实现加权线性回归:

一种是在线性回归中直接指定WLS权重
SPSS----加权回归分析你了解多少(随笔笔记)
这种指定的可以新建一列数据,如果是实验的频次不同则可以通过频次的数量来加权,实验次数多的权重大。或者还有其他指定权重的方式。

另一种就是回归中的权重估算SPSS----加权回归分析你了解多少(随笔笔记)
这种指定的权重变量只需要设定权重变量和幂范围就可以了,软件会自动计算幂范围内的每一个权重,权重为权重变量取幂后的倒数 公式:1/(weight variable)**n,步长为设定的0.5或其他,进而得到对数似然值最大的那个n,并计算得到最佳权重,用最佳的权重进行加权回归。

还是以spss自带的数据 “mallcost.sav“ 进行分析。
SPSS----加权回归分析你了解多少(随笔笔记)
使用加权最小二乘法,主要过程分为方差诊断和权重估计两个步骤
方差诊断:
先利用OLS方法对原始数据建立简单线性模型,并绘制其残差对预测值的散点图,如果残差均匀分布在某条与横轴平行的横线附近说明样本的方差基本相等;反之,如果方差呈现明显的喇叭口形状或其他不规则形状,说明样本方差不相等,有必要进行WLS估计。

如果只有一个自变量,可以直接作因变量对自变量的散点图,观察因变量的分布是否均匀,判断方法与残差图相似。

估计权重
如果认为因变量的方差与其他变量之间存在着相关关系,就可以使用WLS来估计权重,常用的估计方法有如下两种:

①利用数据的复制集来估计权重。

要使用WLS估计回归模型,就需要先计算每一个观测的变异性。一种比较好的方法是将具有相同特点或近似特点的数据进行编组(数据的复制集),然后计算因变量在各编组中的方差,并以此方差的倒数作为相应编组中观测的权重。

②利用变量估计权重。

利用方差与其他变量的相关关系估计权重,因变量的方差经常与自变量有关。例如:高市值的股票价格具有较大的方差,具有研究生学历的人员的工资方差要比那些没有获得学位人员的工资方差高出许多。


先用线性回归看一下残差的分布情况图为:
SPSS----加权回归分析你了解多少(随笔笔记)
上图中随着预测值的增大,残差也有增大的趋势,故而可以否定OLS中关于同方差的假设,建议采用WLS方法对这个问题进行分析。

用权重估计进行回归:
SPSS----加权回归分析你了解多少(随笔笔记)
最终得到的结果
SPSS----加权回归分析你了解多少(随笔笔记)
SPSS----加权回归分析你了解多少(随笔笔记)
对数似然值中3.5取值出对数似然值最大。所以加权中的幂取3.5.
R方也大
从F统计量的显著性看远小于0.05,因此由加权回归模型所解释的变异系数远大于由残差所解释的变异系数,回归效果很好
由系数估计结果可看出,各个变量系数及常数项的t检验的Sig的值均小于显著性水平0.05,因此加权回归模型的系数显著有效
最终的公式为:53.438+149.273×面积-26.533×商业街种类-2.209×从业年数
并且最终在原表中增加了一列为权重值,为:面积**(-3.5)
SPSS----加权回归分析你了解多少(随笔笔记)
如果此时选择第一种用线性回归模型,选择WLS权重栏中点入这个数据,那么和加权分析得到的系数结果都是一样的。

我们用公式计算出他的预测值,然后用 sum(权重*(y真实值-y预测值)**2)得到的残差结果就是上表中的78612.250

我感觉这个例子不是很好,因为我计算出来残差以后,绘出残差的分布图,感觉也不是很好。随着预测值的增加残差也会增大,只是异常单变少了。还在研究中。但是比其他的回归方式好很多,我试了各种的回归,残差都很大,只有这一个是最小的。


以上所有,都是书中或者网络上已经说得很清楚了,但是还是有很多疑点,比如数据量很多,在使用线性回归后效果不显著,残差分布不理想的,改用加权回归后,应该对哪一个数据进行加权,要怎么选择,只是说与因变量有关的数值型变量,如果有两个参数同时对因变量印象很大呢,很多都没有给出具体的说明。
就像本例中为什么选择面积,也没有说明。
那么想一下,权重估计是在残差平方乘上权重,再求和,如果这一行数据会使得残差波动变大,那么这一行的权重就应该相应的降低,这样才能保证最终残差的稳定。
那么在这一行也就一定有影响y_pred的值波动很大的变量。
对于同样上面的数据,我们在进行一次线性回归,然后保存标准化后的残差值。
SPSS----加权回归分析你了解多少(随笔笔记)
这是不加权重估计的,得到的残差一定是不齐性的,上面已经说过了。
那么这个残差和不同变量之间的关系又是怎样的?
我们绘制散点图,用标准化残差做y轴,分别用面积和建筑师从业年数做x轴。看一下随着面积或者从业年数的增加,标准化残差的变化。
分别得到下面的图:
SPSS----加权回归分析你了解多少(随笔笔记)
SPSS----加权回归分析你了解多少(随笔笔记)
对于上面两张图,很明显的能看到他们的位置信息变化规律。当面积增大时,残差也会相应的增大,当从业年数增大时,残差没有明显的变化规律。所以面积对残差的影响大于从业年数。
可以看出面积在增大,残差在增大,所以面积越大,它所拥有的权重就应该越小。由于权重是变量导数的n次幂,针对面积越大权重应该越小的法则,这个n应该为正数,所以本例在书本中也是直接填写的正数1-5。网上也有负数的案例。

总结:对于加权回归,其实还是在线性回归的基础上,只是更改了损失函数,加了权重,这个权重的意义就是这一行数据某一个变量对结果的影响的重要性,接下来就是怎么找,找到后怎么做,结果的理想程度能不能接受。文章来源地址https://www.toymoban.com/news/detail-454308.html

到了这里,关于SPSS----加权回归分析你了解多少(随笔笔记)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 学习笔记|秩相关分析|Spearman相关分析|Kendall相关分析|规范表达|《小白爱上SPSS》课程:SPSS第十九讲:秩相关分析怎么做?

    SPSS第十九讲:秩相关分析怎么做? IBM SPSS Statistics 26。 《小白爱上SPSS》课程 #统计原理 前面我们学习过线性相关分析,已知线性相关分析针对的是符合正态性分布的连续型变量,然而在科学研究中,有些数据不符合正态性分布,有些数据也并不连续,只能用定序尺度来度量

    2024年04月29日
    浏览(43)
  • 泊松回归和地理加权泊松回归

    01 泊松回归 泊松回归(Poisson Regression)是一种广义线性模型,用于建立离散型响应变量(计数数据)与一个或多个预测变量之间的关系。它以法国数学家西蒙·丹尼·泊松(Siméon Denis Poisson)的名字命名,适用于计算“事件发生次数”的概率,比如交通事故发生次数、产品缺

    2024年02月11日
    浏览(43)
  • R语言数据分析笔记——方差分析(单因素方差分析、双因素方差分析)在Excel、SPSS、R语言中的操作)

    前言:本文为个人学习笔记,为各大网站上的教学内容之综合整理,综合整理了①方差分析的基础知识、②方差分析(单因素方差分析、双因素方差分析)在Excel、SPSS、R语言中的操作),尽量标明出处。另因能力所限或有纰漏之处,故仅供参考,欢迎交流指正。 基本概念 指

    2024年02月05日
    浏览(45)
  • 多元线性回归算法(SPSS)

    接上篇 (1条消息) 多元线性回归算法(matlab)_成、谋的博客-CSDN博客 本篇博客主要参考自文章: (1条消息) 数学建模暑期集训6:用SPSS对数据进行多元线性回归分析_zstar-_的博客-CSDN博客_多元线性回归分析spss 三个变量:树干直径、树干高度、树干体积, 树干体积和树干直径、

    2023年04月20日
    浏览(45)
  • 环境混合物总体效应:加权分位数和回归(WQS)

    加权分位数和(Weighted Quantile Sum, WQS)回归是一种在环境暴露中常见的高维数据集的多元回归的统计模型。该模型允许通过有监督的方式构建一个加权指数,以评估环境暴露的总体效应以及混合物中每一个成分对总体效应的贡献。 首先若某一类环境混合物中共有i个component,将每

    2024年02月01日
    浏览(42)
  • 如何用SPSS做logistic回归

    参考教程:B站教程👈课讲的挺垃圾的,主要还是看pdf👈pdf其实也蛮垃圾的,主要还是看文献1和2 通过该例,我们尝试用年龄、肿瘤大小、肿瘤扩散等级来预测癌变部位的淋巴结是否含有癌细胞。 无法使用多元线性回归模型的原因,老师在这里提到“因为残差不满足正态性、

    2024年02月06日
    浏览(37)
  • Python实现竞争性自适应重加权采样法(CARS)进行特征变量选择并构建LightGBM回归模型(LGBMRegressor算法)项目实战

    说明:这是一个机器学习实战项目(附带 数据+代码+文档+视频讲解 ),如需 数据+代码+文档+视频讲解 可以直接到文章最后获取。 竞争性自适应重加权采样法(competitive adapative reweighted sampling, CARS)是一种结合蒙特卡洛采样与PLS模型回归系数的特征变量选择方法,模仿达尔

    2024年02月02日
    浏览(38)
  • 数学建模学习笔记(9)多元线性回归分析(非常详细)

    回归分析的地位 :数据分析中最基础也是最重要的分析工作,绝大多数的数据分析问题都可以使用回归的思想来解决。 回归分析的任务 :通过研究自变量和因变量的相关关系,尝试用自变量来解释因变量的形成机制,从而达到通过自变量去预测因变量的目的。具体如下:

    2024年02月03日
    浏览(44)
  • 【数学建模笔记】【第七讲】多元线性回归分析(二):虚拟变量的设置以及交互项的解释,以及基于Stata的普通回归与标准化回归分析实例

    温馨提示: 本文共有9683字,阅读并理解全文需要半小时左右 书接上文,上文谈到内生性的解决之后,我们对回归问题的探究还没有完。 比如下面这个问题: 我们说线性回归他的表达式可以是广义的,可以含有二次项,可以含有对数项,那么含有对数项的模型中的β怎么解释

    2023年04月25日
    浏览(52)
  • 线性神经网路——线性回归随笔【深度学习】【PyTorch】【d2l】

    线性回归是显式解,深度学习中绝大多数遇到的都是隐式解。 3.1.1、PyTorch 从零实现线性回归 生成数据集及标签 d2l.plt.scatter(,,) ,使用d2l库中的绘图函数来创建散点图。 这个函数接受三个参数: features[:,1].detach().numpy() 是一个二维张量features的切片操作,选择了所有行的第二

    2024年02月15日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包