统计学期末复习整理

这篇具有很好参考价值的文章主要介绍了统计学期末复习整理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

统计学:描述统计学和推断统计学。计量尺度:定类尺度、定序尺度、定距尺度、定比尺度。
描述统计中的测度: 1.数据分布的集中趋势 2.数据分布的离散程度 3.数据分布的形状。
离散系数 也称为标准差系数,通常是用一组数据的标准差与其平均数之比计算 C . V . = s x ‾ C.V.=\frac{s}{\overline{x}} C.V.=xs
离散系数的作用主要用于比较不同总体或样本数据的离散程度,越小说明数据离散程度小。
四种概率抽样方法
1.简单随机抽样 :从含有 N N N个元素的总体中,抽取 n n n个元素作为样本,使得每一个容量为 n n n的样本都拥有相同的概率被抽中。分为重复抽样和不重复抽样两种方法。2.分层抽样 :在抽样之前先将总体的元素划分为若干层,然后从各个层中抽取一定数量的元素组成一个样本。在分层时,应使层内各元素差异尽量小,层与层之间差异尽可能大。采取分层抽样时,为了保持样本结构与总体结构相同,通常采用按比例抽样,按各层元素数占总体元素数的比例从中抽取样本。3.系统抽样:先将总体中元素按某种顺序排列,并按某种规则确定一个随机起点,然后每隔一定的间隔抽取一个元素,直至抽取 n n n个元素形成一个样本,又称等距抽样或机械抽样。4.整群抽样:在抽样之前先将总体的元素划分为若干群,然后以群作为抽样单位从中抽取部分群,再对抽中的各个群所包含的元素进行观察。
中心极限定理设从均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的任意一个总体中抽取容量为 n n n的随机样本,则当 n n n充分大时,样本均值 x ‾ \overline{x} x的抽样分布近似服从均值为 μ \mu μ,方差为 σ 2 / n \sigma^2/n σ2/n的正态分布。
点估计的评价准则
无偏性:样本估计量的数学期望应等于被估计总体参数的真值。对于总体的一个未知参数可以有不同的无偏估计量。有效性:令 θ 1 ^ 和 θ 2 ^ \hat{\theta_1}和\hat{\theta_2} θ1^θ2^是总体未知参数 θ \theta θ的两个无偏估计量,所谓有效性是指样本容量 n n n相同的情况下 θ 1 ^ \hat{\theta_1} θ1^对应的观测值较 θ 2 ^ \hat{\theta_2} θ2^对应的观测值更为集中于 θ \theta θ的真值附近,即 D ( θ 1 ^ ) < D ( θ 2 ^ ) D(\hat{\theta_1})<D(\hat{\theta_2}) D(θ1^)<D(θ2^),则称 θ 1 ^ \hat{\theta_1} θ1^是较 θ 2 ^ \hat{\theta_2} θ2^有效的估计量。一致性:当样本容量增大,即当 n n n趋近于无穷大的时候,要求 θ ^ \hat{\theta} θ^依概率收敛于 θ ^ \hat{\theta} θ^,即 lim ⁡ n → + ∞ P ( ∣ θ ^ − θ ∣ < ξ ) = 1 ( ξ 为任意小的正数 ) \lim_{n \to +\infty}P(|\hat{\theta}-\theta|<\xi)=1(\xi为任意小的正数) limn+P(θ^θ<ξ)=1(ξ为任意小的正数)
区间估计 :区间估计是在点估计的基础上,根据给定的置信度估计总体参数取值范围的方法。影响因素有数据离散度、样本容量、置信水平。
在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间,区间最小值称为置信下界,区间最大值称为置信上界。一般的将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。
区间估计的步骤
(1)确定置信水平 ( 1 − α ) (1-\alpha) (1α),然后查表确定其 z α / 2 z_{\alpha/2} zα/2值。(2)计算样本的均值 x ‾ \overline{x} x和标准差 σ x ‾ \sigma_{\overline{x}} σx。(3)确定置信区间: x ‾ ± z α / 2 ∗ σ x ‾ \overline{x}\pm z_{\alpha/2}*\sigma_{\overline{x}} x±zα/2σx。在相同置信水平下, n n n较大时,置信区间较短,区间估计精度较高。
(1)总体服从正态分布且总体方差 σ 2 \sigma ^2 σ2已知时,样本均值 x ‾ \overline{x} x的抽样分布均为正态分布,数学期望为总体均值 μ \mu μ,方差为 σ 2 n \frac{\sigma ^2}{n} nσ2,总体均值 μ \mu μ的置信区间: x ‾ ± z α / 2 ∗ σ n \overline{x} \pm z_{\alpha/2}*\frac{\sigma}{\sqrt{n}} x±zα/2n σ
总体比例的区间估计
在大样本情况下,用样本比例 p p p来代替 π \pi π,这时总体比例 π \pi π的置信区间为 p ± z α / 2 p ( 1 − p ) / n p\pm z_{\alpha /2}\sqrt{p(1-p)/n} p±zα/2p(1p)/n
假设检验的原理:假设检验也成为显著性检验,是事先作出一个关于总体参数的假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应接受或否定原假设的统计推断方法。
对总体作出的统计假设进行检验的方法依据是概率论中的"在一次试验中小概率事件几乎不发生"原理。
假设检验的步骤
(1)根据问题要求提出原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1。(2)确定适当的检验统计量(根据中心极限定理)及相应的抽样分布。(3)选取显著性水平 α \alpha α,确定原假设 H 0 H_0 H0的接受域和拒绝域。
显著性水平表示原假设 H 0 H_0 H0为真时拒绝 H 0 H_0 H0的概率,即拒绝原假设所冒的风险。(4)计算检验统计量的值。(5)作出统计决策。
假设检验中的两类错误
第一类错误:原假设 H 0 H_0 H0为真,但作出拒绝原假设的判断,也称弃真错误。
犯此类错误的概率用 α \alpha α表示,所以也称 α \alpha α错误, P ( 拒绝 H 0 ∣ H 0 为真 ) = α P(拒绝H_0|H_0为真)=\alpha P(拒绝H0H0为真)=α
第二类错误:原假设 H 0 H_0 H0为假,但作出接受原假设的判断。
犯此类错误的概率用 β \beta β表示,所以也称 β \beta β错误, P ( 接受 H 0 ∣ H 0 为假 ) = β P(接受H_0|H_0为假)=\beta P(接受H0H0为假)=β
假设检验中的P值
P值的含义: P值是指在原假设 H 0 H_0 H0为真时,样本统计量落在其观测值以外的概率,即表示在实际原假设为真的情况下,拒绝 H 0 H_0 H0犯错误的概率,也成为观测到的显著性水平或相关概率值。
P值和假设检验中的显著性水平的区别: P值有效的补充了 α \alpha α提供的关于检验结果可靠性的有限信息,利用统计量根据显著性水平 α \alpha α作出决策,如果拒绝原假设,也仅仅知道决策犯错误的概率,而P值则是犯错误的实际概率。
第十章 卡方 χ 2 \chi^2 χ2分布与拟合优度检验
1. χ 2 \chi^2 χ2统计量与分布: χ 2 = ∑ ( f 0 − f e ) 2 f e \chi^2=\sum\frac{(f_0-f_e)^2}{f_e} χ2=fe(f0fe)2, f 0 f_0 f0为某一类别的观测值频数, f e f_e fe为某一类别的期望值频数(建立在原假设 H 0 H_0 H0成立的前提下)
2. χ 2 \chi^2 χ2分布特征:② χ 2 \chi^2 χ2分布与自由度有关,自由度越小,越向左边倾斜,随着自由度的增加, χ 2 \chi^2 χ2分布将逐步趋近于对称,即正态分布。(一般认为 n n n>45)③数据呈右偏分布。 χ 2 \chi^2 χ2检验一般是单侧检验,其尾部为拒绝域,由显著性水平 α \alpha α决定。
拟合优度检验
1.概念:用于检验原假设 H 0 H_0 H0是否正确,而该原假设 H 0 H_0 H0通常表述为一个随机变量的总体分布服从一个特定的形式。拟合优度检验是检验随机样本的总体分布与某种特定分布拟合的程度,也就是检验观测值与理论值之间的接近程度(在一定的显著性水平上)。
2.自由度的确定: d f = k − m − 1 df=k-m-1 df=km1 k k k为数据类别的个数, m m m为样本数据中估计的参数个数。
例10.2某公司工资数据如下:工资段 20 − 30 , 30 − 40 , 40 − 50 , 50 − 60 , 60 − 70 , 70 − 80 , 80 − 90 20-30,30-40,40-50,50-60,60-70,70-80,80-90 2030,3040,4050,5060,6070,7080,8090分别有 5 , 21 , 40 , 45 , 30 , 17 , 7 5,21,40,45,30,17,7 5,21,40,45,30,17,7人。试检验工资的分布是否服从均值为 55.03 55.03 55.03,标准差为 13.56 13.56 13.56的正态分布( α = 0.01 \alpha=0.01 α=0.01).。
第一步,计算期望值频数 f e f_e fe
(1)计算Z值,选择40-50区间为例计算。
Z 1 = X − μ σ = 40 − 55.03 13.56 = − 1.11 , Z 2 = 50 − 55.03 13.56 = − 0.37 Z_1=\frac{X-\mu}{\sigma}=\frac{40-55.03}{13.56}=-1.11,Z_2=\frac{50-55.03}{13.56}=-0.37 Z1=σXμ=13.564055.03=1.11,Z2=13.565055.03=0.37
由Z值的几何意义,我们知道-1.11,-0.37是数据偏离均值55.03的程度。
(2)求标准正态分布下-1.11~-0.37之间正态分布曲线下的面积,求得为0.2222。
(3)期望值频数 f e f_e fe=165*0.2222=36.663.。
第二步, χ 2 \chi^2 χ2检验
(1) H 0 H_0 H0:总体服从正态分布, H 1 H_1 H1总体不服从正态分布
(2)查表得 χ 2 ( α = 0.01 , d f = 4 ) = 13.277 \chi^2(\alpha=0.01,df=4)=13.277 χ2(α=0.01,df=4)=13.277
(3)计算 χ 2 \chi^2 χ2统计量
(4)因为 χ 2 \chi^2 χ2=3.942102 < < < 13.277,没落在拒绝域内,所以接受原假设,即认为工资数据的分布是服从正态分布的。
相关与回归分析的关系?
答:联系:先进行相关分析再进行回归分析,只有在确定两变量存在着相关分析后,才能分析两变量的回归分析。两变量间的相关程度越大,研究回归才更有意义。通过相关分析,可以大致判断现象与现象之间配合什么数学模型建立回归方程(4分)。
区别:分析的目的不同,相关分析主要分析变量之间有无关系,有多大程度的关系;回归分析用于构建有联系的变量间的回归模型,用于推理变量之间的因果关系。相关分析的两个或两个以上的变量是随机变量。回归分析中的自变量是确定性的变量。(4分)
回归分析:
缺点:样本容量 n n n较小时,仅凭相关系数较大还不足以说明变量有密切关系,当 n n n较大时,相关系数绝对值容易偏小。
回归平方和 S S R = ∑ ( y ^ − y ‾ ) 2 SSR=\sum{(\hat{y}-\overline{y})^2} SSR=(y^y)2,残差平方和 S S E = ∑ ( y i − y ^ ) 2 SSE=\sum{(y_i-\hat{y})^2} SSE=(yiy^)2,总离差平方和 S S T = S S R + S S E SST=SSR+SSE SST=SSR+SSE
最小二乘法: 原理:使观测值与估计值的离差平方和最小。 y y y的估计值 y ^ = b 0 + b 1 x \hat{y}=b_0+b_1x y^=b0+b1x
b 1 = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 , b 0 = y ‾ − b 1 x ‾ b_1=\frac{n\sum{xy-\sum{x}\sum{y}}}{n\sum{x^2}-(\sum{x})^2},b_0=\overline{y}-b_1\overline{x} b1=nx2(x)2nxyxy,b0=yb1x
多元线性回归的显著性检验
提假设: H 0 : β 1 = β 2 = ⋯ = β m = 0 , H 1 : H_0:\beta_1=\beta_2=\cdots=\beta_m=0,H_1: H0:β1=β2==βm=0,H1:至少一个回归系数不等于0。
计算统计量 F = S S R / m S S E / n − m − 1 F=\frac{SSR/m}{SSE/n-m-1} F=SSE/nm1SSR/m,确定显著性水平和自由度为(m,n-m-1),找临界值 F α F_{\alpha} Fα。若 F > F α F>F_{\alpha} F>Fα,拒绝 H 0 H_0 H0,否则接受并说明所有自变量联合起来对因变量有显著影响。
回归系数的显著性检验
H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0(自变量 x i x_i xi与因变量没有线性关系)
确定 t t t检验的统计量和显著性水平,若 ∣ t ∣ > t α / 2 |t|>t_{\alpha/2} t>tα/2,拒绝 H 0 H_0 H0,否则接受。
或者根据给定的P值与方差分析表中的P1值比较,若P1<P则说明该回归系数显著。
方差分析表 : ①m—SSR–SSR/m②n-m-1—SSE—SSE/(n-m-1)
第十二章 时间序列分析
Q:什么是时间序列,有哪些分类? A:时间序列是指一个变量的观测值按照时间顺序排列而成的序列,它反映了现象动态变化的过程和特点,是研究事物发展趋势、规律以及进行预测的依据。分为绝对数、相对数、平均数时间序列。
Q:时间序列的组成因素及其模型? A:组成因素:长期趋势,季节波动,循环波动,不规则波动。
乘法模型是假设时间序列各个构成部分对序列的影响均按照比例变化,加法模型是假设这四种因素对时间序列的影响是可加的。
Q:对时间序列进行平滑以描述其趋势的方法有哪些? A:移动平均法是采用逐项递移的方法分别计算一系列移动的序时平均数,形成一个新的派生序时平均数时间序列。指数平滑法通过对历史时间数列进行逐层平滑计算,从而消除随机因素的影响,识别现象基本变化趋势,并以此来预测未来。
Q:常用时间序列预测方法? 移动平均预测法、指数平滑预测法、线性趋势预测法、自回归预测模型、季节因素分析预测法。
有趋势序列的最小二乘法预测模型:
1.线性趋势模型 Y t ^ = a + b t \hat{Y_t}=a+bt Yt^=a+bt t t t是时间标号
2.二次曲线趋势模型 Y t ^ = a + b t + c t 2 \hat{Y_t}=a+bt+ct^2 Yt^=a+bt+ct2
有趋势序列的自回归预测模型:
n n n阶自回归模型: Y t ^ = A 0 + A 1 Y t − 1 + A 2 Y t − 2 + ⋯ + A n Y t − n \hat{Y_t}=A_0+A_1Y_{t-1}+A_2Y_{t-2}+\cdots+A_nY_{t-n} Yt^=A0+A1Yt1+A2Yt2++AnYtn
步骤:①确实最大滞后值 n n n,自由度 t − 2 n − 1 t-2n-1 t2n1。②利用表确定自回归方程和临界值③计算检验统计量 t = a n − A n S a n t=\frac{a_n-A_n}{S_{a_n}} t=SananAn/如果不拒绝原假设,那么第 n n n个变量被舍弃,重复该步骤。
什么是因子分析 :因子分析是用少量集成后的互不相关的因子变量去解释大量统计变量的一种统计方法,这种方法能以较少的因子变量和最小的信息损失来解释变量之间的结构。
因子分析的步骤 :①根据具体问题,判断待分析的若干原始变量是否适合作因子分析,并采用某些检验方法来判断数据是否符合分析要求②选择提取公因子的方法,并按一定标准确定提取公因子的数目③考察公因子的可解释性,并在必要时进行因子旋转,以寻求最佳的解释方式④计算出因子得分等中间指标,进一步分析使用。
巴特利特球度检验、反映象相关矩阵检验、KMO检验。
什么是方差分析,基本思想和原理: 方差分析就是针对一定因素分析总体的各个因素水平是否有差异。通过对因素水平间方差与因素水平内方差的比较,当这两个方差的比值较小时,方差分析的结果可以认为总体均值相同,否则认为不同。
方差分析中的基本假定 方差分析的前提条件是讨论的总体服从正态分布,其各个总体的方差相等,并且选择的样本是相互独立的。
什么是聚类分析,作用是什么 : 聚类分析主要用于辨别具有相似性的事物,并根据彼此不同的特性加以聚类,使同一类事物具有高度的相似性,不同类事物具有较大的差异性。聚类分析能够从现有的样本数据出发,按照他们的亲疏程度分成若干类,并通过变量与变量的连接状况,揭示在同一类别中不同变量或样本的亲疏程度。文章来源地址https://www.toymoban.com/news/detail-471187.html

到了这里,关于统计学期末复习整理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 统计学 一元线性回归

    回归(Regression) :假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,利用该模型根据给定的自变量来预测因变量 线性回归 :因变量和自变量之间是线性关系 非线性回归 :因变量和自变量之间是非线性关系 变量间的关系 :往往分为 函数关系

    2024年02月06日
    浏览(30)
  • 【应用统计学】方差分析

    【例7-1】 三台设备平均灌装时间分别是15.82秒、16.67秒和14.97秒。试用样本数据检验这3台机器灌装过程的时间是否存在显著不同,以便对设备的购买做出决策。( α=0.05 )  如果检验结果 接受原假设 ,则样本数据表明三台设备的平均灌装时间没有显著差异,选择任何一家提供商

    2023年04月16日
    浏览(33)
  • SCAU 统计学 实验5

    8.14 总体平均值(μ):7.0 cm 总体方差(σ²):0.03 cm² 样本平均值(x̄):6.97 cm 样本方差(s²):0.0375 cm² 样本大小(n):80 在这个问题中,我们已经知道总体方差(σ²),所以应该使用 z 检验。 将检验以下零假设(H₀): H₀: μ = 7.0 cm 与备择假设(H₁): H₁: μ ≠

    2024年02月01日
    浏览(30)
  • 数据科学、统计学、商业分析

    数据科学、统计学、商业分析是在各方面有着不同的侧重和方向的领域。  1.专业技能 数据科学(Data Science):数据科学涉及从大量数据中提取有价值的信息、模式和洞察力的领域。它使用多种技术和领域知识,如统计学、机器学习、数据库管理、数据可视化等,进行数据清

    2024年02月15日
    浏览(38)
  • 统计学-R语言-1

    统计学(statistics)是“数据的科学” 1.是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。 2.统计学进行推断的基础是数据(data)。数据不仅仅限于数字,也可能是图表、视频、音频或者文字。 3.收集到数据之后,利用一些方法来整理和分析数据,最后得到结

    2024年02月03日
    浏览(31)
  • 统计学-R语言-3

    本篇文章是介绍对数据的部分图形可视化的图型展现。 需要注意的是,给直方图拟合正态分布曲线并非总是适用,有时甚至是荒谬的,容易产生误导。合理的做法是为直方图拟合一条核密度估计曲线,它是数据实际分布的一种近似描述。 下面通过一个实际例子说明给直方图

    2024年01月16日
    浏览(32)
  • 统计学-R语言-4.1

    安装完R软件之后就可以对其进行代码的编写了。 如果对数据分析有些特殊需要,已有的R包或函数不能满足,可以在R中编写自己的函数。函数的定义格式如下所示: 该式中, functionname是函数名称; function指明该对象为函数类型;a1,a2,为函数中涉及的参数; expression是函数

    2024年01月16日
    浏览(30)
  • 统计学补充概念-13-逻辑回归

    逻辑回归(Logistic Regression)实际上是一种用于解决分类问题的统计学习方法,尽管其名称中带有\\\"回归\\\"一词,但它主要用于处理分类任务。逻辑回归用于预测一个事件发生的概率,并将其映射到一个特定的输出类别。 逻辑回归的基本思想是,通过一个线性组合的方式将输入特

    2024年02月11日
    浏览(41)
  • 统计学-R语言-6.4

    本片是对以上三个介绍的篇章的题进行介绍。 1、利用下面的信息,构建总体均值μ的置信区间: 总体均值的区间估计(大样本的估计) 利用下面的信息,构建总体均值μ的置信区间: (1)总体不服从正态分布,已知 ,n=35, =8900,s=510,置信水平为95% (2)总体不服从正态分布, 未

    2024年01月20日
    浏览(31)
  • 统计学补充概念07-比较树

    在层次聚类中,聚类结果可以以树状结构表示,通常称为树状图(Dendrogram)。树状图展示了数据点如何被合并或分裂以形成聚类的层次结构。通过观察树状图,可以更直观地理解数据点之间的相似性和关系。 高度和距离:树状图中的垂直轴表示合并或分裂的距离或相似度。

    2024年02月11日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包