统计学 一元线性回归

这篇具有很好参考价值的文章主要介绍了统计学 一元线性回归。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

统计学 一元线性回归

回归(Regression):假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,利用该模型根据给定的自变量来预测因变量

  • 线性回归:因变量和自变量之间是线性关系

  • 非线性回归:因变量和自变量之间是非线性关系

变量间的关系

变量间的关系:往往分为函数关系相关关系;函数关系是确定的关系(例如 y = x 2 y=x^2 y=x2 y y y x x x 的关系),而相关关系是不确定的关系(例如家庭储蓄额和家庭收入)

相关系数:度量两个变量之间线性关系强度的统计量,样本相关系数记为 r r r (也称为 Pearson 相关系数),总体相关系数记为 ρ \rho ρ
r = ∑ ( X − X ˉ ) ( Y − Y ˉ ) ∑ ( X − X ˉ ) 2 ⋅ ∑ ( Y − Y ˉ ) 2 r=\frac{\sum(X-\bar{X})(Y-\bar{Y})}{\sqrt{\sum(X-\bar{X})^2\cdot\sum(Y-\bar{Y})^2}} r=(XXˉ)2(YYˉ)2 (XXˉ)(YYˉ)

  • r ∈ [ − 1 ,   1 ] r\in[-1,\,1] r[1,1] ,越接近 1 1 1 代表两个变量之间正线性相关关系越强,越接近 − 1 -1 1 代表两个变量之间负线性相关关系越强,等于 0 0 0 表示两个变量之间不存在线性关系;
  • r r r 具有对称性,即 r X Y = r Y X r_{XY}=r_{YX} rXY=rYX ;很显然,若 X X X Y Y Y 之间是线性关系,那么 Y Y Y X X X 之间也是线性关系;
  • r r r 不具有量纲,对 X X X Y Y Y 的缩放不敏感,其数值大小与 X X X Y Y Y 的尺度以及原点无关;
  • r r r 不能用于描述非线性关系,可以结合散点图得出结论;
  • r r r 是两个变量之间线性关系的度量,但不一定意味着 X X X Y Y Y 有因果关系。

相关系数的检验:采用 R.A.Fisher 提出的 t 分布检验,既可用于小样本,也可用于大样本:

① 提出假设: H 0 H_0 H0 ρ = 0 \rho=0 ρ=0 H 1 H_1 H1 ρ = 1 \rho=1 ρ=1

② 计算样本相关系数 r r r 以及检验统计量 t = r n − 2 1 − r 2 ∼ t ( n − 2 ) t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\sim t(n-2) t=1r2 rn2 t(n2)

③ 算出 P P P 值,进行决策

一元线性回归模型的估计

一元回归:当回归分析只涉及一个自变量时称为一元回归

回归模型:描述因变量 y y y 如何依赖于自变量 x x x 和误差项 ε \varepsilon ε 的方程;一元线性回归模型可表示为:
y = β 0 + β 1 x + ε y=\beta_0+\beta_1x+\varepsilon y=β0+β1x+ε
模型参数为 β 0 \beta_0 β0 β 1 \beta_1 β1 ;随机变量 ε \varepsilon ε 被称为误差项,对其需要作出以下假定:

  • 正态性: ε \varepsilon ε 服从期望为 0 的正态分布;
  • 方差齐性:对于所有的 X X X 值, ε \varepsilon ε 的方差值 σ 2 \sigma^2 σ2 都相同;
  • 独立性:两个不同 X X X 值对应的 ε \varepsilon ε 不相关

估计的回归方程:总体的 β 1 \beta_1 β1 β 0 \beta_0 β0 是未知的,需要用样本数据去估计,为: y ^ = β 0 ^ + β 1 ^ x \hat{y}=\hat{\beta_0}+\hat{\beta_1}x y^=β0^+β1^x β 1 ^ \hat{\beta_1} β1^ 称为回归系数)

最小二乘法:使离差 ∣ y ^ − y ∣ |\hat{y}-y| y^y 的平方和最小的估计方法,即:
Q = ∑ ( y i − y ^ i ) 2 = ∑ ( y i − β ^ 0 − β 1 ^ x i ) 2 = m i n Q=\sum(y_i-\hat{y}_i)^2=\sum(y_i-\hat{\beta}_0-\hat{\beta_1}x_i)^2=min Q=(yiy^i)2=(yiβ^0β1^xi)2=min
求导得到:
{ ∂ Q ∂ β 0 ∣ β 0 = β ^ 0 = − 2 ∑ ( y i − β ^ 0 − β ^ 1 x i ) = 0 ∂ Q ∂ β 1 ∣ β 1 = β ^ 1 = − 2 ∑ x i ( y i − β ^ 0 − β ^ 1 x i ) = 0 \left\{ \begin{array}{l} \frac{\partial Q}{\partial \beta_0}\lvert_{\beta_0=\hat{\beta}_0}=-2\sum(y_i-\hat{\beta}_0-\hat{\beta}_1x_i)=0 \\ \frac{\partial Q}{\partial \beta_1}\lvert_{\beta_1=\hat{\beta}_1}=-2\sum x_i(y_i-\hat{\beta}_0-\hat{\beta}_1x_i)=0 \end{array} \right. {β0Qβ0=β^0=2(yiβ^0β^1xi)=0β1Qβ1=β^1=2xi(yiβ^0β^1xi)=0
解得:
{ β ^ 1 = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 β 0 ^ = y ˉ − β ^ 1 x ˉ \left\{ \begin{array}{l} \hat{\beta}_1=\frac{\sum(x-\bar{x})(y-\bar{y})}{\sum(x-\bar{x})^2} \\ \hat{\beta_0}=\bar{y}-\hat\beta_1\bar{x} \end{array} \right. {β^1=(xxˉ)2(xxˉ)(yyˉ)β0^=yˉβ^1xˉ
(最小二乘法得到的回归直线通过样本平均点 ( x ˉ ,   y ˉ ) (\bar{x},\,\bar{y}) (xˉ,yˉ)

统计学 一元线性回归,# 统计学,线性回归,机器学习,回归,概率论

一元线性回归模型的判优

拟合优度:回归直线与各观测点的接近程度称为模型的的拟合优度,评价拟合优度的一个重要统计量就是决定系数

变差:因变量的取值的波动称为变差,变差的产生来自两个方面:

  • 由于自变量的取值不同造成的
  • 自变量以外的随机因素的影响

总平方和 n n n 次观测值的总变差可以由这些变差的平方和来表示,称为总平方和(SST), S S T = ∑ ( y i − y ˉ ) 2 SST=\sum(y_i-\bar{y})^2 SST=(yiyˉ)2 ;总平方和可以分解为:
S S T = ∑ ( y i − y ^ i + y ^ i − y ˉ ) 2 = ∑ ( y i − y ^ i ) 2 + ∑ ( y ^ i − y ˉ ) 2 − 2 ∑ ( y i − y ^ i ) ( y ^ i − y ˉ ) SST=\sum(y_i-\hat{y}_i+\hat{y}_i-\bar{y})^2=\sum(y_i-\hat{y}_i)^2+\sum(\hat{y}_i-\bar{y})^2-2\sum(y_i-\hat{y}_i)(\hat{y}_i-\bar{y}) SST=(yiy^i+y^iyˉ)2=(yiy^i)2+(y^iyˉ)22(yiy^i)(y^iyˉ)
可以证明 2 ∑ ( y i − y ^ i ) ( y ^ i − y ˉ ) = 0 2\sum(y_i-\hat{y}_i)(\hat{y}_i-\bar{y})=0 2(yiy^i)(y^iyˉ)=0 ,所以总平方和实际上表现为两个部分:
{ S S T = ∑ ( y i − y ^ i ) 2 + ∑ ( y ^ i − y ˉ ) 2 S S R = ∑ ( y ^ i − y ˉ ) 2 S S E = ∑ ( y i − y ^ i ) 2 \left \{ \begin{array}{l} SST=\sum(y_i-\hat{y}_i)^2+\sum(\hat{y}_i-\bar{y})^2 \\ SSR=\sum(\hat{y}_i-\bar{y})^2 \\ SSE=\sum(y_i-\hat{y}_i)^2\\ \end{array} \right. SST=(yiy^i)2+(y^iyˉ)2SSR=(y^iyˉ)2SSE=(yiy^i)2

  • 回归平方和(SSR):反映了 y y y 的总变差中由于 x x x y y y 的线性关系引起的 y y y 的变化部分,是可以由回归直线来解释的 y i y_i yi 的变差部分
  • 残差平方和(SSE) :是实际观测点与回归值的离差平方和,表示除了 x x x y y y 的线性影响之外的其他随机因素对 y y y 的影响

统计学 一元线性回归,# 统计学,线性回归,机器学习,回归,概率论

决定系数:又称判定系数,记为 R 2 R^2 R2 模型拟合的好坏取决于回归平方和 SSR 占总平方和 SST 的比例,越大则直线拟合得越好:
R 2 = S S R S S T = ∑ ( y ^ i − y ˉ ) 2 ∑ ( y i − y ˉ ) 2 R^2=\frac{SSR}{SST}=\frac{\sum(\hat{y}_i-\bar{y})^2}{\sum(y_i-\bar{y})^2} R2=SSTSSR=(yiyˉ)2(y^iyˉ)2

在一元线性回归中,相关系数 r r r 是决定系数 R 2 R^2 R2 的平方根

估计标准误差:即残差的标准差 s e s_e se,是对误差项 ε \varepsilon ε 的标准差 σ \sigma σ 的估计,反映了实际观测值 y i y_i yi 与回归估计值 y ^ i \hat{y}_i y^i 之间的差异程度, s e s_e se 越小,则直线拟合得越好:
s e = S S E n − 2 = ∑ ( y i − y ^ i ) 2 n − 2 s_e=\sqrt{\frac{SSE}{n-2}}=\sqrt{\frac{\sum(y_i-\hat{y}_i)^2}{n-2}} se=n2SSE =n2(yiy^i)2

一元线性回归模型的显著性检验

线性关系检验

线性关系检验:也称为 F F F 检验,用于检验自变量 x x x 和因变量 y y y 之间的线性关系是否显著,它们的关系是否能用一个线性模型 y = β 0 + β 1 x + ε y=\beta_0+\beta_1x+\varepsilon y=β0+β1x+ε 来表示。

  • SSR 的自由度为自变量 k k k (这里一元线性回归所以 k = 1 k=1 k=1 ),其除以自由度后得到回归均方(MSR)
  • SSE 的自由度为 n − k − 1 n-k-1 nk1 (这里一元线性回归所以 n − 2 n-2 n2),其除以自由度后得到残差均方(MSE)

① 提出检验假设:

  • H 0 H_0 H0 β 1 = 0 \beta_1=0 β1=0 (两个变量之间的线性关系不显著)
  • H 1 H_1 H1 β 1 ≠ 0 \beta_1\not=0 β1=0 (两个变量之间的线性关系显著)

② 计算检验自变量为
F = S S R / 1 S S E / ( n − 2 ) = M S R M S E ∼ F ( 1 ,   n − 2 ) F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}\sim F(1,\,n-2) F=SSE/(n2)SSR/1=MSEMSRF(1,n2)
③ 做出决策,确定显著性水平 α \alpha α ,根据自由度 d f 1 = 1 df_1=1 df1=1 d f 2 = n − 2 df_2=n-2 df2=n2 得到 P P P 值,与 α \alpha α 进行比较

回归系数的检验和推断

回归系数检验:也称为 t 检验,用于检验自变量对因变量的影响是否显著;在一元线性回归模型中,回归系数检验和线性关系检验等价,而在多元线性回归中这两种检验不再等价。其检验假设为:

  • H 0 H_0 H0 β 1 = 0 \beta_1=0 β1=0 (自变量对因变量的影响不显著)
  • H 1 H_1 H1 β 1 ≠ 0 \beta_1\not=0 β1=0 (自变量对因变量的影响显著)

β 1 ^ \hat{\beta_1} β1^ β 0 ^ \hat{\beta_0} β0^ 也是随机变量,它们有自己的抽样分布,统计证明, β 1 ^ \hat{\beta_1} β1^ 服从正态分布,期望 E ( β 1 ^ ) = β 1 E(\hat{\beta_1})=\beta_1 E(β1^)=β1 ,标准差的估计量为:( s e s_e se 为估计标准误差)
s β 1 ^ = s e ∑ x i 2 − 1 n ( ∑ x i ) 2 s_{\hat{\beta_1}}=\frac{s_e}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}} sβ1^=xi2n1(xi)2 se

(这个 s β 1 ^ s_{\hat{\beta_1}} sβ1^ 的分母太搞了,实际上等价于 s β ^ 1 = s e ∑ ( x i − x ˉ ) 2 s_{\hat{\beta}_1}=\frac{s_e}{\sqrt{\sum(x_i-\bar{x})^2}} sβ^1=(xixˉ)2 se

将回归系数标准化,就可以得到用于检验回归系数 β 1 ^ \hat{\beta_1} β1^ 的统计量 t t t ,在原假设成立的条件下, β 1 ^ − β 1 = β 1 ^ \hat{\beta_1}-\beta_1=\hat{\beta_1} β1^β1=β1^ ,因此检验统计量为:
t = β 1 ^ s β 1 ^ ∼ t ( n − 2 ) t=\frac{\hat{\beta_1}}{s_{\hat{\beta_1}}}\sim t(n-2) t=sβ1^β1^t(n2)
除了对回归系数进行检验外,还可以得到置信区间,回归系数 β 1 \beta_1 β1 在置信水平为 1 − α 1-\alpha 1α 下的置信区间为:
( β 1 ^ ± t α / 2 ( n − 2 ) s e ∑ ( x i − x ˉ ) 2 ) \left( \hat{\beta_1}\pm t_{\alpha/2}(n-2)\frac{s_e}{\sqrt{\sum(x_i-\bar{x})^2}} \right) (β1^±tα/2(n2)(xixˉ)2 se)
还可以得到截距 β 0 \beta_0 β0 1 − α 1-\alpha 1α 置信区间为:
( β 0 ^ ± t α / 2 ( n − 2 ) s e 1 n + x ˉ ∑ ( x i − x ˉ ) 2 ) \left( \hat{\beta_0}\pm t_{\alpha/2}(n-2)s_e\sqrt{\frac{1}{n}+\frac{\bar{x}}{\sum(x_i-\bar{x})^2}} \right) (β0^±tα/2(n2)sen1+(xixˉ)2xˉ )

利用回归方程进行预测

回归分析的目的:根据所建立的回归方程,用给定的自变量来预测因变量。如果对于 x x x 的一个给定值 x 0 x_0 x0 ,求出 y y y 的一个预测值 y ^ 0 \hat{y}_0 y^0 ,就是点估计;若是求出 y 0 y_0 y0 的一个估计区间,就是个别值的区间估计;若是求出 y 0 ˉ \bar{y_0} y0ˉ 的一个估计区间,就是平均值的区间估计。

例如,我们收集数据研究许多家企业的广告费支出作为自变量对销售收入这个因变量造成的影响:

  • 求出广告费用为 200 万元时企业销售收入平均值的区间估计,就是平均值的区间估计;
  • 求出广告费用为 200 万元的那家企业销售收入的区间估计,就是个别值的区间估计

点估计

点估计很明显,就是直接将 x 0 x_0 x0 代入方程即可,接下来介绍平均值和个别值的预测区间。

平均值的置信区间

平均值的置信区间 :设给定因变量 x x x 的一个值 x 0 x_0 x0 E ( y 0 ) E(y_0) E(y0) 为给定 x 0 x_0 x0 时因变量 y y y 的期望值。当 x = x 0 x=x_0 x=x0 时, y ^ 0 = β 0 ^ + β 1 ^ x 0 \hat{y}_0=\hat{\beta_0}+\hat{\beta_1}x_0 y^0=β0^+β1^x0 就是 E ( y 0 ) E(y_0) E(y0) 的估计值。那么按照区间估计的公式,要知道 y 0 ^ \hat{y_0} y0^ 的标准差的估计量 s y 0 ^ s_{\hat{y_0}} sy0^
s y 0 ^ = s e 1 n + ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 s_{\hat{y_0}}=s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum{(x_i-\bar{x})^2}}} sy0^=sen1+(xixˉ)2(x0xˉ)2
因此,对于给定的 x 0 x_0 x0,平均值 E ( y 0 ) E(y_0) E(y0) 1 − α 1-\alpha 1α 置信水平下的置信区间为:
( y 0 ^ ± t α / 2 ( n − 2 ) s e 1 n + ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) ) \left( \hat{y_0}\pm t_{\alpha/2}(n-2)s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum(x_i-\bar{x})}} \right) (y0^±tα/2(n2)sen1+(xixˉ)(x0xˉ)2 )
x 0 = x ˉ x_0=\bar{x} x0=xˉ 时, y ^ 0 \hat{y}_0 y^0 的标准差的估计量最小,此时有 s y ^ 0 = s e 1 n s_{\hat{y}_0}=s_e\sqrt{\frac{1}{n}} sy^0=sen1 ,也就是说当 x 0 = x ˉ x_0=\bar{x} x0=xˉ 时,估计是最准确的。 x 0 x_0 x0 偏离 x ˉ \bar{x} xˉ 越远,那么 y 0 y_0 y0 的平均值的置信区间就变得越宽,估计的效果也就越不好。

个别值的预测区间

个别值的预测区间:用 s i n d s_{ind} sind 表示估计 y y y 的一个个别值时 y 0 ^ \hat{y_0} y0^ 的标准差的估计量:
s i n d = s e 1 + 1 n + ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 s_{ind}=s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum{(x_i-\bar{x})^2}}} sind=se1+n1+(xixˉ)2(x0xˉ)2
因此,对于给定的 x 0 x_0 x0 y y y 的一个个别值 y 0 y_0 y0 1 − α 1-\alpha 1α 置信水平下的预测区间为:
( y 0 ^ ± t α / 2 ( n − 2 ) s e 1 + 1 n + ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) ) \left( \hat{y_0}\pm t_{\alpha/2}(n-2)s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum(x_i-\bar{x})}} \right) (y0^±tα/2(n2)se1+n1+(xixˉ)(x0xˉ)2 )
相比于置信区间而言,预测区间范围更宽一些,因此估计 y y y 的平均值比预测 y y y 的一个个别值更准确一些。同样,当 x 0 = x ˉ x_0=\bar{x} x0=xˉ 时,两个区间也都是最准确的。

用残差检验模型的假定

残差 e = y i − y ^ i e=y_i-\hat{y}_i e=yiy^i ,表示用估计的回归方程去预测 y i y_i yi 而引起的误差

残差分析:跟方差分析一样,我们在做一元回归分析的时候也假定 y = β 0 + β 1 x + ε y=\beta_0+\beta_1x+\varepsilon y=β0+β1x+ε 中的误差项 ε \varepsilon ε 是期望为零、具有方差齐性且相互独立的正态分布随机变量,需要对这个假设能否成立进行分析。

残差图:检验误差项 ε \varepsilon ε 是否满足这些假设,可以通过对残差图的分析来完成。常用的残差图有关于 x x x 的残差图、标准化残差图等。

  • 关于 x x x 的残差图是用横坐标表示自变量 x i x_i xi 的值,纵轴表示对应的残差 e i e_i ei

检验方差齐性

如果满足方差齐性,则残差图中的所有点都应当落在同一水平带中(图 a)且没有固定的模式,否则称为异方差性(图 b)。如果出现图 c 的情况,那么应当考虑非线性回归:

统计学 一元线性回归,# 统计学,线性回归,机器学习,回归,概率论

检验正态性

标准化残差:也称 Pearson 残差或半 t 化残差,是残差除以其标准差后得到的结果:
z e i = e i s e = y i − y ^ i s e z_{e_i}=\frac{e_i}{s_e}=\frac{y_i-\hat{y}_i}{s_e} zei=seei=seyiy^i
关于正态性的检验可以用标准化残差分析来完成。如果 ε \varepsilon ε 服从正态分布,那么标准化残差的分布也应服从正态分布。例如,标准化后,应当有 95 % 95\% 95% 的残差都落在 [ − 2 , 2 ] [-2,2] [2,2] 之间:

统计学 一元线性回归,# 统计学,线性回归,机器学习,回归,概率论

也可以画直方图或者 P-P 图来检验:

统计学 一元线性回归,# 统计学,线性回归,机器学习,回归,概率论文章来源地址https://www.toymoban.com/news/detail-736049.html

到了这里,关于统计学 一元线性回归的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python 机器学习入门:数据集、数据类型和统计学

    机器学习是通过研究数据和统计信息使计算机学习的过程。机器学习是迈向人工智能(AI)的一步。机器学习是一个分析数据并学会预测结果的程序。 在计算机的思维中,数据集是任何数据的集合。它可以是从数组到完整数据库的任何东西。 数组的示例: [99,86,87,88,111,86,10

    2024年02月05日
    浏览(38)
  • 统计学补充概念-13-逻辑回归

    逻辑回归(Logistic Regression)实际上是一种用于解决分类问题的统计学习方法,尽管其名称中带有\\\"回归\\\"一词,但它主要用于处理分类任务。逻辑回归用于预测一个事件发生的概率,并将其映射到一个特定的输出类别。 逻辑回归的基本思想是,通过一个线性组合的方式将输入特

    2024年02月11日
    浏览(41)
  • 【算法原理和代码实战】德州扑克计算概率4-2法则原理(基于概率论和统计学的基本原理),详细计算步骤,具体算法代码实例。

    德州扑克计算概率的4-2法则是一种简便的计算方法,用于估算在德州扑克中获得某种牌型的概率。4-2法则的原理是基于概率论和统计学的基本原理,通过观察德州扑克中的牌型组合和可能性,得出一个简单的计算公式。 在德州扑克的前三张公共牌(翻牌圈)之后,如果你需要

    2024年02月14日
    浏览(26)
  • AI人工智能中的概率论与统计学原理与Python实战:隐马尔可夫模型(HMM)的理解与实现...

    随着人工智能技术的不断发展,人工智能已经成为了许多行业的核心技术之一。在人工智能中,概率论和统计学是非常重要的一部分,它们可以帮助我们更好地理解和解决问题。在本文中,我们将讨论概率论与统计学原理在人工智能中的应用,以及如何使用Python实现隐马尔可

    2024年04月10日
    浏览(41)
  • 【机器学习300问】11、多元线性回归模型和一元线性回归有什么不同?

            在之前的文章中,我们已经学习了一元线性回归模型,其中最关键的参数是w和b。机器学习的目的就是去得到合适w和b后能准确预测未知数据。但现实世界是复杂的,一个事情的发生绝大多数时候不会是一个原因导致。         因此多元线性回归模型区别与一元线

    2024年01月22日
    浏览(35)
  • 统计学学习笔记:L1-总体、样本、均值、方差

    目录 一、总体和样本 二、集中趋势分析 2.1 均值 2.1.1 样本均值 2.1.2 总体均值 2.2 众数,中位数 三、离散趋势分析 3.1 总体方差 3.2 样本方差 3.3 标准差 比如要计算全国男性的平均身高,但是全部调查是不现实的,所有要采取抽样调查,随机抽取一部分男性的身高,全国男性身

    2024年02月12日
    浏览(28)
  • 【算法小记】——机器学习中的概率论和线性代数,附线性回归matlab例程

    内容包含笔者个人理解,如果错误欢迎评论私信告诉我 线性回归matlab部分参考了up主DR_CAN博士的课程 在回归拟合数据时,根据拟合对象,可以把分类问题视为一种简答的逻辑回归。在逻辑回归中算法不去拟合一段数据而是判断输入的数据是哪一个种类。有很多算法既可以实现

    2024年01月24日
    浏览(32)
  • python机器学习(三)特征预处理、鸢尾花案例--分类、线性回归、代价函数、梯度下降法、使用numpy、sklearn实现一元线性回归

    数据预处理的过程。数据存在不同的量纲、数据中存在离群值,需要稳定的转换数据,处理好的数据才能更好的去训练模型,减少误差的出现。 标准化 数据集的标准化对scikit-learn中实现的大多数机器学习算法来说是常见的要求,很多案例都需要标准化。如果个别特征或多或

    2024年02月16日
    浏览(31)
  • 统计学 - 数理统计与应用统计的区别

    目录 1. 概率与统计 2. 数理统计与应用统计 概率论是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的,在一定条件下必然发生某一结果的现象称为决定性现象。例如在标准大气压,纯水加热到100℃时水必然会沸腾等。随机现象则是指在基本条件不变的

    2024年02月13日
    浏览(42)
  • 《SPSS统计学基础与实证研究应用精解》视频讲解:SPSS依托统计学处理数据的应用场景

    《SPSS统计学基础与实证研究应用精解》1.4 视频讲解 视频为 《SPSS统计学基础与实证研究应用精解》张甜 杨维忠著 清华大学出版社 一书的随书赠送视频讲解1.4节内容 。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。本书旨在手把手教会使用SPSS撰写实

    2024年01月23日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包