数学基础--均值、方差、标准差、协方差

这篇具有很好参考价值的文章主要介绍了数学基础--均值、方差、标准差、协方差。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 简介

  统计学中最核心的概念之一是:标准差及其与其他统计量(如方差和均值)之间的关系,本文将对标准差这一概念提供直观的视觉解释,在文章的最后我们将会介绍协方差的概念。

2. 概念介绍

均值

  均值: 均值就是将所有的数据相加求平均,求得一个样本数据的中间值。

  • 定义: 给定一个包含n个样本的集合 X={X1, …Xn},均值就是这个集合中所有元素和的平均值。
    均值 方差,数学基础,深度学习,均值算法,算法,机器学习

方差

  方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,换句话说如果想知道一组数据之间的分散程度的话就可以使用“方差”来表示了。

  • 定义:在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。
    均值 方差,数学基础,深度学习,均值算法,算法,机器学习

标准差

  又叫均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是”方差”的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
均值 方差,数学基础,深度学习,均值算法,算法,机器学习

3. 概念描述

  举例而言,假设你收集了一些学生分数(出于简洁性考虑,我们假设这些分数是总体)。
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  我们首先在简单的散点图中绘制这些数字:
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  绘制完成后,计算差异的第一步是找出这些数字的中心,即平均值,这也就是前面所说的均值的概念。
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  视觉上,我们可以绘制一条线来表示平均分数。
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  接下来我们要计算每个点和平均值之间的距离,并对得到的数值求平方。记住,我们的目标是计算数字之间的差异,以及数字与平均值之间的差异。我们可以用数学或视图的方式完成该操作:
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  从上图中我们可以看到,「求平方」只不过是画了一个方框而已。这里有两点需要注意:我们无法计算所有差异的总和。因为一些差异是正值,一些是负值,求和会使正负抵消得到 0。为此,我们对差异取平方(稍后我会解释为什么取平方而不是其他运算,如取绝对值)。现在,我们来计算差异平方的总和(即平方和):
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  通过计算平方和,我们高效计算出这些分数的总变异(即差异)。理解变异(variability)与差异(difference)之间的关系是理解多个统计估计和推断检验的关键。上图中平方和 67.5 表示,如果我们将所有方框堆在一个巨大的正方形中,则大正方形的面积等于 67.5 points^2,points 指分数的单位。任意测量集的总变异都是正方形的面积。

  现在我们得到了总变异(即大正方形的面积),但我们真正想要的是平均变异(mean variability)。要想求得平均变异,我们只需要用总面积除以方框的数量:
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  出于实用目的考虑,你或许想除以 N−1,而不是 N,这样你就可以尝试基于一个样本而不是总体来估计平均变异。但是,这里假设我们已经具备总体。重点在于,你想计算所有小方框的均方值。这就是方差,即平均变异,或者差异平方的平均值。

  我们为什么不用方差来表示分数的差异呢?唯一的问题是,我们无法对比方差和原始分数,因为方差是「平方」值,即它是面积而非长度。其单位是 points^2,与原始分数的单位 points 不同。那么如何甩掉平方呢?开平方根啊!
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  最后,我们终于得到了标准差:变异的平方根,即 2.91points。这就是标准差的核心理念。本文对标准差概念的基础直观解释可以帮助大家更容易地理解,为什么在处理 z 分数(z-score)、正态分布、标准误差和方差分析时要使用标准差的单位。

绝对值的问题

  你可能会疑惑,为什么对差异求平方而不是取绝对值呢。没有什么能够真正阻止你使用差异的平均绝对值。平均绝对值给所有差异提供的是相同的权重,而差异平方为距离平均值较远的数字提供更多权重。这或许是你想要的。但是,大部分数学理论利用差异平方(其原因不在本文讨论范围内,如可微分)。不过,我会用一个容易理解的反例来回答这个问题。假设有两个均值相同的分数集合:x_1 和 x_2:
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  从这些数字中,你可以轻松观察到 x_1 的变异和数值分散性比 x_2 低。我们来计算两个集合差异的平均绝对值(二者的平均值都为 6):
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  哦,结果并不好!两个集合的变异值相同,尽管我们能够看到 x_1 的数字差异要比 x_2 低。现在,我们使用差异平方计算,得到:
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  在差异平方的作用下,我们得到了想要的结果:当数字越分散时,标准差越大。

协方差

  前面的方差、标准差描述的是一维数据集合的离散程度,但世界上的现象普遍是多维度数据描述的。那么很自然就会想知道现象和数据的相关程度,以及各维度数据间的相关程度。比如,一个产品卖的好不好可能有很多因素构成,比如产品质量、价格等。那么是否质量和价格之间有相关性呢?这个问题就可以用协方差来解决。协方差的计算公式被定义为:
  均值 方差,数学基础,深度学习,均值算法,算法,机器学习
  期望值分别为 E(X) 和 E(Y) 的两个变量X和Y的协方差为:

Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
		=E(XY)−2E(X)E(Y)+E(X)E(Y)
		=E(XY)−E(X)E(Y)

  协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X 与Y 是统计独立的,那么二者之间的协方差就是0,则:

E(XY)=E(X)E(Y)

参考资料:
《https://www.jiqizhixin.com/articles/2020-01-25-2》文章来源地址https://www.toymoban.com/news/detail-722822.html

到了这里,关于数学基础--均值、方差、标准差、协方差的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关

    一个随机变量,的值的变化程度可以用方差计算:  ;其中 是期望。 另外一种等价表达式:      其中为均值,N为总体例数 我们举个例子: 服从均一分布,取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,那么方差就是: 标准差是方差的平方根,随机

    2024年02月09日
    浏览(34)
  • 【数据处理】Python:实现求条件分布函数 | 求平均值方差和协方差 | 求函数函数期望值的函数 | 概率论

         猛戳订阅!  👉 《一起玩蛇》🐍 💭 写在前面: 本章我们将通过 Python 手动实现条件分布函数的计算,实现求平均值,方差和协方差函数,实现求函数期望值的函数。部署的测试代码放到文后了,运行所需环境 python version = 3.6,numpy = 1.15,nltk = 3.4,tqdm = 4.24.0,sci

    2024年02月05日
    浏览(37)
  • 【应用统计学】随机变量的概率分布,数学期望和方差及协方差

     【例4-5】某厂对一批产品进行抽检,该批产品含有10件正品及3件次品。设每次抽取时,各件产品被抽到的可能性相等。一件一件抽取产品进行检验,每次抽取的产品都不放回该批产品中,求直到抽得正品为止所需次数X的分布律。 解: 由于每次抽取的产品不再放回,因此离散型

    2024年02月05日
    浏览(40)
  • 二维随机向量的数学期望E与协方差σ

    目录 1. 二维随机向量(X,Y)的数学期望EX, EY 2. 二维随机向量函数z=g(X,Y)的数学期望EZ 3. 二维随机向量(X,Y)的方差DX, DY 4. 二维随机向量的性质(和、积的数学期望E与方差D) 5. 二维随机向量的协方差COV和相关系数ρ 5.1 协方差COV定义 5.2 协方差COV的性质  5.3 相关系数ρ 离散形式 和

    2024年02月02日
    浏览(30)
  • 协方差、样本协方差、协方差矩阵、相关系数详解(python代码)

    对于一个随机变量的分布特征,可以由均值、方差、标准差等进行描述。而对于两个随机变量的情况,有协方差和相关系数来描述两个随机变量的相互关系。 本文主要参考概率论与数理统计的教科书,整理了协方差、样本协方差、协方差矩阵、相关系数的概念解释和代码。

    2023年04月10日
    浏览(30)
  • 协方差,协方差矩阵,相关系数

    对于一个随机变量的分布特征,可以用均值,方差,标准差来描述。对于两个随机变量,可以用协方差,和相关系数来描述两个随机变量的相互关系。 注意在机器学习中一个向量为m*n,m表示样本个数,n表示特征个数,这里的随机变量表示的是每一列,而不是每一行。  协方

    2024年02月11日
    浏览(43)
  • 【数理知识】协方差,随机变量的的协方差,随机变量分别是单个数字和向量时的协方差

    序号 内容 1 【数理知识】自由度 degree of freedom 及自由度的计算方法 2 【数理知识】刚体 rigid body 及刚体的运动 3 【数理知识】刚体基本运动,平动,转动 4 【数理知识】向量数乘,内积,外积,matlab代码实现 5 【数理知识】协方差,随机变量的的协方差,随机变量分别是单

    2024年02月14日
    浏览(43)
  • 【概率论理论】协方差,协方差矩阵理论(机器学习)

      在许多算法中需要求出两个分量间相互关系的信息。协方差就是描述这种相互关联程度的一个特征数。   设 ( X , Y ) (X,Y) ( X , Y ) 是一个二维随机变量,若 E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] E[(X-E(X))(Y-E(Y))] E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] 存在,则称此数学期望为 X X X 与

    2024年02月14日
    浏览(36)
  • 【什么是自相关矩阵,自协方差矩阵,互相关矩阵,互协方差矩阵?】

    最近看模式识别课程的时候卡在了一个地方,见下图: 协方差矩阵倒还知道,自相关矩阵?怎么推导的?它有什么意义?上网查了资料,要么晦涩难懂,要么一堆废话,这里我想尽量用最简洁的语言讲清楚它们。 向量的内积与外积 场景:机器学习 样本(n个样本,N个维度(

    2023年04月20日
    浏览(29)
  • 协方差矩阵在torch和numpy中的比较,自行实现torch协方差矩阵

    数学中(教科书、大学课堂、数学相关的科普视频),一个矩阵的向量往往是竖着的, 一列作为一个vector ,这一点numpy库也是这样默认的。 但是在机器学习以torch框架为例,一个有意义的向量或者说embedding 是横着的 。 因为numpy库默认是一列是一个向量而torch等机器学习框架

    2023年04月08日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包