概率论需要注意的点

这篇具有很好参考价值的文章主要介绍了概率论需要注意的点。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

超几何分布是H( n N M)的顺序，其中 n表示抽取的数量，N表示总体数量，M表示其中次品的数量。超几何分布将-先后不放回取n个中，求取得的球里面白球的概率= 任取n个，然后算里面白球的数量。这两个是相同的。

超几何分布中，当抽取的个数n远远小于N的时候，这个时候超几何分布可以近似看做是二项分布，即不放回抽取看作是有放回抽取。即抽n个的不成功率，直接按照二项分布的公式就好了。

而当二项分布中的时候，如果二项分布中的n非常大，即实验次数特别多，而成功的概率p很小，当入=np合适的时候，一般n>10，q<0.1的时候就可以使用了。即二项分布中，n次实验中，k次成功的概率= 泊松分布中离散来k个人的概率，其中由于泊松分布的均值和二项分布的均值相同，即入=np。

一般概率密度函数，写范围的时候，最后写其他的范围，使用其他的字眼多一些，F(x)因为需要扣范围，所以其他用的少一些，一般范围都是全集。即概率密度函数是一个点的概率，概率分布或者概率函数是累计概率。概率分布一般使用定义去求。当f(x)和F(x)转换的时候，小的可以唯一确定大的，而大的不可以唯一确定小的，所以小的少一两个点没关系；小的转大的的时候，注意要加上前面已经完成的，而大的转小的的时候，直接求导就可以了，不用管前面的，因为求导的时候可以将前面加上的常数变成0，只剩下这个范围中的点了。

指数函数的主要考点就是 f(x)的表达式和F(x)的表达式，其中随机变量X表示的是等待故障的时间，入是大于0的，表示故障率，均值是入分之一，表示等待故障而持续时间的平均值，，当故障率很大的时候，每次持续的时间就很短，平均自然短；当故障率很低的时候，持续的时间自然长，平均持续时间自然长。Dx是入平方分之一。重点：不考虑处理故障的时间，只考虑等待故障的时间。 还有一个考点就是指数函数无记忆性，即已知6小时还没故障，那么6个小时之后还不故障的概率，这个为条件概率，但是可以视条件而不见，直接算12个小时之后还没有故障的概率即可，而且6个小时还没故障的表示等待时间T≥6，因为比如12个小时还没故障，其实也可以表示6小时过后还没故障，所以是一个向右的范围，切记！

顺便说一下几何分布，几何分布是指数分布的离散情况，也有无记忆性，比如已知x＝6的时候没有成功，即第六次尝试没有成功，那么第七次还没成功的概率直接算，不用管已知的条件概率。

概率积分的时候，需要注意将一些常见连续函数的均值和方差或者概率密度函数全集上的积分，变成积分的形式考察，这三种形式的考察比较频繁，当辨别不出积分的时候，可以想想是不是和那个连续函数的这三种形式类似，所以需要记住所有常见分布的均值和方差。值得一提的是，方差的积分形式可以用均值的积分形式进行转换，需要能够识别出来！！！

在写f(x)和F(x)转换的时候，应该注意到f(x)是一个点，F(x)是一个范围，当为分段函数的时候，更应该分清楚，比如后续几段的F(x)需要加上前面完成的F(x)的和。即记住 f(x)是自己，F(x)是前面的想加。

明确二项分布中，概率的大小是先升高，后降低，最高点的判断依据就是(n+1)p，如果算的这个数是整数，那么概率最大的就是取k=(n+1)p或者是k=（n+1）p-1，如果(n+1)p不是整数，那么就向下取整就好了。这个是著名的两边夹定理，如果发现Un这个式子研究不了普通的函数性态，比如阶乘，那么就可以用两边夹——概率p23。

泊松分布的含义是在单位时间内出现n次的概率。几何分布是第n次才成功的概率，独立重复实验，X为实验次数，也是等待分布，无记忆性。指数分布是等了x时间之后，才故障的概率，X表示的是时间，也是等待分布。泊松分布中两次发生中间的时间分布符合指数分布，所以可以由泊松分布推出指数分布，桥梁在——p28概率论。均匀分布是点分布，即坐标分布，可以利用点来沟通区域线段长度的关系，以此达到随机变量转换。

需要注注意f(x)，F(x)和P(X≤x)的区别。其中f(x)是一个点，F(x)是一个范围，但是其只要代入一个点x就可以变成一个范围，其本质就是P(X≤x)，一个范围，需要知道这两个之间的转化。——P30概率论。

如果题目条件比较复杂，可以先使用定义去求F(x)，然后再求f(x)；如果某些情况可以直接求出f(x)，比如卷积公式，那么就可以先求出f(x)然后再求F(x)就可以了。

随机变量转换的时候，需要分清，X是随机变量，而x是任意实数，换句话就是X是一个可能范围，x是调节这个范围的开关；所以转换的时候，比如Y=2X+1换的随机变量，而不是开关；而随机变量的本质是，Y没有自己概率分布，需要上Y=2X+1的基础上，通过将Y换成X，即可用X的模式，但是Y是通过自己的开关y来调节X再来调节Y，达到最终y开关，调节Y的目的。所以各自的开关只能各自使用，x开关一定求得是X的分布函数，但是其随机变量可能会发生变化，可能X通过变化用的是Y的基础内核，公式也用的Y的。结论：随机变量转换就是开关自己用，但是随机变量可以用其他家的，即用其他家的公式进行转换。（在一维的公式法中，要求是单调函数才可以使用，否则无法唯一确定Y或者X，不单调就使用分布函数法。）

所有转化的题目，如果用到定义法的话，都是将随机变量转化成基随机变量X，但是开关不变，然后用开关，从负无穷一直延伸到正无穷就好了。

联合分布的实质就是P(AB)，两件事同时发生的概率，但是是否能将A,B概率分别写出来，这要看A,B是否独立。

二维概率函数中，f(x,y)需要两次积分才能变成F(x,y)，且这两次积分的上限分别是x,y两个，下限都是负无穷；如果两次积分的上下限分别是负无穷和正无穷，那么就是全集，概率为1；还有要注意的一个特殊点是：小f用一次上下限都是无穷的积分等于边缘概率密度，这个是要注意，这个时候没有变成大F，而只是小f，不过是边缘概率密度函数，如果是x的，那么Y就是全集，如果是y，那么X就是全集，需要注意。

二维函数求F(x,y)概率分布函数的定义法很特别，不同于一维的方式，以为的方式直接是一个变量，从负无穷走到正无穷就好了，但是二维不一样，你需要兼顾两个变量，就像一个长方形，有x比y长的时候，一定也有y比x长的时候，在两者不相同的时候，其情况是对称的，所以就有特别的划分区域的方式，即将x-y的定义区域画出来，然后找到曲线和坐标轴的交点，以及划分的区域，然后交点向上向右划线，就划分成每个区域了，然后对每个区域中含有定义域的部分进行求导就好了。

最大似然函数的本质：有一个未知数Q存在变量的概率密度函数或者是取值范围中，而现在有服从于同一个分布的样本点，相互独立，X1,X2.....Xn，那么这个未知数的取值是什么的时候，可以使得这几个样本点出现的概率是最大的！那么用什么来衡量概率的大小呢？用似然函数！似然函数怎么表示呢？如果要使得这些样本点出现的概率是最大的，那么就相当于这些样本点的概率的乘积是最大的；而又由于样本点的概率是一个点的概率，所以这里是概率密度的乘积（虽然这样说不太严谨，因为连续变量中，一个点得概率是为0的，其实概率密度函数表示的是一某点为中心的无穷小的区间上的概率，不过这里为了方便理解，所以理解成一个点的概率。）或者是离散 X= a 这样概率的乘积。所以最大似然函数的本质就是求出Q这个未知数为什么的时候，似然函数的值可以是最大的。

最大似然函数的三种情况（上面的图片是第三种情况）：为了求出这个似然函数的最大值，可以分为以下的三种情况：（1）左边是L，函数标志，右边是函数的式子，两边进行取对数（为了方便计算，如果取对数更加复杂，可以不取对数），然后两边对未知数Q（如果有两个未知数的话，那么就求偏导）求导，然后观察导数，让导数等于0，算出关于Q的表达式，这个就是Q的最大似然估计（记得在头上加上小帽子）（2）如果导数是恒大于0或者是恒小于0，那么就使用定义，比如如果导数是恒大于0，那么就说明函数是单调递增，要想让函数最大，那么Q就最大，然后找一找Q和样本点之间的关系，看看Q取哪一个样本点可以使得似然函数的是最大的（还有其他的方式也可以试试）（3）第三种就是似然函数L是一个常数，而未知数Q在取值范围里面，这个时候也要使用定义法，看看Q取什么值的时候，可以使得最大似然函数的值是最大的，这里的Q往往是一个范围，看看能否找到Q和最大的X和最小的X之间的关系，下面是一个例题。

概率论需要注意的点

最大似然估计量不变原则：这个原则的本质就是，有一个以最大似然估计量Q当做变量的函数u = u(Q)，且这个函数的是单值函数，有反函数（单调一定是反函数，但是反函数不一定是单调的，可以是一半是单调递增，一半是单调递减。），那么要求整个函数的最大似然估计那么就是带入最大似然估计量Q的函数值，即可。

矩估计的本质：矩估计的最大似然估计都是估计，只不过矩估计是使用均值来估计！什么意思呢？矩估计和最大似然估计里面都有一个未知数Q，只不过最大似然估计里面要体现实际情况的意思，使用似然函数来估计这个未知数Q，但是矩估计里面却是使用均值EX来估计Q，即使用离散或者是连续的EX的公式（离散的一般告诉你具体的分布，然后使用EX的公式就好了；连续一般告诉你概率密度函数，然后使用公式计算就好了），但是使用EX计算出来一个带有Q的式子和什么划上等号求出Q呢？使用一阶原点矩（样本点Xi的均值）或者是二阶原点矩（样本Xi^2的均值）来和EX和EX^2相等，即可求出Q的样子。首选一阶原点矩进行计算，但是一阶原点矩里面没有包含未知数Q，那么就使用二阶原点矩进行计算。如果遇到了两个参数，那么就同时使用一阶原点矩和二阶原点矩，两个方程中同时拥有两个变量，然后联立一下，分别解出两个变量就好了！！！。

接上面：在计算矩估计和似然估计的时候，需要很强大的积分能力，特别是凑微分和换元的能力，以及对伽马函数和指数函数等常见函数EX和DX以及概率密度函数全集积分形式的识别，当积分和一些常见函数的EX、DX以及概率密度函数全集积分形式符合的时候，这个时候就可以直接写出结果，起到一些事半功倍的效果。

最大似然函数样本点的书写问题：建立似然函数的过程中可以写小写的x，但是最后面写结果的时候要写大写的X。

大数定律和中心极限定理以及切比雪夫不等式的本质：先说说切比雪夫不等式，切比雪夫不等式是没有极限趋向于无穷的，“极限趋向于无穷”只是大数定律和中心极限定理的特点，而切比雪夫不等式只是概率而已，而且计算的是Xi和均值EX之间的关系（一谈到切比雪夫不等式可以想到DX，因为DX也是X-EX，可以起到辅助记忆的作用。）记忆切比雪夫不等式的时候，先记忆≥的情况，即|X-EX|≥a的概率是≤DX/a^2的，即 ≥ ≤没有1，那么接下来就是＜ ≥ 有1了（中间的X-EX是有绝对值的）。接下来的大数定律和都中心极限定理是有“极限趋向于无穷大的”，且也是有绝对值||，其中大数定律中有引入依概率收敛的概念，而中心极限定理中没有用到。依概率收敛其实是在切比雪夫不等式形式上的一个改进，尽管绝对值中间的内容改变了，但是基本形式没有改变，只是做了一些调整：外面加上了“极限趋向于无穷大”+将右边的内容变成了1或0和两边内容中间的符号变成了等于好，即≥——0，＜——1就是这样的（这两个式子的含义是等同的，只要满足其中一个就是依概率收敛。）！大数定律说的就是—样本均值（主观）和样本均值的均值（客观）之间的关系，根据是否是同分布，分成了切比雪夫（不是同分布，但独立），和辛钦大数定律系列（同分布且独立），他们两个具体的符合条件需要看看；而中心极限定理是完全不同的体系，说的是样本均值或者是n倍的样本均值（独立同分布）作为一个随机变量，这个变量在经过正态标准化（尽管本身这个时候不是正态分布，但是按照标准化的模子进行操作，故称为正态标准化。）之后的概率分布函数（当n趋向于无穷的时候）服从的是标准的正态分布。

无偏性、有效性、一致性（相合性）这三者的关系：无偏性和有效性是一起的，而一致性（相合性）是另外的；无偏性是算出来的估计量Q帽子的均值EQ帽子 = Q（原来的Q）——一般算u（即客观的均值），而有效性是在两个估计量都无偏的情况下，计算DQ帽子，那个小，所以就那个更加有效！一致性（相合性）就是依概率收敛，其中的比较是 Q和Q帽子——主要使用切比雪夫不等式和辛钦大数定律（因为依概率收敛只有大数定律使用了，且依概率收敛是切比雪夫不等式的改编，所以只能往这两个方向去想，然后根据题目中所给的条件，然后选择一下使用哪个定律就好了。）

两类错误和区间估计和假设检验的总结：首先，两类错误中需要关注的几个因素，一个假设U0，因为你要观察这个假设是双侧的假设还是单侧的假设；如果U1（U0相反的假设）不是不等于号，比如是大于号，小于号，那么就是单侧的假设；反之，如果是不等于号，那么就是双侧的假设。看完了两个U0和U1的假设之后，那么这个时候需要注意拒绝域，如果是第一类错误，那么就是在认为U0原假设是对的基础上，拒绝了U0，那么这个时候就需要用上拒绝域；同理，如果是第二类错误，那么就是在U0原假设错的基础上，接受了原假设U0，那么这个时候就需要用上拒绝域的反面。还有一个细节就是两类错误中，求的是条件概率，但是其中U0的真假和是否拒绝U0是独立的，即是没有关系的，所以计算这个条件概率的时候，只需要将U0为真或者假的信息加入拒绝或者接受U0的式子中就好了，剩下的视而不见就好了。（区间估计）区间估计的本质就是利用一组数据X1......Xn来构成一个置信区间(X一把 + A)，只要能落在这个置信区间里面客观均值u都是可信的，也就是利用一组数据来估计其中的客观均值u。其中需要注意的细节就是区间估计的定义，比如一个变量X的置信区间是（A,B）那么P{A<X<B} = 置信度（0.95）,这个需要注意。（假设检验）假设检验的本质就是，我们已经有一个声称的均值u0，但是我们不确定这个均值是否是对的，那么这个时候我们需要检验这个均值u0是否是正确的，方法是什么呢？那就是从总体中抽样出来一部分的X1.....Xn，我们根据u0和显著性水平做出一个假设，形成一个拒绝域（u0 + A），如果抽样出来的X一把落在了拒绝域当中，那么我们就推翻原假设，如果没有落在里面，那么我们就支持原假设。其中需要注意的一个点：假设检验的设置情况有两种，如果家宴U1是大于号或者是小于号，那么这个就是单侧检验，比如，如果是大于号，那么拒绝域就是在右边，且上分位数的底数也不用乘以1/2（上分位数的本质就是一个变量x，我们常说的开关x，区别于随机变量X的）；如果是不等于号，那么就是双侧的了。

一定要注意卡方分布的定义，是n个独立同分布的xi服从标准正态分布的平方和组成的，但是如果将这些平方和作为一个统计量的话，也定义为Xi，这个Xi是符合卡方分布的，那么就需要区分这里的Xi和上面xi的区别，不要因为字母是一样的，就搞混乱了。

总结一下正态总体下的四个基本公式的记忆：（一）和（二）都是基础，第一个阐述的是“均值的正态标准化——方差是不同的”，第二个阐述的是卡方分布的定义，也就是n个独立同分布于普通正态的变量在经过标准正态化之后的平方和是服从正态分布的；（三）是（二）的进阶和下面解释的一样；（四）也和下面解释的一样，不过其中的是（一）和（三）的结合，采用的是（三）的第二中形式（只有三会有两种形式。）

（接着上面：（一）和（四）的主角都是均值（X一把），其中的是方差在变化，从客观的方差变成了样本的方差，分布也从标准正态变成了n-1的t分布；而（二）和（三）的主角是xi普通变量，变化的是均值，从客观的均值，变成了样本的均值，由于在（三）中客观的均值变成了样本的均值，从而和样本方差占上了关系，所以（三）有两种形态。）

两种特殊的分布t分布和F分布上下想要成立的条件都是：上面的变量和下面的变量是独立的。

在使用卷积公式的时候，虽然卷积公式常用的时候是需要知道 联合概率密度函数 ，然后换掉其中一个变量用X和Z表示，但是不要忘记了一个重点——当其中的X+Y=Z 中的X和Y是独立的时候，就不需要知道其中的联合概率密度函数了，独立的时候直接拆开来相乘就好了，而且使用公式卷积法还可以避免三个变量，让其中的Y变成X和Z的式子，就算不知道Y的表达式也可以做出来。

需要注意分布函数法的本质！我们在P{X≤x}中常用的是将X移动到左边的时候，然后套上FX(x)的公式，这个是常见的用法；但是当左边不是单独的X的时候，往往会将其多余的部分移动过去，但是这种操作只是性质，而不是本质，本质是下面两张图。