AB测试最小样本量-Toy模板网

这篇具有很好参考价值的文章主要介绍了AB测试最小样本量。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.AB实验过程

常见的AB实验过程，分流-->实验-->数据分析-->决策：
分流：用户被随机均匀的分为不同的组
实验：同一组内的用户在实验期间使用相同的策略，不同组的用户使用相同或不同的策略。
数据收集：日志根据实验系统为用户打标记，用于记录用户行为，然后数据计算系统根据带有实验标记的体制计算用户的各种实验数据指标。
数据分析和决策：实验者去理解和分析不同的策略对用户起了什么样的作用。

2.中心极限定理

将策略推全来验证策略效果是比较危险的，因此AB实验的对象是从总体当中去抽样数据，总体的分布可能会有多种形态，如正态分布、偏态分布、严重偏态分布等，总体的数据量也有多有少。‘
AB实验是用小样本去推断整体，这就会有一个问题：抽样的样本至少多少能保证统计的科学性？

样本均值的分布，趋近于正态分布，正态分布曲线由均值和方差决定，该分布均值的均值E( ̅x)趋近于总体均值u。就算总体分布不是正态分布，依然可以通过抽样得到样本均值的分布，近似正态分布，这样就可以使用正态分布来估计置信区间，从而实现参数检验（如t检验）

3. 样本容量

当每次从总体中抽样数据时，计算均值会得到一个数，抽样同样的数据量，计算均值，也会得到一个数，两个数大概率不会一样，因此，当抽样多次，计算的均值就会形成一个分布。
当总体分布是正态分布时，样本容量n为任意数，u的抽样分布都是正态分布
当总体非正态，如指数分布、均匀分布等，样本容量n>30, 近似为正态分布
当总体非正态，分布为严重偏态或有异常值，样本容量n>50，近似为正态分布

上文说的样本容量，即每个随机样本中个体的数量，用n表示，当按照样本量抽取多次的时候，才能得到正态分布，抽样的次数，叫样本量。E( ) = u 与样本容量无关，样本标准差和样本容量有关（总体标准差=样本标准差/），样本容量越大，样本标准差越小。假设样本容量=总量，那最后就成一条线。
基于均值分布，就能计算出在均值u附近一定举例的概率，反之根据概率，也可以得到置信区间。