经验结论:在数量足够大时,均值类指标服从正态分布;概率类指标本质上服从二项分布,但当数量足够大时,也服从正态分布。
1. 概率在某种程度上也是平均值,可以把这里的下载率理解为“看到广告的用户的平均下载量”,那我们已经有 43200(602430 )个数据点了,样本量远远大于 30,但为什么下载率的分布没有像中心极限定理说的那样趋近于正态分布呢?这是因为在二项分布中,中心极限定理说的样本量,指的是计算概率的样本量。在社交 App 的例子中,概率的样本量是 10,因为平均每分钟有 10 人看到广告,还没有达到中心极限定理中说的 30 这个阈值。所以,我们现在要提高这个样本量,才能使下载率的分布趋近正态分布。
2. 简单的进行样本量提高,可以考虑计算每小时的下载率,因为每小时平均有600人看到广告,样本量也就从10提高到了600。
经验结论:二项分布近似服从正态分布的公式:min(np,n(1-p)) >= 5
- np或者n(1-p)中相对较小的一方大于等于5,只有二项分布符合这个公式时,才可以近似于正态分布。这是中心极限定理在二项分布中的变体
- 每分钟下载率:np=10*10%=1,小于5,因此无法近似为正态分布
- 每小时下载率:np=600*10%=60,大于5,因此可以近似正态分布
经验结论:A/B试验更推荐使用双尾检验
- 双尾检验可以让数据自身在决策中发挥更大的作用
- 双尾检验可以帮助我们全面考虑变化带来的正、负面结果
- 从比较样本的个数区分:单样本检验、双样本检验、配对检验 经验结论:A/B试验更推荐使用双样本检验
- 从假设角度区分:单尾检验与双尾检验
经验总结:均值类指标一般用t检验,概率类指标一般用Z检验(比例检验)
- 样本量大的情况下均值类指标是正态分布,正态分布的总体方差的计算需要知道总体中各个数据的值,这在现实中几乎做不到,因为我们能获取的只是样本数据。所以总体方差不可知,选用t检验
- 概率类指标是二项分布,二项分布总体方差可以通过样本数据求得总体方差。而且现实中A/B测试的样本量一般都远大于30,所以选用Z检验。这里的比例检验(ProportionTest)是专指用于检验概率类指标的z检验
日常A/B最常见的就是分析概率类指标和均值类指标,经验上,概率类指标采用双尾双样本比例检验(z),可用proportions_ztest函数计算p值,confint_proportions_2indep函数计算指标差值的置信区间;均值类指标采用双尾双样本t检验,可用ttest_ind函数计算p值,tconfint_diff函数计算指标差值的置信区间。