增长黑客AB-Test系统（五）——AB-Test 双样本显著性计算

数据森麟

发布于 2020-08-24 11:30:55

2.9K0

发布于 2020-08-24 11:30:55

文章被收录于专栏：数据森麟

作者：livan

来源：数据python与算法

前言

如下图所示，样本显著性的计算是在试验结尾部分的重要步骤，决定了试验是否有效：

A-A-B三组数据观察n天后，会产生3组数据，我们接下来的任务就是计算这三组数据的统计效果，进而确定哪个方案效果好……

主要是对试验过程中的数据以及历史数据进行统计计算，如下图：

双样本的z检验计算

Z检验的优势在于使用总体方差，其整体效果比t检验和卡方检验效果明显，t检验采用的是样本方差，在计算时倾向于小数据量的运算，卡方检验是对两个数值的比较，其精准度较t检验又降一级。

1）A-A组z检验：

A-A组试验的目的是为了确认我们的随机样本分流是否平衡，如果A-A组试验存在显著性差异，则表示分流失败，试验的可信度降低，严重情况下存在试验失效的风险，因此我们需要进行A-A测试计算：

A组试验作为对照组试验存在历史数据，因此我们可以通过历史数据进行方差计算，得到总体方差，在AB测试中存在一个基本的假设，即各组试验的方差是一致的，即：数据的样本分布和总体分布一致，变化的是各个试验组的均值大小。所以不仅是现在的A-A，甚至下文的A-B，都可以使用历史数据中的方差值。

A-A试验的另一个假设即：两组试验是独立进行的。所以我们在进行计算时需要使用双样本独立性检验，即：

在进行AB测试的统计分析时，我们需要将方差计算转化成概率形式，因此，公式变化为：

公式中的σ22为总体方差，p2为总体指标的平均值。

公式中方差的计算使用的是试验开始前一个月的历史数据，因此试验设计时需要获取到历史数据。

根据z值表可以确定出对应的P值，并将P值与显著性水平进行比较，以确定两个方案是否有显著性差异。

我们假设客户允许的置信水平为90%，则双尾试验中α=0.05：

如果P>0.05，则接受原假设μ1=μ2，表示A-A两个组的差异不显著，此次试验分流效果随机，A-B试验可信度较高。

如果P<0.05，则拒绝原假设μ1≠μ2，表示A-A两个组的差异显著，此次试验分流的效果不随机，A-B试验的可信度不足。

2）A-B组z检验：

A-A试验的目的是为了查看显著性，即谁高谁低并没有太多差异，所以在进行显著性检验时可以采用双尾检验，只进行是否显著的查看，但是在A-B试验中，我们除了查看两个试验组是否有显著性差异，同时还需要了解A、B两组试验哪个表现更好，此处可以直接用单尾假设检验（μb＞μa）：

如果单尾假设检验不显著，则拒绝原假设，试验中B方案需要被淘汰；

如果单尾假设检验显著，则接受原假设，试验中B方案可以显著提高数据指标；

假设用户的置信水平为90%，则单尾试验中α=0.1：

如上图，在单尾试验中，显著性水平α=0.1，然后基于显著性水平得到标准Z0.1的值，我们将计算出的z值与标准Z0.1进行比较：

如果Z>Z0.1，则接受原假设，AB方案有显著性差异；

如果Z<=Z0.1，则拒绝原假设，AB方案没有显著性差异；

双样本的t检验计算

1）A-A组t检验：

Z检验中我们通过计算总体方差得到z值，与此同时，随着试验的不停推进，样本数据也会积累出一定的数据量，使用样本方差，我们也可以进行一定的显著性比较，在A-A试验中t检验的计算过程得出如下：

由公式可以看出，t检验与z检验在公式上的差异不大，只是方差的计算方式不同，我们通过对样本的计算得出了试验对应的值，在概率类计算条件下得出公式为：

对应计算结果分析与Z值检验类似，通过t值找到P值：

如果P>0.05，则接受原假设μ1=μ2，表示A-A两个组的差异不显著，此次试验分流效果随机，A-B试验可信度较高。

如果P<0.05，则拒绝原假设μ1≠μ2，表示A-A两个组的差异显著，此次试验分流的效果不随机，A-B试验的可信度不足。

2）A-B组t检验：

A-B测试的方法中，除了z检验，我们也可以直接使用t检验进行，通过t的检验效果，计算出是否显著，其计算逻辑与z的A-B测一致，只是方差做了替换。

◆ ◆ ◆ ◆ ◆

增长黑客AB-Test系统（五）——AB-Test 双样本显著性计算

增长黑客AB-Test系统（五）——AB-Test 双样本显著性计算

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐