前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计学(2)|AB测试—理论基础

统计学(2)|AB测试—理论基础

作者头像
用户8612862
发布2021-05-13 17:19:00
1K0
发布2021-05-13 17:19:00
举报

ZZ之前承诺以A/B测试为案例,串联起统计学的理论,让理论直接落地于实践,搭建起统计学理论与工作实践的桥梁。所以,为了实现吹过的牛逼,这篇”A/B测试—理论基础“应运而生。

现阶段,很多公司都在用A/B测试这一工具推进业务发展,特别是《增长黑客》系列图书的流行。但是遗憾的是,真正将A/B测试用明白的公司寥寥无几,其中对A/B测试有扎实理论基础的人更是稀缺。不知所以然,何谈灵活运用?所以熟读本篇精华之作,完全可作为数据分析师的一大杀手锏,无论是转行还是入行,先把本篇吃透就对了。

下面我们进入正题,先来看看什么是A/B测试!

1什么是A/B测试

先看一下VWO对AB测试的解释:

A/B testing (sometimes called split testing) is comparing two versions of a web page to see which one performs better. You compare two web pages by showing the two variants (let’s call them A and B) to similar visitors at the same time. The one that gives a better conversion rate, wins!

简单来讲,A/B测试是一种比较手段:通过分析同一总体下,由于某些不同的策略导致样本数据表现出的差异,来推断某些策略的效果。

A/B测试极其强大又极其科学。其强大之处在于:

  • 可以消除产品设计中不同意见的battle,根据实验效果确定最佳方案;
  • 快速试错,确定新功能上线后的效果,以及是否推广到全量;
  • 通过试验,找到问题的真正原因,提高产品设计和运营水平;
  • 建立数据驱动、产品不断迭代的闭环过程;
  • 通过A/B测试,降低新产品或新功能发布的风险,为产品持续迭代提供保障。

其科学之处在于:

  • 科学的实验设计;
  • 科学采样;
  • 科学的流量分割;
  • 科学的统计学原理;

A/B测试的概念很重要,因为这里涉及了几个核心概念:同一总体,策略,不同样本,差异及效果,下面的介绍将会围绕这些核心概念展开。在了解了A/B测试的概念后,我们来聊聊它的本质,以此清晰的认识这个工具的构成。

2 A/B测试的本质

上一篇统计学必知必会中,ZZ详细的剖析了统计学中关于假设检验部分的发展历程,从计数到均值方差;从总体到样本;从频率到概率;从指标到分布;最后由于现实世界的限制,研究从样本推断总体,进而引出统计量,抽样分布,最后引出假设检验,下面是详细链接,没有看过同学建议移步先行阅读一下:

统计学(1)|白话统计学发展(含统计学必知必会)

那么本质上来说,A/B测试就是假设检验理论的一个实际应用而已,所以想了解A/B测试的理论,只需要了解假设检验的理论即可。

3假设检验

话置于此,我们将视角转向假设检验,假设检验是一个两步过程:假设 —> 检验;假设检验的思想其实是一个倾向于推翻假设的过程,这是因为我们证明一个结论一般很困难。

证明一件事有两种方式:从理论公式上严格推导,或者穷尽所有情况。对于从理论上严格推导,最常见的一个例子是高等数学中支撑实数完备理论的七大基本定理(确界原理、柯西收敛准则、区间套定理、单调有界定理、致密性定理、聚点定理和有限覆盖定理)的互相推导和证明;对于穷尽方法,最著名的方法是数学归纳法。为什么举上面两个关于证明的例子呢?就是为了说明证明一个结论很难,不然,上面两个例子你会吗?

既然证明一件事这么难,我们是不是可以反其道而行,很多聪明的小伙伴已经脱口而出:反证法!对,直接证明太困难,反证则容易的多,因为我们只需要举出一个反例就可以说明一个结论不成立。假设检验本质上是一个反证的过程,但是这里有一点区别,到了概率论这里是软证明,我们将概率的思想融于反证法,以一定概率来给出确定的结论。

那么对于假设的设计遵循这样的思想,我们做A/B实验,希望得到的结论是我们的策略产生了效果,直接证明缺乏确凿的证据,那我们使用反证法,首先假设A/B组实验指标无差异,一般是A/B组的指标均值无差异,再通过举出反例去推翻这个原假设。

解决了假设的问题,我们来设计检验的部分。对于一个事件(A/B组的指标均值无差异),我们应该怎么举出反例呢?统计学有一个经典的思想是小概率事件几乎不可能发生,那么如果我们找到了一个小概率事件发生了,我们就找到了解题的钥匙。

所以,问题转移到如何找到小概率事件,想找到小概率事件,首先要把小概率事件定义出来,为了定义小概率事件,我们首先要把事件的分布搞出来,才能圈定小概率区域;那么原假设A/B组的指标均值无差异这个事件分布是如何呢?

需要注意的是,A/B组数据的收集是一个随机抽样的过程,所以它们的均值和方差也是随机变量,自然也有各自的分布,我们称这样的分布为抽样分布。当然了,对于样本的均值的抽样分布已经有前人帮我们研究好啦。

为了给出样本的均值的抽样分布形式,我们引出了概率论首席定理:中心极限定理:

大量相互独立的随机变量的均值的分布以正态分布为极限,也就是趋近正态分布,与随机变量的具体分布无关。

也就是说,无论现有的样本数据是什么样的分布,只要通过均值的方式对变量数据进行组合转换,最终得到的具体分布类型肯定是正态分布状态。所以我们在处理相关数据时,并不需要这个数据一定是正态分布的表现。

通过符号语言表达,在样本内抽样数量 n足够大的情况下, 样本均值

\bar{X}

的抽样分布如下:

\sum_{i=1}^{n}X_{i}\sim N(n\mu,n\sigma^{2}) \\
\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}\sim N(\mu,\frac{\sigma^{2}}{n})

其中,

\mu

是总体均值,

\sigma

是总体标准差。

中心极限定理给出了样本均值的抽样分布形式,但是我们注意到,样本均值的抽样分布涉及到总体的均值和方差,均值我们可以通过一些计算进行消除,但是总体方差是一个绕不开的指标,所以我们额外介绍一些总体方差的无偏估计量:样本方差

S^{2}

,我们首先给出它的计算公式:

S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}\\

有些同学会说,ZZ我知道的方差公式不是这样的,分母是

n

啊!哈哈,这里涉及样本方差对总体方差的估计问题,由于

n-1

形式的样本方差是总体方差的无偏估计,所以样本方差的分母定义为

n-1

,为什么

n-1

样式的样本方差无偏估计呢?有兴趣的同学评论区留言,我会把推导过程回复。

当总体是正态分布的情况下,我们可以推导出关于样本方差 S^{2}的分布形式为(具体推导过程感兴趣的同学在评论区留言,我会把推导过程回复):

\frac{(n-1)S^{2}}{\sigma^{2}}\sim \chi^{2}(n-1)\\

其中,

\chi^{2}(n-1)

为自由度为

n-1

的卡方分布,需要注意的是,样本方差的此分布形式有前提:总体是正态分布的。至于非正态分布的总体,其样本方差的分布比较困难得到,这里暂不涉及。

另外对于

\chi^{2}

分布,

t

分布和

F

分布三大常见抽样分布的定义如下:

\chi^2

分布(卡方分布)

X_1,X_2,...,X_n\stackrel{\text{i.i.d}}{\sim}N(0,1)

, 令

X=\sum_{i=1}^nX_i^2

,则称

X

是自由度为 n 的

\chi^2

变量,其分布称为自由度为

n

\chi^2

分布,记为

X\sim\chi^2_n

  • t 分布

设随机变量

X \sim N(0,1),Y\sim \chi^2_n

, 且

X

Y

独立,则称

T = \frac{X}{\sqrt{\frac{Y}{n}}}

为自由度为n的

t

变量,其分布称为自由度为

n

t

分布,记为

T\sim t_n

.

  • F 分布

设随机变量

X\sim\chi^2_m,Y\sim\chi^2_n

, 且

X

Y

独立,则称

F=\frac{X/m}{Y/n}

为第一自由度为

m

,第二自由度为

n

F

分布,记为

F\sim F(m,n)

到了这里,我们终于一步步的将假设检验需要的分布理的差不多了。下面进行最后的组装,这里涉及两个独立随机变量差的分布。

根据中心极限定理我们清楚了样本均值的分布,同时也得到了正态总体下的样本方差的分布,那么回到最开始的原假设:A/B组的指标均值无差异,我们姑且用

\bar{X_{1}}

S_{1}^{2}

来表示A组的样本均值和方差,用

\bar{X_{2}}

S_{2}^{2}

来表示B组的样本均值和方差,那么原假设表示为:

F(\bar{X_{1}})=F(\bar{X_{2}})

,那么请睁大眼睛,不要错过我们最关心的A/B组的指标均值无差异这个事件分布是:

\bar{X_{1}}\sim N(\mu_{1},\frac{\sigma_{1}^{2}}{n}),\bar{X_{2}}\sim N(\mu_{2},\frac{\sigma_{2}^{2}}{n})
\bar{X_{1}}-\bar{X_{2}}\sim N(\mu_{1}-\mu_{2},\frac{\sigma_{1}^{2}}{n}+\frac{\sigma_{2}^{2}}{n})=N(0,\frac{2\sigma^{2}}{n})

其中,

\mu_{1}=\mu_{2}

,

\sigma=\sigma_{1}=\sigma_{2}

,因为我们假设A/B组样本均值的分布是无差异的,有时候我们会放宽一些假设,只假设A/B组样本均值分布的期望是无差异的,即

\mu_{1}=\mu_{2}

,这时原假设下的事件分布是下面的形式:

\bar{X_{1}}-\bar{X_{2}}\sim N(0,\frac{\sigma_{1}^{2}}{n}+\frac{\sigma_{2}^{2}}{n})

这样我们终于得到了A/B组的指标均值无差异这个事件的分布形式,接下来就是最后一步,根据这个分布形式定义一个小概率事件,然后找到小概率事件,反证就成功了。

对于如何定义小概率事件,我们没有什么技巧,就是拍定一个阈值

\alpha

,也就是我们熟知的显著性水平,我们称某个事件为小概率事件,当这个事件发生的概率比置信水平还小。一般而言

\alpha=0.05

。那么万事俱备,我们只需算出样本均值的实际值,并计算出比这个实际值更极端的情况发生的概率,我们一般称之为P值,如果P值小于

\alpha

,我们就有理由拒绝原假设,那我们就完成了这道证明题。

4总体方差未知的情况分析

到了这里,我们松了一口气,但是请坚持,还有最后一部分难题没有攻克。细心的小伙伴可以看见上面样本均值之差的分布函数中存在两个样本背后总体的标准差

\sigma_{1}、\sigma_{2}

,一旦涉及到总体的参数,就比较麻烦,如果总体的标准差已知,上面的过程毫无问题,但是当总体的标准差未知时,上面的事件分布就还是未知的。那怎么办呢?

我们注意到上面的正态总体下样本方差分布中也存在总体的标准差,那么我们可以通过样本均值和样本方差相除的形式把未知的标准差消掉,同时我们可以知道样本均值服从正态分布,样本方差服从卡方分布,这两分布相除会怎么样?正好的得到了t分布,你说神奇吧,哈哈哈哈。

已知:

\bar{X}\sim N(\mu,\frac{\sigma^{2}}{n}),\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}\sim N(0,1);\frac{(n-1)S^{2}}{\sigma^{2}}\sim \chi^{2}(n-1)

相除:

\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}} /\sqrt{\frac{(n-1)S^{2}}{\sigma^{2}*(n-1)}}\sim N(0,1)/\sqrt{\frac{\chi^{2}(n-1)}{n-1}}=t(n-1)

化简:

\frac{(\bar{X}-\mu)}{S/\sqrt{n}} \sim t(n-1)

上面最后推导出的公式就完全不含总体的标准差

\sigma

,那么具体对应不同情况下,根据原假设构造的统计量如下表所示,那么对应不同的情况,我们都可以得到原假设下统计量的分布情况,也就可以使用小概率事件来举反例,证明我们想要的结论了。

  • 两个总体均值的检验
  • 两总体比例的检验

5小结

本文我们首先从A/B测试的概念和本质分析,引出假设检验;由假设检验的思想引出经典的数学证明方法反证法;由反证法结合我们的目标首先给出原假设的设置方式,进而分析检验的方法;在讨论检验的方法时,我们引出应用小概率事件来完成反证的结论;为了定义小概率事件,我们讨论了A/B组样本均值和方差的分布形式;为了得到样本均值和方差的分布形式,我们介绍了中心极限定理,独立同分布随机变量和的分布形式,无偏估计等概念,并引出了三大抽样分布

\chi^{2}

分布,

t

分布和

F

分布;紧接着我们通过组合A/B组的样本均值,得到了原假设下的抽样分布函数,进而可以进行完整的反证过程,也就是检验的过程;最后,我们讨论了总体方差未知情况,如何构造统计量进行假设检验。

最后需要提醒的一点是,经常有人问做A/B测试时,数据需不需要符合正态分布,希望通过本文,大家可以清晰的知道,这取决于总体方差是否已知。在总体方差已知的情况下,我们构造的统计量只涉及样本均值的分布,由中心极限定理可知,总体不需满足正态分布;但是总体方差未知的情况下,我们用样本方差去估计总体方差,构造的统计量需要在总体满足正态分布的情况下才是

t

分布。

整体文章篇幅较大,作者也是将自己多年沉浸于A/B测试理论研究的思想灌输其中,写的时候本想控制篇幅,但是洋洋洒洒的写下来,实在是停不下来。希望真正感兴趣和想学习的同学们能坚持看下来,当然看下来不是最终目的,收藏点赞,再来个关注是最好不过了。

后续本系列会继续更新A/B测试结果评价方法分析,实践指导和特殊情况下的A/B测试理论,喜欢的同学不要错过!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人人都是数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档