前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计学(5)|AB测试—方差分析与卡方检验

统计学(5)|AB测试—方差分析与卡方检验

作者头像
用户8612862
发布2021-05-13 17:20:35
2K0
发布2021-05-13 17:20:35
举报

点击上方"蓝字"

关注我们吧!

在工作中,除了同时进行 AB 两组实验之外,也会存在多组实验同时进行的情况。这种情况下就不能使用之前的实验结果分析方法了,而需要采用方差分析与

\chi^2

检验。

1方差分析

方差分析用于主要用于检验多个总体均值是否相等,故适用于均值类指标,比如 DAU,人均使用时长等。

多个总体情况下,要比较均值是否相等,两两之间的

z

检验或

t

检验需要进行多次,十分繁琐,而且会增加犯第一类错误的概率。

而方差分析提高了检验的效率,也增加了分析的可靠性。由于进行 AB 测试,通常遵循单一变量原则,所以相对应我们只介绍单因素方差分析。

1.1 基本思想和原理

方差分析的基本原理是误差分解:

总误差 = 组内误差+组间误差
  • 总误差就是数据的全部误差;
  • 组内误差就是每个样本内部的数据误差;
  • 组间误差就是不同样本之间的误差,组间误差包括随机误差和系统误差。

在方差分析中,数据的误差使用平方和来表示的:

SST(总平方和) = SSE(组内平方和)+SSA(组间平方和)

误差分析:如果不同总体之间没有差别,那么组间误差中只包含随机误差,而没有系统误差,则组间误差与组内误差经过平均后的数据就会很接近,他们的比值就会接近 1,反之比值就会大于 1。当比值达到一定程度,我们就认为不同样本之间存在显著差异。

1.2 方差分析步骤

1.2.1 提出假设

H_0:\mu_1=\mu_2=...=\mu_k
H_1:\mu_i(i=1,2,..,k)不全相等

如果拒绝原假设,则认为不同样本之间是存在显著差异的。

1.2.2 计算各平方和

(1)总平方和,是全部观测值

x_{ij}

与总体均值

\overset{=}{x}

的误差平方和。

SST= \sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\overset{=}{x})^2

(2)组间平方和,是各组均值

\bar{x}_i

与总体均值的误差平方和。

SSA= \sum_{i=1}^kn_i(x_i-\overset{=}{x})^2

(3)组内平方和,是每组的各个数据与该组均值的误差平方和。

SSE= \sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2\

其中,

\overset{=}{x}

为总均值,

\bar{x}_i

为第

i

个总体的样本均值,

n_i

是第

i

个样本的样本量,

x_{ij}

是第

i

个总体的第

j

个观测值。

1.2.3 构造统计量

由于各误差平方和的大小与样本量的多少有关,所以需要将其平均,也就是用平方和除以对应的自由度,这一结果称为方差。自由度分别为:

  • SST :n-1, n 为全部样本个数
  • SSA :k-1 , k 总体的个数
  • SSE :n-k

故统计量

F

为,当

H_0

为真时,服从分子自由度

n-1

,分母自由度

n-k

F

分布。

F= \frac{MSA}{MSE}=\frac{SSA/(k-1)}{SSE/(n-k)}\sim F(k-1,n-k)

1.2.4 显著性检验

根据给定的显著性水平

α

,在 F 分布表中查找与分子自由度

df_1= k-1

,分母自由度

df_2=n-k

的对应的临界值

F_α(k-1,n-k)

F > F_{\alpha}

,拒绝原假设,即各个样本总体之间存在差异。

F < F_{\alpha}

,不拒绝原假设,即各个总体之间没有显著性差异。

2卡方检验

2.1 基本原理

\chi^2

检验通过观测频数与期望频数的差异程度来判断,各总体之间的比例是否相等。

对于比例类指标的 AB 实验(比如次日留存率),其显著性检验可以等价为2*2双向列联表独立性检验。即一个维度为实验方案(分别为 A、B),另一个为维度为次日是否访问。在这种情况下,两种检验方式在数学上是等价的。

因此计算多个样本的比例类指标显著性时我们可以使用卡方检验。

2.1 提出假设

H_0:p_1=p_2=...=p_k
H_1:p_i(i=1,2,..,k)不全相等

假设我们的样本数据如下所示:

当原假设

H_0

为真时,我们可以通过样本数据确定期望频数,然后就可以利用检验统计量

\chi^2

来确定观测频数与期望频数之前是否存在显著差异。如果差异显著,则

H_0

将被拒绝,就可以得到总体比例不全相等的证据。

2.2 计算期望值频数

通过观察上面观测频数的样本数据,我们可以看到,全部 500 个用户中,有 312 个用户次日会访问客户端,因此 312/500 = 0.624 是次日可能访问客户端的用户的总样本比例。

如果我们假定原假设

H_0

为真,即所有总体的比例

p_1=p_2=p_3

相等 ,那么

0.624

就是每一组用户次日可能访问客户端比例的最佳估计值。因此如果

H_0

为真,我们将期望方案 1 的 125 个用户会有0.624*125 = 78个用户次日会访问客户端,78 则是策略 1 的期望频数。

同理,我们可计算出各组的期望频数如下:

2.3 计算卡方统计量

\chi^2=\sum_i\sum_j\frac{(f_{ij}-e_{ij})^2}{e_{ij}}

式中,

f_{ij}

表示第

i

行第

j

列单元格的观测频数,

e_{ij}

表示第

i

行第

j

列单元格的期望频数。在涉及

k

个总体比例相等性的

\chi^2

检验中,

\chi^2

检验统计量服从自由度为

k-1

\chi^2

分布,其中每个单元格的期望频数都

≥5

根据以上公式,计算

\chi^2

的值如下:

最终

\chi^2

统计量值为 7.89.

根据给定的显著性水平

α

,在

\chi^2

分布表中查找对应自由度的临界值

\chi_\alpha^2

\chi^2

的自由度为

(R-1)(C-1)

,

R

C

分别为行和列变量的个数,本例中分别为 2 和 3,故自由度为 2。

\chi^2>\chi_{\alpha}^2

,拒绝原假设,即各个样本总体之间存在差异。

\chi^2<\chi_{\alpha}^2

,不拒绝原假设,即各个总体之间没有显著性差异。

至此,AB 测试所有相关的知识都已经全部介绍完毕了,如果觉得有帮助的,可以来个三连奥。

同系列文章:

统计学(1)|白话统计学发展(含统计学必知必会)

统计学(2)|AB测试—理论基础

统计学(3)|AB测试—实验结果分析

统计学(4)|AB测试—实验流程

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人人都是数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.2.1 提出假设
  • 1.2.2 计算各平方和
  • 1.2.3 构造统计量
  • 1.2.4 显著性检验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档