前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >更简单的效能分析

更简单的效能分析

作者头像
人工智能小咖
修改2020-05-11 10:29:10
9390
修改2020-05-11 10:29:10
举报
文章被收录于专栏:人工智能小咖人工智能小咖

统计学是一个令人畏惧的学科,但统计学不一定有那么难学。这些指南旨在让更多人掌握统计学工具。本文将展示如何计算A/B测试的样本量(效能检验)。阅读之前请熟悉抽样分布的概念(点击这里复习)以及比例的标准误差的计算方法(点击这里复习)。祝学习愉快!

1. 设计A/B测试

假设我们要用A/B测试来决定是否采用主页的新设计。当前主页平均每天有200个独立访客以及5%的点击率 (Click-through-rate, CTR) 。预计新主页能带来至少7%的点击率。我们给两个变量分别分配50%的访问量:

分组

日独立访客量

点击率

控制组主页

100

5%

实验组主页

100

≥ 7% (估计值)

这个测试需要多少天呢?

2. 假如测试7天,会发生什么?

假设A/B测试只有7天,测试结束后每组都有700名访客。接下来计算零假设(总体CTR无差异)和备择假设(总体CTR存在真实差异)的样本分布。

第一步:计算现有的样本比例p

第二步:用p计算标准误差s

第三步:计算样本分布

  • H0(零假设):正态分布,平均值为0,标准差为0.013.
  • HA(备择假设):正态分布,平均值为0.02,标准差为0.013.

分布图如下:

在0.05的显著性水平(𝛂)下,临界值为0.0249.这意味着:

1. 若样本CTR的绝对差大于0.0249,拒绝零假设(H0)。

  • 若H0为真,那么拒绝零假设的决定就是错误的(第一类型错误),这种情况出现的几率是5%(𝛂)。
  • 若HA为真,那么拒绝H0的决定就是正确的,这种情况出现的几率是35%(1-𝛃),这一几率也称为测试效能

2. 若样本CTR的绝对差小于或等于0.0249,不能拒绝零假设(H0)。

  • 若H0为真,则不拒绝零假设的决定就是正确的,这种情况出现的几率是95%(1-𝛂)。
  • 若HA为真,则不拒绝零假设的决定就是错误的(第二类型错误)。这种情况出现的几率是65% (𝛃)。

总结:

真假设

决定

决定类型

几率

H0

拒绝 H0

第一类型错误

𝛂 (显著性) = 5%

H0

不拒绝 H0

正确

1-𝛂 (置信度) = 95%

HA

拒绝 H0

正确

1-𝛃 (效能) = 35%

HA

不拒绝 H0

第二类型错误

𝛃 = 65%

A/B测试只有7天,这导致无法检测出实验组CTR上升的几率达到65%。这个错误率太高了!一般来说,我们希望将错误率降低至20%,这相当于80%的效能。我们可以通过增加样本量来达成这一目的。

简要回顾:通过7天的A/B测试,每组收集到了700个独立访客的样本量,但是实验的效能只有35%。将效能提升至80%需要扩大样本量,这需要延长A/B测试的时间。

3. 手动计算80%效能所需的样本量

如果要使测试的效能达到80%,需要多大的样本量呢?

将零假设的样本分布转化为标准正态分布,让计算过程更加直观:

  • 在0.05的显著性水平下,临界值约为1.96,这一数据通过查临界值表获得。
  • 如果考虑备择假设的样本分布,那么我们希望曲线下-1.96到1.96之间的面积占20%(效能为80%)。因此,临界值必须与平均数相差约0.84(这一数值也可以在对照表上找到)。
  • 因此,标准化均数差必须是1.96+0.84=2.8

借助图表可能更容易理解:

真正的均值差是0.02,因此,标准化均数差等于0.02/se。我们可以建个等式来解出样本量n:

因此,每组需要2211个观测值。当每组的日访问量为100个独立访客时,测试时长至少要达到23天才能得到效能达到80%的实验结果。

简要回顾:利用标准正态分布,可以得出80%效能需要标准化均值差达到约2.8。套用标准误差的公式可以求得n,经计算,n=2211。

4. 用R进行统计分析

到这里,我们已经非常熟悉样本量计算(效能分析)的整体框架了。接下来,来看看如何将上述所有步骤简化为几行代码。在R中输入以下代码:

就会得到:

[1] "absolute difference (Test — Control)" 0.02[1] "pooled sample proportion" 0.06[1] "se" 0.0126942056522989[1] "standardized distance for requested power" 2.80158521811297[1] "solve for n" 2213.38408508644

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 设计A/B测试
  • 2. 假如测试7天,会发生什么?
  • 3. 手动计算80%效能所需的样本量
  • 4. 用R进行统计分析
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档