前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AB test 业务价值、原理流程和实际案例

AB test 业务价值、原理流程和实际案例

作者头像
猴子数据分析
发布2022-05-19 12:26:35
1.2K0
发布2022-05-19 12:26:35
举报
文章被收录于专栏:猴子数据分析猴子数据分析

作者@咫尺天涯

一、AB test的业务价值

当我们设计了一个新的功能模块、策划了某种活动或者有多种方案不知如何抉择时,想要验证新的功能模块或者活动上线是否能给业务带来显著的收益,但由于受到个人思维的局限性以及全量用户的不可调研性,可能会导致一个功能的预期效果与实际线上后的效果存在认知、实用上的差异。

因此,为了更科学合理地验证一个功能上线是否能给业务带来显著收益,就需要用户自己「用脚投票」,通过用户的行为数据分析所关注的核心指标是否显著变化来验证新功能上线带来的收益效果。

基于这一目的,多数互联网公司会采取 AB 测试来寻找能够为所关注核心指标带来最大收益的功能方案。

二、AB测试的专业名词解释

显著性水平α:犯第一类错误的概率。

置信水平(置信度):把没有犯第一类错误的概率 1-α 成为置信水平,也就是有多大把握认为变量的真值存在于我们计算出的这个范围内。

置信区间:在置信水平下计算出的变量存在的范围。比如,在95%的置信度下,我们可以不严谨地认为95%的把握算出的置信区间包含变量的真值。实际含义是随机抽取100个样本算出来的100个置信区间有95个是包含真值的。

统计功效 (1-β ):不犯第二类错误的概率,一般情况下,β取值为0.2,则统计功效的取值为0.8

p-value:在原假设H0成立的条件下,检验统计量Z出现给定观测值或者比之更极端值的概率。如果P-value小于α,则拒绝原假设,接受备择假设

三、统计学基础知识

3.1 大数定理

>>伯努利大数定律

随着试验次数增多,在某种收敛意义下,频率的极限是概率,比如当样本足够大时,如果一个页面广告的点击率是6%,则当一个新的用户过来,我们认为它点击广告的概率为6%。

3.2 中心极限定理

对独立同分布且有相同期望和方差的n个随机变量,当样本量足够大时,样本的均值近似服从正态分布。

应用:

1、总体数据特征未知,但需要估计知道总体的数据特征,当样本足够大,通过样本数据估计总体来判断总体的情况。应用场景:抽样检测

2、根据总体的平均值和标准差,判断某个样本是否属于总体。

四、AB 测试原理简介

4.1 AB测试的基本概念

AB 测试是生物学实验控制变量法的商业应用,为了探究某一变量的作用,通过控制实验变量设置实验组和对照组,实验结束后收集实验数据观察两组实验结果的差异,得出某种实验结论。

因此,为了探究某一变量(有无新功能、不同的活动方案等)对业务发展的影响和作用,让组成成分相同(相似)的用户群组分别选择一种实验方案,待实验结束后收集各群组的用户体验数据和业务数据,最后通过显著性检验分析评估出最好的方案。

4.2 AB测试的一般流程

AB test一般流程

• 实验变量的确定。首先和相关的产品或者项目经理确定这个实验所要验证的实验变量是什么,一般遵循"单一变量"原则。即实验组和对照组需要保证除了实验变量不同之外,其他变量因素应该保持一致。

• 核心指标确定(观测指标)。 观测指标分为两类:数值类指标和比率类指标。绝对值类指标有DAU,平均停留时长,用户平均消费金额等,这类指标一般很少作为AB测试的观测直播啊。比率类指标有点击率、转化率和留存率等。之所以要区分不同类型的观测指标,是因为不同类型的观测指标计算样本量的时候计算公式有所差异。

• 计算实验样本量和实验周期。实验样本越大,实验结果越可靠,但同时承担的风险(对用户产生不良的用户体验等)也越大,但如果实验样本太小,实验结果就不可靠,实验就毫无意义,因此需要计算能够使实验结果可靠的最少样本量。最小样本量的计算方法如下:

提供一个AB测试的工具 Evan's Awesome A/B Tools

• 流量分割。流量分割需遵循均匀分配的原则,就是保证实验组和对照组的用户群体特征保持一致,否则可能出现辛普森悖论,导致实验结果无意义。

流量分割的方式有两种:分流和分层。分流:直接将整体用户切割为几块,用户只能在⼀个实验中。分层:将同⼀批用户不停的随机后,⼀个用户会处于多个实验中,只要实验之间互相不影响,可无限次切割用户,从而达到流量复用的效果。

实验周期根据最小样本量和平均每日活跃用户数来确定。

• AB测试灰度。一般在上线正式实验之前,会通过小流量去看一段时间的灰度实验。这个灰度实验的目的就是为了验证我们这个改动并不会造成什么特别极端的影响。

• AB测试灰度上线。和PM或者项目经理确定正式上线的日期

• 效果验证评估 。使用假设检验方法通过构造统计量或者p-value来判断实验结果的核心指标是否有显著差异。

五、效果验证-假设检验法

「A/B测试」主要采用假设检验来计算指标的置信度,实际上,要验证的是⼀对相互对立的假设:原假设和备择假设。

原假设H0:是实验者想要收集证据予以反对的假设。A/B实验中的原假设就是 指「新策略没有效果」。

备择假设H1:是实验者想要收集证据予以⽀持的假设,与原假设互斥。A/B实验中的备择假设就是指「新策略有效果」。

利用反证法来检验假设,意味着我们要利⽤现有的数据,通过⼀系列⽅法证明原假设是错误的即证伪,并借此证明备择假设是正确的(真)。这⼀套方法在统计学上被称作原假设显著性检验。

统计学上认为「小概率事件在少量实验中是几乎不可能出现的」,因此当假设原假设成立时,通过计算发现实验结果发生的概率太小了(p-value < α),但实际实验发生了,那么推翻原假设,接受备择假设。

5.1 检验方式

检验方式分为两种:双侧检验和单侧检验。

单侧检验又分为两种:左侧检验和右侧检验。

双侧检验:备择假设没有特定的⽅向性,形式为「≠」这种检验称为双侧检验。

单侧检验:备择假设带有特定的方向性,形式为「>」 or 「<」的假设检验,其中单侧检验「<」 称为左侧检验,「>」为右侧检验。

5.2 检验方法

检验方法主要有两种:置信区间法和 p 值检验法。

(1)置信区间法

在给定显著性水平 α 下,通过给出未知参数一个估计量,然后根据这个估计量构造一个统计量 Z ,它在原假设下的分布是完全已经的或分位数可以计算,称符合这个要求的统计量为检验统计量,如果根据样本数据算出检验统计量落在了置信区间(非拒绝域),则接受原假设,否则拒绝原假设。基本步骤如下:

1、建立假设

2、给出未知参数的一个估计量

3、构造统计量Z,要求当H0成立时可以求解的Z的分位数

4、以Z为基础,根据备择假设的实际意义,构造一个拒绝域W的表达形式

5、确定拒绝域W中的临界值,要求W满足显著性水平。

6、如果根据样本数据算出来的统计量Z落在拒绝域(落在了置信区间),则拒绝原假设,否则接受原假设。

(2) p值和p值检验法

假设检验的 p 值是在原假设H0成立的条件下,检验统计量Z出现给定观测值或者比之更极端值的概率,直观上用以描述抽样结果与理论假设的吻合程度,因而也称P值为拟合优度。

例如,正态总体参数检验H0:μ=μ0↔H1:μ≠μ0的情况,检验统计量为Z,即由样本数据得到检验统计量Z的观测值为z*,则p值为p=P(|Z|≥z*|H0成立)。p值检验法的原则是当p值小到一定程度(p<=α)时拒绝H0。通常约定:p≤0.05称结果为显著;p≤0.01则称结果为高度显著。

六、实际案例

以广告点击率为例,分别对1000个样本进行了为期一周的AB测试,,实验结果如下表,其中对照组A的点击率为7.5%,B的点击率为9%。

当样本个数为5000个时,结果显著。

七、面试常考问题

1、两类错误

从上面两类错误的分析我们知道,在样本量一定的条件下,不可能同时控制一个检验的两类错误概率.所以,在此基础上,我们采用折中方案,仅限制犯第一类错误的概率不超过事先设定的值α(0<α<1通常很小),再尽量减小犯第二类错误的概率。

在互联网产品案例中,第一类错误代表的是一个功能的改动,本来不能给我们带来任何收益,但是我们却误认为它能够给我们带来收益。

同样,第二类错误代表的是本来是一个好的产品,它本来可以给我们带来收益,但是由于我们统计的误差,导致我们误认为它并不能给我们带来收益。往往在实际的工作中,第一类错误是我们更加不能接受的。

换句更直白的话说,就是我们宁愿砍掉几个好的产品,也绝对不能让一个坏的产品上线。因为通常是一个坏的产品上线会给用户的体验带来极大的不好的影响,而这个不好的影响会非常大程度的影响到我们的日活以及留存。

你要知道在现实生活中,我们把留存或者把日活提升一个百分点都已经是一个非常了不起的优化了,但是通常要实现 1% 的留存率。人都需要花费很长时间,也很大精力,但是你如果想要留存下降一个百分点的话,可能就是一瞬间的事情。

所以,第一类错误通常是我们在实际工作当中所更加不能接受的。

2、效果分析统计上是显著的,但实际上线后发现不显著,为什么?

可能的原因是在AB测试当中所选取的样本量过大,哪怕只是一个细微的差异,从纯数理的角度看检测出差异是显著的,但从实际业务角度看,这种显著差异用户是感知不到的。

例如,app的启动时间优化了0.1秒,可能在统计上是显著了,但对于用户来说0.1秒的差异是无法感知的,也没什么实际意义。

3、AB测试效果统计上不显著,该怎么办?

第一种选择是继续做实验,增加实验的进组人数,扩大样本量,在分析结果是否还是不显著,可能是样本量不足的原因。

第二种选择是将观测指标拆分成每一天观察实验组和对照组,如果指标的变化曲线显示每一天实验组均高于对照组,即使在统计上是不显著的,我们也认为在观测周期内,实验组的核心指标表现优于对照组,最终也可以得出正式上线的结论。

4、AB测试效果分析发现核心指标是显著的,但辅助指标是负向变化的,该如何向产品同事解释?

比如,为了提升公司的营收,在公司产品的某个app内嵌入了广告,但这种增加营收的方式是以降低用户的使用体验的代价来进行的,因此一个方面的优化可能会导致另一方面的劣化。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 猴子数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档