首先,我们有两组用户,A、B两组策略 A组:原策略,经过验证 B组:新策略,未验证,很可能有提升
整个流程为:AA --> AB --> BB
image.png
前置AA实验
image.png
在做AB实验时,需要对用户进行均匀分组,常用的有按ID、Hash等方式随机分组。但是这些方法,都只是改善措施,随机采样也有概率造成样本偏斜。既然无法保证结果均匀,那么就需要对分组结果进行检验,对检验不通过的重新采样。 AA实验应运而生——在线上开启AB实验前,先开启一段时间两组用户用同一个A策略进行实验,用来验证实验组与对照组两组用户的一致性。
那么如何度量一致性呢 -- 两组之间t检验,多组之间F检验 但是检验需要满足正态性 -- 用户由于其样本量足够大,按用户分组的指标必然呈现正态分布。 正态性度量指标:偏度、峰度;W检验(Shapiro-Wilk Test) 偏移较大则需要记下该指标特性,并将最终处理方式配置进试验系统。 一般的原因和处理方式有:“有组织的作弊、某个业务因素、采样总体包括幸存者偏差”。作弊可以过滤、打击,业务因素可以分析,总体存在bias可以取对数。