「求职」22道数据分析面试题，涵盖95%常考知识点『AB实验篇-中』

小火龙说数据

发布于 2022-06-30 16:55:21

5340

发布于 2022-06-30 16:55:21

文章被收录于专栏：小火龙说数据

预计阅读时间：6min

解决痛点：本系列为大家总结了面试中常考的22道AB实验问题，涵盖接近100%的知识点，对于准备找工作的你会有很大帮助。

序言

AB实验是数据分析面试中避不开的一个话题，小火龙为大家总结了7个大方向的问题，分别为：「实验理解类问题」、「实验设计类问题」、「实验运行类问题」、「实验评估类问题」、「实验放量类问题」、「特殊实验类问题」、「实验概念类问题」，涵盖了绝大多数常考知识点。

上篇分享了前三个方面，可以戳「AB实验篇-上」。本篇为大家带来「实验评估类问题」、「实验放量类问题」两个方面，剩余两个方面会在下篇推给大家。

实验评估类问题

题目10：AB实验一般你是如何评估的？是否有一套完整的流程？

考核点：对于实验评估环节是否了如指掌，评估流程是否体系化、科学化。

难度系数：3星

常规AB实验评估一般分为三个步骤：

步骤一：整体指标分析。通过指标的点估计、区间估计、P值、最小检测变化（MDE）、指标趋势、指标差异趋势，评判策略效果是否显著。

步骤二：下钻指标维度。当实验重点关注部分群体时，分析中往往对用户进行下钻，聚焦用户评判效果；或者当实验效果不及预期时，会下钻维度分析原因。

步骤三：case抽取分析。当遇到实验正负向较明显时，可以将极端case单拎出来，分析可能的原因。例如：通过case发现某些之前没关注到的维度表现非常差，则可以有针对性的调整实验触发。

题目11：在进行AB实验评估时，选择指标的「累计去重口径」还是「非累计去重口径」更为科学呢？

考核点：对于实验科学性评估的考察。

难度系数：5星

首先，解释一下什么是累计去重口径（多日累计去重口径）？什么是非累计去重口径（多日非累计去重口径）？

举个例子

第一日来了100个用户，第二日来了100个用户，两日中有50个用户是重复的。

两日累计去重口径用户数 = 100+100-50=150人；

两日非累计去重口径用户数 = 100+100=200人。

回到指标上来，假设实验上线2日，评估指标为「人均时长=总时长/总人数」，分子总时长直接加和即可，分母总人数选择累计还是非累积口径更为科学呢？

答案是「累计去重口径」，在分组用户均衡的情况下，累计去重口径可以保证样本量的均衡，不会受到实验策略对留存的干扰，避免用户出现有偏的情况。如果觉得不好理解，可以看下面这张图：

由于实验组与对照组是1：1流量，因此每日首次进入分组的用户量级一致，均为1000人，但受到策略影响，实验组留存高于对照组，两种口径计算的累计用户数如下：

采取「非累积去重口径」，两日用户数求和：

实验组：1000+1600=2600

对照组：1000+1400=2400

采取「累积去重口径」，两日用户数求和：

实验组：1000+1000=2000

对照组：1000+1000=2000

随着实验的进行，「非累计去重口径」用户数偏移会越来越严重，因此在AB实验评估中要采用「累计去重口径」更为科学。

题目12：在进行AB实验评估时，通过哪些值来评判指标是否显著？

考核点：评估指标的指标有哪些？如何评估策略是否显著？

难度系数：5星

在「题目10」当中有所提及，通过点估计、区间估计、P值、最小检测变化（MDE）、指标趋势、指标差异趋势，这些值来评估指标是否显著。

同时，针对不同类型指标的计算方式有所不同，在上篇「题目5」当中有所提及，可以戳蓝字部分进行回顾。

题目13：在进行AB实验评估时，选择的指标当中，表现有正有负，怎么办？实验策略是否可以上线？

考核点：实验指标的表现大概率非完全一致，在这样的情况下，候选人会如何做？

难度系数：4星

评估实验过程中，指标关注优先级为「部门核心北极星指标」>「实验期望提升指标」，具体实验决策可参考下图：

题目14：实验关注指标有显著提升，且提升幅度达到实验预期，能否说明策略全量之后也一定好？

考核点：考核候选人对于抽样和全量的理解，以及周期长短对评估的影响。

难度系数：3星

不一定。原因有以下三点：

其一：假设检验原因。AB实验本质上是假设检验，而假设检验是存在一定犯错概率的，一般设定犯第一类错误的概率为5%，即策略本身没有效果，但实验判断为有效果。也就意味着，可能出现实验显著，但全量不显著的情况。

其二：样本量原因。实验抽样即便满足了最小样本量的要求，但不同量级用户在指标上的稳定程度是不同的，样本量越大，波动越小。因此实验全量上线后的效果，与实验期可能存在一定差异。

其三：时间原因。一般业务都希望策略能够快速迭代上线，实验的上线周期60%小于两周、90%小于1个月，这样会导致部分长期效应在实验期间无法检测出来。

举个例子

短视频平台购券策略迭代，重点要评估线下消费的情况，但由于购券到线下消费是存在一定时间diff的，因此较短的实验周期往往无法评估这种中长期的影响。

解决方案：降低显著性水平 + 实验周期适当延长 + 策略上线后保留小流量对照组。

实验放量类问题

题目15：AB实验通过后，是否可以直接放量到100%？需要考虑哪些因素？

考核点：考核候选人对于科学放量方式是否了解。

难度系数：4星

不可以。实验放量需要综合考虑「效率、质量、风险」三个因素，因此需要阶段性的放量，保障线上策略不会出现bug等情况。

一般实验放量分为三个阶段，分别为「小流量阶段、放量阶段、长期存放阶段」，感兴趣的同学可以戳蓝字部分查看「AB实验最佳流程」。

题目16：策略全量上线后，业务方希望评估实验长期的影响，要如何做？

考核点：考核候选人对于评估实验长期影响的理解。

难度系数：2星

配置实验长期对照组，度量策略的长期效应。

以上就是本期的内容分享，下篇会为大家带来「特殊实验类问题」、「实验概念类问题」的面试内容。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-05-10，如有侵权请联系 cloudcommunity@tencent.com 删除

case

本文分享自小火龙说数据微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

case

登录后参与评论

0 条评论

热度

「求职」22道数据分析面试题，涵盖95%常考知识点『AB实验篇-中』

「求职」22道数据分析面试题，涵盖95%常考知识点『AB实验篇-中』

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐