前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「求职」22道数据分析面试题,涵盖95%常考知识点『AB实验篇-中』

「求职」22道数据分析面试题,涵盖95%常考知识点『AB实验篇-中』

作者头像
小火龙说数据
发布2022-06-30 16:55:21
4870
发布2022-06-30 16:55:21
举报
文章被收录于专栏:小火龙说数据

预计阅读时间:6min

解决痛点:本系列为大家总结了面试中常考的22道AB实验问题,涵盖接近100%的知识点,对于准备找工作的你会有很大帮助。

00

序言

AB实验是数据分析面试中避不开的一个话题,小火龙为大家总结了7个大方向的问题,分别为:「实验理解类问题」、「实验设计类问题」、「实验运行类问题」、「实验评估类问题」、「实验放量类问题」、「特殊实验类问题」、「实验概念类问题」,涵盖了绝大多数常考知识点。

上篇分享了前三个方面,可以戳「AB实验篇-上」。本篇为大家带来「实验评估类问题」、「实验放量类问题」两个方面,剩余两个方面会在下篇推给大家。

01

实验评估类问题

题目10:AB实验一般你是如何评估的?是否有一套完整的流程?

考核点:对于实验评估环节是否了如指掌,评估流程是否体系化、科学化。

难度系数:3星

常规AB实验评估一般分为三个步骤:

步骤一:整体指标分析。通过指标的点估计、区间估计、P值、最小检测变化(MDE)、指标趋势、指标差异趋势,评判策略效果是否显著。

步骤二:下钻指标维度。当实验重点关注部分群体时,分析中往往对用户进行下钻,聚焦用户评判效果;或者当实验效果不及预期时,会下钻维度分析原因。

步骤三:case抽取分析。当遇到实验正负向较明显时,可以将极端case单拎出来,分析可能的原因。例如:通过case发现某些之前没关注到的维度表现非常差,则可以有针对性的调整实验触发。

题目11:在进行AB实验评估时,选择指标的「累计去重口径」还是「非累计去重口径」更为科学呢?

考核点:对于实验科学性评估的考察。

难度系数:5星

首先,解释一下什么是累计去重口径(多日累计去重口径)?什么是非累计去重口径(多日非累计去重口径)?

举个例子

第一日来了100个用户,第二日来了100个用户,两日中有50个用户是重复的。

两日累计去重口径用户数 = 100+100-50=150人;

两日非累计去重口径用户数 = 100+100=200人。

回到指标上来,假设实验上线2日,评估指标为「人均时长=总时长/总人数」,分子总时长直接加和即可,分母总人数选择累计还是非累积口径更为科学呢?

答案是「累计去重口径」,在分组用户均衡的情况下,累计去重口径可以保证样本量的均衡,不会受到实验策略对留存的干扰,避免用户出现有偏的情况。如果觉得不好理解,可以看下面这张图:

由于实验组与对照组是1:1流量,因此每日首次进入分组的用户量级一致,均为1000人,但受到策略影响,实验组留存高于对照组,两种口径计算的累计用户数如下:

采取「非累积去重口径」,两日用户数求和:

实验组:1000+1600=2600

对照组:1000+1400=2400

采取「累积去重口径」,两日用户数求和:

实验组:1000+1000=2000

对照组:1000+1000=2000

随着实验的进行,「非累计去重口径」用户数偏移会越来越严重,因此在AB实验评估中要采用「累计去重口径」更为科学。

题目12:在进行AB实验评估时,通过哪些值来评判指标是否显著?

考核点:评估指标的指标有哪些?如何评估策略是否显著?

难度系数:5星

在「题目10」当中有所提及,通过点估计、区间估计、P值、最小检测变化(MDE)、指标趋势、指标差异趋势,这些值来评估指标是否显著。

同时,针对不同类型指标的计算方式有所不同,在上篇「题目5」当中有所提及,可以戳蓝字部分进行回顾。

题目13:在进行AB实验评估时,选择的指标当中,表现有正有负,怎么办?实验策略是否可以上线?

考核点:实验指标的表现大概率非完全一致,在这样的情况下,候选人会如何做?

难度系数:4星

评估实验过程中,指标关注优先级为「部门核心北极星指标」>「实验期望提升指标」,具体实验决策可参考下图:

题目14:实验关注指标有显著提升,且提升幅度达到实验预期,能否说明策略全量之后也一定好?

考核点:考核候选人对于抽样和全量的理解,以及周期长短对评估的影响。

难度系数:3星

不一定。原因有以下三点:

其一:假设检验原因。AB实验本质上是假设检验,而假设检验是存在一定犯错概率的,一般设定犯第一类错误的概率为5%,即策略本身没有效果,但实验判断为有效果。也就意味着,可能出现实验显著,但全量不显著的情况。

其二:样本量原因。实验抽样即便满足了最小样本量的要求,但不同量级用户在指标上的稳定程度是不同的,样本量越大,波动越小。因此实验全量上线后的效果,与实验期可能存在一定差异。

其三:时间原因。一般业务都希望策略能够快速迭代上线,实验的上线周期60%小于两周、90%小于1个月,这样会导致部分长期效应在实验期间无法检测出来。

举个例子

短视频平台购券策略迭代,重点要评估线下消费的情况,但由于购券到线下消费是存在一定时间diff的,因此较短的实验周期往往无法评估这种中长期的影响。

解决方案:降低显著性水平 + 实验周期适当延长 + 策略上线后保留小流量对照组。

02

实验放量类问题

题目15:AB实验通过后,是否可以直接放量到100%?需要考虑哪些因素?

考核点:考核候选人对于科学放量方式是否了解。

难度系数:4星

不可以。实验放量需要综合考虑「效率、质量、风险」三个因素,因此需要阶段性的放量,保障线上策略不会出现bug等情况。

一般实验放量分为三个阶段,分别为「小流量阶段、放量阶段、长期存放阶段」,感兴趣的同学可以戳蓝字部分查看「AB实验最佳流程」

题目16:策略全量上线后,业务方希望评估实验长期的影响,要如何做?

考核点:考核候选人对于评估实验长期影响的理解。

难度系数:2星

配置实验长期对照组,度量策略的长期效应。

以上就是本期的内容分享,下篇会为大家带来「特殊实验类问题」、「实验概念类问题」的面试内容。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小火龙说数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档