前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何快速找到并验证影响因变量Y的自变量X呢?

如何快速找到并验证影响因变量Y的自变量X呢?

作者头像
1480
发布2019-06-19 14:50:31
1.7K0
发布2019-06-19 14:50:31
举报
文章被收录于专栏:数据分析1480数据分析1480

声明:本文讨论主题的不是严谨意义上的“因果关系”,而是探讨自变量与因变量的关系(实际上不是真的因果关系),主要关注点在于找到并验证影响(或预测)因变量Y的自变量X。

同前文从“Δ值”谈数据分析的流程所述,Δ值是归因的起点之一。

定义业务上的关键指标(比如KPI)为因变量Y,在业务分析中常会遇到:

  • 用户组A和用户组B在行为Y上的差异和哪些影响因素有关? 注:在产品或运营上我们会关注哪些影响因素是可控的,也就是可以通过产品和运营来引导用户的行为改变
  • 关键指标发生了波动,是正常的周期波动,还是人为操作的影响,抑或是其他不可控的因素?
  • 哪些因素(X,自变量)可以预测或者影响指标Y?

也就是说,我们不仅关注ΔX和ΔY在时间维度上的共变,还关心X和Y在空间维度上的相关。

  • 时间维度上的共变更接近于“因果关系”,先前的事件引起了后续的事件,e.g. 对一批用户发放了优惠券,导致这批用户短期交易量提升;
  • 空间维度上的相关,更关注在同一时间横截面下自变量和因变量的关系,e.g. 和消费能力有关的用户属性(比如所处的城市等级、手机型号、优惠倾向性、价格敏感度等)和交易额的关系。

笔者将这个探索影响关键指标(Y)的影响因素(X)的过程称为“归因”(或许这个概念定义并不严谨,准确来说应该是“发现影响因素”)。

归因分为两个阶段:

  1. 发现模式,找到可疑的影响因素X并提出相应的假设;
  2. 验证模式,基于业务经验、数据分析、实验设计等来验证假设;

1 发现模式

发现“模式”即找到影响因素和关键指标的关系,主要有两种方法:

  • 对比,包括横向对比和纵向对比;
  • 关联,即探索变量之间的相关性;

注:前面提到的“空间维度上的相关”包括变量之间的相关性和横向对比,“时间维度上的共变”主要是指纵向对比,即基于指标在时间序列上的波动时间点(段)来找到对应的影响因素(大概率是因果关系)。

1.1 对比

对比分为横向对比和纵向对比两类,更多可参考数据分析常用思维

横向对比,即在同一时间点或时间段内对比两个及以上的组群之间的差异,涉及的情形如下:

  • 实验对比,设置实验组和对比组,对比两组或多组之间的差异,以确定人为干预(产品/运营方案等)的效应。实验对比通常对应的业务场景是A/B Test(或者多方案赛马),用于验证效果(量化),或者从多个方案中“选优”。
  • 和同类(竞品)比较,e.g. 业务A和模式相似的业务B对比,可以验证A业务的效果好坏,竞品充当基线以判断当前业务的优劣;
  • 和整体比较,将整体拆分为更细的分组,从而发现哪些分组相对于整体“拖后退”(低于整体值),哪些组是“绩优股”(高于整体值)。对于运营而言,可以参照此思路对用户进行价值划分,如果要提升整体收益,那么可以考虑让60分的组到达90分,或者让90分的组尽可能趋近100分。

纵向对比,在时间维度上看数据变化的趋势,需要注意:

  • 对比的颗粒度要视业务周期而定(或者用户完成单次目标行为的时间周期),可以是年、季、月、周、天、时等;
  • 纵向对比可以是相同颗粒度下的同比和环比,也可以是跨颗粒度的对比,e.g.昨日的交易和最近15日的日均交易对比;

1.2 关联

对于自变量X和因变量Y之间“关联性”的判断可以从业务和数据两方面着手。

在业务角度可以采用的方式:

  • 关键指标变化时有哪些因素同时也是发生了变化的,比如时间、用户特征、交易场景等。e.g.出行平台的订单量可能会受到天气的影响,下雨天打车难,可能的原因是下雨的时候供变小(出行平台的司机上线少),也可能需变大(打车需求临时增多);也具有时间周期性,上下班高峰期的时候用车需求多,订单量多;还和地点有关,比如学校、CBD或者公司附近、地铁口附近的订单量多;
  • 分析典型用户群的特征,比如我们想知道哪些特征可以识别出某类用户,或者不同类别用户在行为特征或属性上的差异(这样便于产品/运营进行差异化运营或者建立“成长路径”),e.g. 羊毛党用户的识别,找到一个典型用户(或者典型场景),然后分析用户的行为特征,比如设备信息、ip地址、购买商品、刷卡类型、收货地址等(要验证哪些特征和羊毛党有关,后续需要和正常用户来对比);

从数据角度看,可以通过统计方法来探索变量之间的关联性:

  • 离散变量&离散变量:卡方检验;
  • 离散变量&连续变量:t检验,方差分析;
  • 连续变量&连续变量:pearson相关,或者Spearman相关;

探索两个变量之间的关系可以采用的统计方法,Basic Data Analysis Guidelines for Research Students, Isaac V. Gusukuma

基于对比和关联,我们会发现一些可疑的影响因素X1,X2,X3……,接下来需要验证这些影响因素是不是真的和因变量Y有关。

2 验证模式

验证模式的方法也可以按纵向和横向分为两种:

  • 纵向,基于历史数据,时间点匹配以及数据周期验证;
  • 横向,跨群组的对比,对照实验设计及跨组验证;

2.1 纵向验证

首先看“模式”是否是周期性出现,比如每逢周末或者节假日就出现交易下降。

数据上表现的周期性变化主要因素有3方面:

  1. 人(用户)的行为活动的周期性,包括和人相关的自然节律 e.g. 夜间23:00-早上6:00基本是在休息,所以app的活跃比白天低; e.g. 一日三餐的用餐时间相对固定,上下班时间相对固定; e.g. 工作日上班,节假日休息; e.g. 夏天会买短袖/裤/裙、风扇/空调等降温设备、遮阳伞/防晒霜等遮阳设备等,冬天买秋衣/裤、暖宝宝/电热扇/暖气片等保暖设备; e.g. 在特定的年龄段有相应的主要活动,比如上学、工作、婚育、养老等;
  2. 社会活动的周期性,包括行业特殊日期或活动 e.g. 节日,五一、国庆、春节、七夕(或者5.20)、双11等; e.g. 学校的暑假、寒假以及春秋季开学,电商平台会促销学习用品; e.g. 定期举行的具有较大影响力的公开集会或者活动,比如广交会、世界杯、NBA赛事等;
  3. 产品上的周期性 e.g. 唯品会的早10晚8上新、固定时段的大促活动等; e.g. 产品发布会,比如苹果/华为/小米手机发布会等; e.g. 会员日(用户养成习惯会在当日消费),比如信用卡的周末活动等; e.g. 还款日,发工资日;

如果数据上出现了周期性,则可以从上述3个方面去寻找对应的原因。

如果数据不具有周期性,那就需要检查数据波动发生的时间点附近是否有人为或者偶发因素导致数据变化。可以从外到内,按产品环节层层排查:

  • 外部市场环境是否有变化,比如竞争对手搞了一波活动,新客流量减少; 注:用户所拥有用于决策的认知(注意力、判断力等)、用于购买的资金以及用于存放的空间(包括物理空间和心理空间)都是有限的。
  • 内部的产品或者运营上的操作,比如产品功能有没有改动,有没有新的产品策略变动?为用户提供的产品/服务有没有发生变化(比如品类结构,新的销售模式等)?是否有运营活动上线(覆盖面及影响量)?
  • 用户结构变化,比如劣质流量?新老客?00后?羊毛党?

2.2 横向验证

2.2.1 对比实验设计

能用实验验证因素,说明该因素是人为可控的。反过来说非人为可控的因素,是没法通过实验对比来验证的。

实验设计的注意点:

  • 确定好实验要操作的自变量X,以及衡量实验效果的因变量Y;
  • 实验自变量可能是离散变量,也可能是连续变量。如果自变量是连续变量,则要在不同组上覆盖自变量的业务取值范围;
  • 控制非考察因素,抽样时要具有随机性,同时样本大小、人货场等因素都要匹配好;
  • 实验要考虑目标业务的范围,比如只针对新客,只针对app端,只看Android端等;

2.2.2 模式的迁移性

比如我们在“发现模式”阶段探索到变量X1和Y可能存在关联关系,现在要验证这种关系的迁移性。

检验模式的迁移性有两种思路:

  1. 从自变量出发 e.g. 跨群体稳定性,可以保持变量X1不动,改变其他自变量,看X1->Y的关系是否稳定,即看具有同一特征的不同人群在指标Y上的表现,如果模式在跨群体上表现稳定,那么就验证了X1和Y的关系模式是OK的,如果在其他群体上没有验证X1和Y的关系,那么说明可能是该群体的其他特征影响了X1,真正的影响因素还要继续深挖; e.g. 细分群体稳定性,比如现在发现某类用户的属性X1和关键指标Y有强相关,将该类用户按某个维度或者变量并列拆分为几组(2-3组即可,每组的样本量要足够),然后看不同细分组上X1和Y的关系是否稳定,如果模式稳定,X1和Y的关系则可能是有效的,如果模式不稳定,则说明分组的变量可能是影响Y的因素;
  2. 从因变量出发 e.g. 找到具有相同特征Y的群体(也可以从历史数据中抽样),反过来看其对应X1和Y的关系,比如; e.g.找到具有“非Y”特征的群体,看对立样本中X1的分布是否和原样本存在差异。如果不存在差异,说明X1可能是无效的影响因素,如果存在显著差异,则说明X1可能是有效的因素。比如成功的人和失败的人都具有的共性因素,这些因素不是“成功”的必要因素;

经过纵向历史数据和横向跨群体对比筛选出“真正”的影响因素后,我们后续就可以基于这些影响因素去做点事情,比如:

  • 将影响因素纳入到业务报表,以便及时地、量化地对数据指标的波动进行归因;
  • 影响因素也可以用于用户标签,便于精细化运营、识别异常用户等;
  • 也可以基于这些影响因素在产品/运营活动开展前评估活动大致对关键指标的影响量等;

以上是关于归因方法的总结,在“发现影响因素”实际应用中所涉及的内容的不限于文中所及,欢迎补充和讨论。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据分析1480 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
访问管理
访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档