专栏首页数据分析1480如何快速找到并验证影响因变量Y的自变量X呢?

如何快速找到并验证影响因变量Y的自变量X呢?

声明:本文讨论主题的不是严谨意义上的“因果关系”,而是探讨自变量与因变量的关系(实际上不是真的因果关系),主要关注点在于找到并验证影响(或预测)因变量Y的自变量X。

同前文从“Δ值”谈数据分析的流程所述,Δ值是归因的起点之一。

定义业务上的关键指标(比如KPI)为因变量Y,在业务分析中常会遇到:

  • 用户组A和用户组B在行为Y上的差异和哪些影响因素有关? 注:在产品或运营上我们会关注哪些影响因素是可控的,也就是可以通过产品和运营来引导用户的行为改变
  • 关键指标发生了波动,是正常的周期波动,还是人为操作的影响,抑或是其他不可控的因素?
  • 哪些因素(X,自变量)可以预测或者影响指标Y?

也就是说,我们不仅关注ΔX和ΔY在时间维度上的共变,还关心X和Y在空间维度上的相关。

  • 时间维度上的共变更接近于“因果关系”,先前的事件引起了后续的事件,e.g. 对一批用户发放了优惠券,导致这批用户短期交易量提升;
  • 空间维度上的相关,更关注在同一时间横截面下自变量和因变量的关系,e.g. 和消费能力有关的用户属性(比如所处的城市等级、手机型号、优惠倾向性、价格敏感度等)和交易额的关系。

笔者将这个探索影响关键指标(Y)的影响因素(X)的过程称为“归因”(或许这个概念定义并不严谨,准确来说应该是“发现影响因素”)。

归因分为两个阶段:

  1. 发现模式,找到可疑的影响因素X并提出相应的假设;
  2. 验证模式,基于业务经验、数据分析、实验设计等来验证假设;

1 发现模式

发现“模式”即找到影响因素和关键指标的关系,主要有两种方法:

  • 对比,包括横向对比和纵向对比;
  • 关联,即探索变量之间的相关性;

注:前面提到的“空间维度上的相关”包括变量之间的相关性和横向对比,“时间维度上的共变”主要是指纵向对比,即基于指标在时间序列上的波动时间点(段)来找到对应的影响因素(大概率是因果关系)。

1.1 对比

对比分为横向对比和纵向对比两类,更多可参考数据分析常用思维

横向对比,即在同一时间点或时间段内对比两个及以上的组群之间的差异,涉及的情形如下:

  • 实验对比,设置实验组和对比组,对比两组或多组之间的差异,以确定人为干预(产品/运营方案等)的效应。实验对比通常对应的业务场景是A/B Test(或者多方案赛马),用于验证效果(量化),或者从多个方案中“选优”。
  • 和同类(竞品)比较,e.g. 业务A和模式相似的业务B对比,可以验证A业务的效果好坏,竞品充当基线以判断当前业务的优劣;
  • 和整体比较,将整体拆分为更细的分组,从而发现哪些分组相对于整体“拖后退”(低于整体值),哪些组是“绩优股”(高于整体值)。对于运营而言,可以参照此思路对用户进行价值划分,如果要提升整体收益,那么可以考虑让60分的组到达90分,或者让90分的组尽可能趋近100分。

纵向对比,在时间维度上看数据变化的趋势,需要注意:

  • 对比的颗粒度要视业务周期而定(或者用户完成单次目标行为的时间周期),可以是年、季、月、周、天、时等;
  • 纵向对比可以是相同颗粒度下的同比和环比,也可以是跨颗粒度的对比,e.g.昨日的交易和最近15日的日均交易对比;

1.2 关联

对于自变量X和因变量Y之间“关联性”的判断可以从业务和数据两方面着手。

在业务角度可以采用的方式:

  • 关键指标变化时有哪些因素同时也是发生了变化的,比如时间、用户特征、交易场景等。e.g.出行平台的订单量可能会受到天气的影响,下雨天打车难,可能的原因是下雨的时候供变小(出行平台的司机上线少),也可能需变大(打车需求临时增多);也具有时间周期性,上下班高峰期的时候用车需求多,订单量多;还和地点有关,比如学校、CBD或者公司附近、地铁口附近的订单量多;
  • 分析典型用户群的特征,比如我们想知道哪些特征可以识别出某类用户,或者不同类别用户在行为特征或属性上的差异(这样便于产品/运营进行差异化运营或者建立“成长路径”),e.g. 羊毛党用户的识别,找到一个典型用户(或者典型场景),然后分析用户的行为特征,比如设备信息、ip地址、购买商品、刷卡类型、收货地址等(要验证哪些特征和羊毛党有关,后续需要和正常用户来对比);

从数据角度看,可以通过统计方法来探索变量之间的关联性:

  • 离散变量&离散变量:卡方检验;
  • 离散变量&连续变量:t检验,方差分析;
  • 连续变量&连续变量:pearson相关,或者Spearman相关;

探索两个变量之间的关系可以采用的统计方法,Basic Data Analysis Guidelines for Research Students, Isaac V. Gusukuma

基于对比和关联,我们会发现一些可疑的影响因素X1,X2,X3……,接下来需要验证这些影响因素是不是真的和因变量Y有关。

2 验证模式

验证模式的方法也可以按纵向和横向分为两种:

  • 纵向,基于历史数据,时间点匹配以及数据周期验证;
  • 横向,跨群组的对比,对照实验设计及跨组验证;

2.1 纵向验证

首先看“模式”是否是周期性出现,比如每逢周末或者节假日就出现交易下降。

数据上表现的周期性变化主要因素有3方面:

  1. 人(用户)的行为活动的周期性,包括和人相关的自然节律 e.g. 夜间23:00-早上6:00基本是在休息,所以app的活跃比白天低; e.g. 一日三餐的用餐时间相对固定,上下班时间相对固定; e.g. 工作日上班,节假日休息; e.g. 夏天会买短袖/裤/裙、风扇/空调等降温设备、遮阳伞/防晒霜等遮阳设备等,冬天买秋衣/裤、暖宝宝/电热扇/暖气片等保暖设备; e.g. 在特定的年龄段有相应的主要活动,比如上学、工作、婚育、养老等;
  2. 社会活动的周期性,包括行业特殊日期或活动 e.g. 节日,五一、国庆、春节、七夕(或者5.20)、双11等; e.g. 学校的暑假、寒假以及春秋季开学,电商平台会促销学习用品; e.g. 定期举行的具有较大影响力的公开集会或者活动,比如广交会、世界杯、NBA赛事等;
  3. 产品上的周期性 e.g. 唯品会的早10晚8上新、固定时段的大促活动等; e.g. 产品发布会,比如苹果/华为/小米手机发布会等; e.g. 会员日(用户养成习惯会在当日消费),比如信用卡的周末活动等; e.g. 还款日,发工资日;

如果数据上出现了周期性,则可以从上述3个方面去寻找对应的原因。

如果数据不具有周期性,那就需要检查数据波动发生的时间点附近是否有人为或者偶发因素导致数据变化。可以从外到内,按产品环节层层排查:

  • 外部市场环境是否有变化,比如竞争对手搞了一波活动,新客流量减少; 注:用户所拥有用于决策的认知(注意力、判断力等)、用于购买的资金以及用于存放的空间(包括物理空间和心理空间)都是有限的。
  • 内部的产品或者运营上的操作,比如产品功能有没有改动,有没有新的产品策略变动?为用户提供的产品/服务有没有发生变化(比如品类结构,新的销售模式等)?是否有运营活动上线(覆盖面及影响量)?
  • 用户结构变化,比如劣质流量?新老客?00后?羊毛党?

2.2 横向验证

2.2.1 对比实验设计

能用实验验证因素,说明该因素是人为可控的。反过来说非人为可控的因素,是没法通过实验对比来验证的。

实验设计的注意点:

  • 确定好实验要操作的自变量X,以及衡量实验效果的因变量Y;
  • 实验自变量可能是离散变量,也可能是连续变量。如果自变量是连续变量,则要在不同组上覆盖自变量的业务取值范围;
  • 控制非考察因素,抽样时要具有随机性,同时样本大小、人货场等因素都要匹配好;
  • 实验要考虑目标业务的范围,比如只针对新客,只针对app端,只看Android端等;

2.2.2 模式的迁移性

比如我们在“发现模式”阶段探索到变量X1和Y可能存在关联关系,现在要验证这种关系的迁移性。

检验模式的迁移性有两种思路:

  1. 从自变量出发 e.g. 跨群体稳定性,可以保持变量X1不动,改变其他自变量,看X1->Y的关系是否稳定,即看具有同一特征的不同人群在指标Y上的表现,如果模式在跨群体上表现稳定,那么就验证了X1和Y的关系模式是OK的,如果在其他群体上没有验证X1和Y的关系,那么说明可能是该群体的其他特征影响了X1,真正的影响因素还要继续深挖; e.g. 细分群体稳定性,比如现在发现某类用户的属性X1和关键指标Y有强相关,将该类用户按某个维度或者变量并列拆分为几组(2-3组即可,每组的样本量要足够),然后看不同细分组上X1和Y的关系是否稳定,如果模式稳定,X1和Y的关系则可能是有效的,如果模式不稳定,则说明分组的变量可能是影响Y的因素;
  2. 从因变量出发 e.g. 找到具有相同特征Y的群体(也可以从历史数据中抽样),反过来看其对应X1和Y的关系,比如; e.g.找到具有“非Y”特征的群体,看对立样本中X1的分布是否和原样本存在差异。如果不存在差异,说明X1可能是无效的影响因素,如果存在显著差异,则说明X1可能是有效的因素。比如成功的人和失败的人都具有的共性因素,这些因素不是“成功”的必要因素;

经过纵向历史数据和横向跨群体对比筛选出“真正”的影响因素后,我们后续就可以基于这些影响因素去做点事情,比如:

  • 将影响因素纳入到业务报表,以便及时地、量化地对数据指标的波动进行归因;
  • 影响因素也可以用于用户标签,便于精细化运营、识别异常用户等;
  • 也可以基于这些影响因素在产品/运营活动开展前评估活动大致对关键指标的影响量等;

以上是关于归因方法的总结,在“发现影响因素”实际应用中所涉及的内容的不限于文中所及,欢迎补充和讨论。

本文分享自微信公众号 - 数据分析1480(lsxxx2011)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 小白也能看懂的Pandas实操演示教程(上)

    pandas中有两类非常重要的数据结构,就是序列Series和数据框DataFrame.Series类似于NumPy中的一维数组,可以使用一维数组的可用函数和方...

    1480
  • 什么是机器学习?进来带你参观参观

    首先我们需要了解几个机器学习中的起码要知道是怎么回事的概念,了解了后面看代码才不会一脸懵逼。

    1480
  • 我没有分析思路,怎么样提高数据分析思维

    最近听到大家说的最多的话就是,在工作中总是没有数据分析思路,我应该怎么办呢?今天就来给大家分享一下,如何锻炼自己的数据思维,还有实例模型讲解哦~

    1480
  • HCIP笔记 | IS-IS 协议 中间系统到中间系统(二)

    IS-IS 网络能够引入其他路由协议的路由和其他 IS-IS 协议进程的路由。默认情况下,IS-IS 总是以 level-2 路由类型引入外部路由。但是,通过手...

    网络技术联盟站
  • 你必须知道的神经网络基础,文末有福利!

    人工神经网络表示一类机器学习的模型,最初是受到了哺乳动物中央神经系统研究的启发。网络由相互连接的分层组织的神经元组成,这些神经元在达到一定条件时就会互相交换信息...

    昱良
  • 人工智能时代,你需要掌握的经典大规模文本相似识别架构和算法

    在数据分析和挖掘领域,我们经常需要知道个体间差异大小,从而计算个体相似性。如今互联网内容爆发时代,针对海量文本的相似识别拥有极大需求。本文将通过识别两段文本是否...

    musicml
  • fortune 命令简介

    美国中餐馆的最后一道菜,往往是小甜饼,叫做"幸运饼"(fortune cookie)。 ? 里面有一张纸条,写着人生格言。 这种形式的格言,显然很受欢迎。早在1...

    ruanyf
  • win10 UWP 用Path画图

    内容是看到 大神写的 WPF绘制简单常用的Path,想到 UWP 画图是不是也一样,于是做的一个抄袭的 Path

    林德熙
  • 端点安全CrowdStrike与评测机构NSS Labs之间的互撕,究竟错在谁?

    下面要出场的主角分别是CrowdStrike与NSS Labs。CrowdStrike是一家美国端点安全公司,致力于APT防御,详情可参考FreeBuf之前的介...

    FB客服
  • Python黑帽编程1.1虚拟机安装和配置 Kali Linux 2016

    Python黑帽编程1.1虚拟机安装和配置 Kali Linux 2016 0.1 本系列教程说明 本系列教程,采用的大纲母本为《Understanding ...

    用户1631416

扫码关注云+社区

领取腾讯云代金券