如何恰当选择数据指标分析方法?

这是UBS与您的第48次美好分享

预计阅读时间:7分钟

数据分析是指对数据进行有目的的收集、整理、加工和分析,进而提炼出有价值的信息的过程。一般情况下,在对基础数据进行清洗加工后,分析师会按照业务既定目标对数据指标进行统计分类和分析,再借助分析模型指导业务方进行有针对性的用户运营。

本文主要讲述的内容是数据指标的统计分类和分析方法。

数据指标的分类

在数据分析中,我们通常将数据指标分为3种类型:名义型指标、序列型指标和度量型指标。通常情况下,名义型指标和序列型指标会做为用户分群的依据,而将度量型指标做为用户分群后表述各类用户的行为值。

如下图所示:名义型指标可用做用户分群依据,常用于用户组成结构图的分类标签;序列型指标可用做用户行为趋势对比,常用于表达度量型指标随时间趋势变化的时序标签。

图1 名义型指标和时序型指标使用示例

然而,仅仅依赖这两类指标做分类是不够的,很多情况下也需要将度量型指标做为用户分群的依据,三种指标互相配合,才能够丰富地表达用户特征。

数据指标的分析

通常,当数据指标少于6个时,可以直接使用统计分析工具进行分析;而当数据指标多于6个时,很难直接使用统计分析工具,这时需要对多个数据指标进行降维操作,即把多个指标聚合成单个或少量指标后,再利用统计分析工具进行分析。

1.单数据指标的分析

业务数据比较庞杂,用户种类复杂多样,如果粗暴地将用户简单分组,很容易把不同特征的用户分为一组,这会造成组内用户下钻分析方向的偏离,导致后续分析结果的失真。对用户行为进行描述统计时,通过对用户行为值的分布、集中趋势、离散程度的观察,可以清晰地将有相似行为的用户划分到一个组内。

如下图所示:在SPSS中,对度量型指标进行描述统计,即可完成对度量型指标的摸底分析。

图2 度量型指标摸底分析

在上图中,“10等位分割点”就是寻找“二八原则”用户的简易路径。通过对用户CUID粒度的dip_pv数据指标分析,可以快速找到20%的用户dip_pv大于7851,统计这部分用户的dip_pv总量和占整体用户dip_pv的占比,进而判断用户的dip_pv行为值是否符合“二八原则”,方便后续圈定重点用户,进行重点分析。

图3 常用“二八原则”示例

2. 双数据指标的分析对两个数据指标进行交叉分析,是挖掘潜在增长点的较好方法。如下图所示:通常,区域1是最优质的保持组,可以据此下钻优质用户的特征、共性,区域2和3是潜在增长区域,可据此挖掘用户的可增长空间,区域4是较为低质的用户区。在这里,指标低和高的概念完全依赖于指标的分布情况划分。

图4 利用两个数据指标进行交叉分析

常用的用户价值模型RFM(Rencency-Rrequency-Monetary)是这种数据指标组合方式的升级。

下图以小说产品RFM模型应用为例:R为用户上个月有没有来,F为用户月活跃天数,M为用户在小说的单日阅读时长。

图5 小说产品RFM用户模型示例

3. 少量数据指标(3~6个)的分析

通常3个指标可以做三维气泡图,但在大部分情况下,气泡图中代表气泡大小的Z值对比的直观性被削弱了不少;而雷达图对多维指标的对比性增强,但是只适合少量指标的对比。

图6 少量数据指标分析方法示例

4. 多个数据指标(大于6个)的分析

将多个指标通过加权聚合成单个或双指标,会大大增强数据的指导价值。

从业务角度出发,可以将数据指标根据业务逻辑做业务层面的归类后,整合成1个或少量指标进行分析;

当数据指标的关联性较弱时,常见的解决方式为:对指标进行降维因子分析,提取主成分因子,计算相关性系数并做为各指标权重,将指标数值进行标准化归一,便可将多指标加工成为具有某类特定属性的单个指标。

图7 多维指标分析实例

综上所述,通过对大量的数据指标进行加工处理,据此进行条理性的下钻分析;除此以外,还可以借用模型做进一步的数据分析,来指导业务运营。关于数据模型的应用,我们后会有期。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190924A08BT700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券