教程地址:http://www.showmeai.tech/tutorials/33
本文地址:http://www.showmeai.tech/article-detail/137
声明:版权所有,转载请联系平台与作者并注明出处
数据分析分核心步骤分为:业务认知与数据探索、数据预处理、业务认知与数据探索等三个核心步骤。本文介绍第一个步骤——业务认知与数据探索。
描述性分析是处理信息汇总的好方法,与视觉分析相结合,可以提供全面的数据结构,并通过仪表板展示所得到的结论。企业中通过分析KPI来评估绩效的做法,就是描述性分析的常见应用之一。
预测分析是一个复杂的领域,需要较大大规模的历史数据,并借助技术进步(尤其是机器学习)构建高并发的预测模型,以获得有关未来的预测性洞察。
通过诊断分析,可以对数据进行批判性思考,判断实际存在的问题,并进一步优化管理或减少损失。物流企业使用诊断分析可以减少物流延迟,电商企业可以借助诊断分析更新营销策略,降本提效。
规范分析结合了上述所有分析技术,可以帮助公司在数据结论的基础上制定相关决策。需要注意的是,使用规范分析的必要基础是足够大的数据规模、数量使用AI技术,也因此常被应用于大型互联网公司(如Google)和金融机构。
指标是衡量事物好坏的一个指数。数据指标很多,北极星指标,二级指标、定性指标、量化指标、虚荣指标等等。好的数据指标,应该为产品业务线所在的发展阶段提供指引,而有些数据却起到了相反的作用。
比率指标具备『比较性』,从而成为最佳数据指标。举个开车的例子,里程透露的是距离信息,而速度(距离/时间)才能告诉你是在加速,还是减速。
比率指标的比较对象,是不同时期的『自我』对比,用以比较事物的增长趋势;或同一时期不同对象之间的对比,用以比较不同事物的增长大小。
通常情况下,用户行为分析使用以下比率指标(或之一):
抛开基数,比率的意义会大打折扣。引用《效益数据分析》中的例子,“你的产品刚上线时,从严格意义上讲,你爸爸注册一个账号,也可以使你的用户量翻倍”。
注意!虽然比率是最佳的数据指标,但也需要辅以其他定性指标和定量指标。指标从来不是单独存在的,而应该从多个指标来综合评估。这需要了解指标之间的耦合性,设计指标系统,从各个角度来揭示数据中隐藏的事实。
分析数据和设计关键指标时,应结合实际业务,还原到具体的场景中。例如,在分析用户的行为时,用户对服务或产品的黏性(Stickiness)是一个有效指标。在不同使用场景中,粘性的衡量指标也有差异:
黏性是指客户购买产品或服务之后,愿意再次购买或者推荐给别人的程度。
案例:在一次云产品宣讲会(活动)中,举办方对产品的重大更新做了全方位的演示和讲解,希望通过线下的互动和线上的直播,来吸引更多的用户使用产品。
如果目标是对活动效益进行评价,你作为一名数据分析人员,会怎么做?
思路:对于该场景,可以使用同期群分析,按照与会人员是否注册,把与会人员细分为未注册人员(潜在用户)和已注册人员(老用户)。
思路:将人的行为作为出发点,从『定量数据』和『定性数据』两个角度来设计指标。为了分析活动获得的效益,可以制定以下关键指标:
[1] 参与度(Engagement):衡量有多少人参加此次活动,用于评价活动的影响力
[2] 观察新用户的行为:转化率可以评价活动效益,留存率可以评估新用户对产品的粘性
与会的、未注册的人员,是产品的潜在用户。不管采用『免费试用』还是『购买+赠送』等推广方法,只要用户注册,就可以认为是完成了一次转化。
[3] 观察老用户行为:忠诚度与老用户用量
老用户是指在参加活动之前,已经注册的用户,这批用户是产品的忠实粉丝。分析老用户的行为,也能评估活动效益的。
忠诚度是指用户使用产品的频繁程度,以及对产品及服务的依赖程度。如果此次活动促使老用户更频繁地使用产品(即老用户的用量增加),则说明举办此次活动提升了老用户的忠诚度,带来了效益的增加。
考虑一些特殊情况,有多少老用户被召回,有多少老用户流失:
[4] 观察产品的用量:服务类型
产品的用量,也是一个评价活动效益的有效指标。而用户使用产品这一行为,实际上在消费产品提供的服务。增加『服务类型』这一维度,可以评估用量的增长是否与本次活动有关——对比总用量、与活动主题相关的用量。
注意!对比要有可比。在比对数据的处理上,应剔除新用户对数据的影响。以活动的举办时间为分割点,只比对老用户在前N(1-3)个付费周期内和后N(1-3)个付费周期内的用量。为了更精确地计算用量,应该避免个别因素的影响,可以使用2-3个付费周期内用量的均值。
老用户的用量增长分析:
与活动主题相关的用量增长分析:
要注意,数据分析应结合业务,根据面临的主要问题,设置关键的数据指标,以回答决策中遇到的难题。例如:
附上网站分析中常用的数据指标,你能识别哪些是虚荣指标吗?
数据分析的基础是对数据的认知,先有数据,而后有分析。没有可信的数据,数据分析的结果将是空中楼阁。变量和数据是数据分析中常用的概念:变量来描述事物的特征,而数据是变量的具体值(也叫观测值)。
变量用来描述总体中成员的某一个特性。在数据分析中,变量(Variable)可以和属性、维(Dimension)、特征(feature)互换使用。常见变量有性别、年龄、身高、收入等。
按照变量值功能的不同,可以把变量分为定性变量和定量变量。
定性变量是指用文本描述对象的特征。定性数据通常是分析数据的一个角度,增加维度,从不同的角度来看待问题,能够细分指标,增加分析的深度。定性变量主要分为三类:
* 在序数变量中,有一类重要的变量,叫做时间变量,一些常见的分析方法,比如时序分析,周期性分析等都是基于时间变量的。
定量变量是指用数值描述对象,可以比较大小,是可以量化的变量。定量变量通常含有量纲。例如,身高的量纲是cm,而薪水的量纲是元。同一量纲的数据可以比较大小;不同量纲的数据,需要通过归一化去量纲之后,比较大小才有意义。定量变量主要分为两个标度:
数据是变量的具体值。
按照变量的类型,可以把数据分为:分类数据、顺序数据和数值型数据。
按照数据分析的目的,可以把数据分为:实验组(Treatment)和参照组(Control)。
按照数据的类型,可以把数据分为:文本数据、数值型数据和日期时间数据。
统计是数据分析的好助手,查看数据集的基本统计描述,能够帮助我们了解数据的全貌,识别数据的分布特征。由于定量数据天生具有计算的特性,数据的分布通常是针对定量数据进行的统计描述。
基本统计描述主要是指从数据的集中趋势、离散趋势和分布来认识数据。每个统计描述,都使用特定的统计量来衡量。
本教程系列的代码可以在ShowMeAI对应的github中下载,可本地python环境运行,能访问国外网站的宝宝也可以直接借助google colab一键运行与交互操作学习哦!