丨导语丨
我们都知道,数据可视化,直接对接的是数据,准确来说应该是加工好的指标数据。本文,我将结合之前的工作场景分享有关我是如何理解“指标”这个话题。
指标的定义
用一句话概括就是:用来准确描述某个业务场景的一个值。以下是各大百科的总结,供大家参考👇
指标(统计学)
指标是说明总体数量特征的概念及其数值的综合,故又称为综合指标。在实际的统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。
指标(汉字)
指标的意思是衡量目标的参数;预期中打算达到的指数、规格、标准,一般用数据表示。出自郭沫若《天地玄黄·鲁迅和我们同在》。
注:还有一些数据和编程的指标定义和本文指标关系不大故不一一列出。
由此可见,指标是以概括某个事实场景数值的表现,所以可视化对接的是指标,展示的也是指标。
指标怎么展示?
说完了定义,接下来就是怎么使用。先拿一张做好的报表仔细观察一下,可以初步发现一些规律:
1、指标的值在Y轴中(图例)
2、维度的值在X轴中
再观察细节会发现:拖拽模式-明细中拖拽字符串类型的字段,会提示:字符串型字段不可作为指标
这是什么原因呢?
我们首先思考下拖拽模式功能的定位:是为了快速拖拽生成报表,那么检验就会严格一些。那么校验的标准是什么?这里又回到指标+维度的含义,这里限制了指标必须是数字,维度无限制。所以会提示下图红框中的信息,因为字符串是不可控的,有可能值不一定是数字,导致读不到数值,但是数字型是一定没有问题的。
所以,只要保障指标是数字,就能正常展示。
关于指标和维度概念的理解
指标:一般通过对某个字段的某种计算得到(比如求和、均值等)。
维度:简单来说维度可以理解为我们看问题的角度。这个思考的角度转化为表中的字段来代表维度(比如按照时间,地区,年龄)。
DataTalk中指标展示的小技巧:
1、设置的维度默认左对齐,指标默认右对齐
2、立即分析,存在无法点击的情况?这时候我们需要观察维度+指标是否符合数量要求。
那么为什么每个图表维度、指标数量会不一样呢?因为不同图表在展示形式上会有不同。下面为大家整理了每个图表所需要的维度数量。
关于指标的分类
指标主要分为三类:
原子指标(聚合)
派生指标(筛选)
事务指标:对业务活动进行衡量的指标,一般会对应一个事件。例如消费了多少钱,存了多少钱,是一个动作的表现。
存量指标:对实体对象(如房子、车子)某些状态的统计。例如房子大小、车子数量,这类指标需维护原子指标及修饰词,在此基础上创建派生指标,对应的时间周期一般为“历史截至当前某时间”。例如:最近30天车子数量。
复合指标(逻辑计算):在事务型指标和存量型指标的基础上复合而成。
指标分类示例,通过简单SQL的方式,再体现下会更直观:
指标如何去开发?
其实开发对于可视化展示来说并没有那么重要,我们主要关注最终呈现的维度下的指标结果。
简单来说:
1、指标作为应用层展示,自然前面就还有好几层,也就是数仓的分层。
2、我们把它分为三层:贴源层(最原始的数据,没有任何加工)、整合层(从贴源层数据和已经加工好的整合层数据进行加工)、汇总层(整合层的数据再加工)。
3、汇总层的数据其实就可以算是加工好的指标数据了,只是有时会分得更细,所以会再加工形成指标应用层等。
指标加工流程:(数仓模型加工好的情况下,可根据需求灵活变化)
1.业务提出需求:算最近1年的存款年日均余额;
2.ETL开发拿到需求和业务确认数据口径,开始写SQL代码;
3.加工成原子指标按照维度建立一张大宽表放在应用层,需要落地;
4.通过大宽表再进行实际指标的SQL编写,一般不需要落地;
5.根据业务提供的真实数据进行核对,如果真实数据不完整,需要校验核心指标即可;
6.业务核对无误后,数据加工完成,可以供报表使用了。
再详细一些就涉及到数仓的建模了,毕竟最上层的需求需要底层的支持,就和盖楼房一样。下面是为大家整理的关于数仓流程的示意图,供参考。
概念资料库
数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。
业务过程:指企业的业务活动中的事件。
时间周期:用来明确数据统计的时间范围或者时间点,如近30天、截至当前。
修饰类型:对修饰词的一种抽象划分。
修饰词:指除统计维度外指标的业务场景限定抽象。抽象词隶属于一种抽象类型,如访问终端类型下的PC、安卓、苹果。
度量/原子指标:具有明确含义的业务名词。如:支付金额。
维度:维度是度量的环境,用来反映业务的一类属性,这类属性的集合称为一个维度,也可以称为实体对象,如地理维度、时间维度。
维度属性:对维度的描述,隶属于一个维度。如:地理维度下的国家、省份。
派生指标:原子指标+多个修饰词(可选)+时间周期。明确原子指标、修饰词、时间周期和派生指标的定义。
指标体系搭建流程也是OneData的设计思想,推荐《大数据之路》这本书,有很好的解释。这里大脑当中有个流程即可:
资料库摘自:
《大数据之路》中的onedata设计思想
希望这篇文章让你对指标有进一步的认识!