什么是数据治理
数据治理是逐步实现数据价值的过程,具体来说,数据治理是指将零散的用户数据通过采集、传输、储存等一系列标准化的流程变成格式规范、结构统一的数据,并有严格和规范的综合数据管控;对这些标准化的数据进行进一步加工分析成为具有指导意义的业务监控报表、业务监控模型以帮助业务进行辅助决策。
在数据治理流程当中,涉及到了前端业务系统,后端业务数据库系统再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。同样地,在数据治理流程当中,我们也需要一套标准化的规范来指导数据的采集、传输、储存以及应用。
数据治理流程介绍
数据治理流程是从数据规划、数据采集、数据储存管理到数据应用整个流程的无序到有序的过程,也是标准化流程的构建过程。根据每一个过程的特点,我们可以将数据治理流程总结为四个字,即“理”、“采”、“存”、“用”。
1.理:梳理业务流程,规划数据资源
对于企业来说,每天的实时数据都会超过TB级别,需要采集用户的哪些数据,这么多的数据放在哪里,如何放,以什么样的方式放?这些问题都是需要事先进行规划的,需要有一套从无序变为有序的流程,这个过程需要跨部门的协作,包括了前端、后端、数据工程师、数据分析师、项目经理等角色的参与。
2.采:ETL采集、去重、脱敏、转换、关联、去除异常值
前后端将采集到的数据给到数据部门,数据部门通过ETL工具将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,目的是将散落和零乱的数据集中存储起来。
3.存:大数据高性能存储及管理
这么多的业务数据存在哪里?这需要有一高性能的大数据存储系统,在这套系统里面将数据进行分门别类放到其对应的库里面,为后续的管理及使用提供最大的便利。
4.用:即时查询、报表监控、智能分析、模型预测
数据的最终目的就是辅助业务进行决策,前面的几个流程都是为最终的查询、分析、监控做铺垫。这个阶段就是数据分析师的主场,分析师们运用这些标准化的数据可以进行即时的查询、指标体系和报表体系的建立、业务问题的分析,甚至是模型的预测。
数据分析师在数据流中承担的角色
数据治理流程涉及到多部门多岗位的分工协作,数据分析师在这个流程中也承担了重要的角色。数据分析师的职责真的不止是分析,除了分析之外,数据分析师需要参与到数据规划、数据采集过程中,而在数据应用过程中也需要完成指标体系、报表体系的建设以及部分临时的数据查询需求。
1.数据埋点
数据分析师要对业务进行分析,分析所需要的数据需要通过埋点来获取。分析师参与到数据规划、数据采集的过程中,可以更快地拿到数据,减少数据等待时长,有利于提高分析的效率。
举个例子来说,假如现在用户流失很严重,业务提了个需求让分析师帮忙分析下用户流失前的第n步都做了什么?但是,碰巧用户流失前第n步的事件log没有记,那么作为数据分析师没有数据分析也无从下手,只能给研发提出埋点需求,在下个版本进行数据埋点。那么这样一来,分析的周期就会延后一个版本。如果分析师参与到数据埋点这项工作中来,诸如此类的事情大部分都是可以避免的。
2.指标体系及报表体系建设
数据的终极目的是定位业务问题,辅助业务决策。而指标体系就是监控业务问题,定位业务问题的好帮手。所以,指标体系的建设也是数据分析师的重要工作之一,好的指标体系能够直接反映业务问题,同时能够帮助数据分析师快速定位业务问题,以辅助业务进行决策。
3.商业智能分析
数据分析师当然也少不了分析,包括了各类活动效果分析、版本变化分析、用户分析、流失分析等等。一份好的分析报告能够给业务的发展提供多种思路,也是分析师最重要的价值体现。
数据分析师在数据治理流程中需要撰写数据埋点文档、搭建数据指标体系、报表体系以及分析业务问题,每一个技能都会在后续的文章中更新!
参考文章
https://www.infoq.cn/article/ubch5bdk2twgdo5x*uzn
如果您觉得我们的文章还不错,请分享,点赞,再看,一键三连!!!