数据是这个时代特有的资源,很多公司都在进行数据治理,那么,数据治理包含哪些方面?又有哪些可以借鉴的方法论?相信很多大数据从业者都较为关心,为此,我们采访了快手数据平台部负责人徐波,他从数据质量与数据成本入手,为你分析了快手数据治理实践,希望对你有所启发。
根据您的理解,数据治理有两方面比较大的问题:数据质量问题和成本问题,我们今天围绕这两方面聊聊。
InfoQ:首先是关于数据质量问题,主要有哪些挑战?
徐波:数据从生产到消费链路比较长,涉及的系统和角色众多,而这些系统和角色又分散在各个组织,协作复杂度很高。
数据质量长效保障流程相对较重与短期效率容易产生矛盾,难以长期坚持。所以数据质量在各大公司都是个普遍问题。这里的挑战主要有以下几方面:
InfoQ:快手是如何保障这些数据质量问题的?
徐波:快手的质量保障主要通过:组织、流程、规范,系统这四个方向来实现数据质量的持续收敛。
1. 组织上分两层。对外,我们与协作团队(客户端,业务系统,质量保障,分析师)共识数据质量的重要性,并且与他们共识质量目标与各自的职责,以定期复盘和通晒的方式来持续加强大家的质量意识和一定的资源投入;对内,明确每个业务线以及公司级的指标管理员,对指标口径和生命周期负责,做到口径变化有人审批,版本变化可追溯。
2. 在规范上,建设了指标定义规范与数据监控规范。首先是指标定义规范,明确基础,衍生,符合指标原则,对指标进行了极大的收敛。使用词根叠加命名方式来替代人工命名让指标更加规整;其次是数据监控规范:明确核心指标上线必须要加上 DQC,对常见的监控项予以覆盖,额外还加了一些补充规则,如:
3. 流程机制上建设了:
4. 在系统上,建设了指标管理系统和全链路监控系统,让流程规范能在系统中高效的运作起来。
InfoQ:关于数据质量保障,业界是否还存在比较好的方案?
徐波:质量保障,除了上面说的一些方法外,了解到美团和阿里都有数据建模工具,打通了数据指标管理与数据生产链路,并将一些建设规范集成到数据建模工具上,从源头上让数据生产更加规范,这是一种很好的事前规避的方法。相比于事后监控发现,这种方法效率更高。
数据成本治理
InfoQ:从数据成本维度考量,数据治理成本方面都包含哪些方面?快手是如何优化数据治理成本的?
徐波:快手是一个强用户交互型的产品,每天会有亿级的用户在 App 上产生万亿级的数据,并且随着业务的发展,数据会持续增加,在存储和计算成本上挑战巨大。
数据治理成本主要体现在以下几个方面。
我们的优化方向主要有以下几方面:
InfoQ:中小企业在资源受限的情况下,如何进行数据治理?是否有一些很好的工具辅助来进行质量和成本的控制?
徐波:分两个问题来看,在质量上,我觉得在资源有限的情况下,先建设执行流程规范,性价比更高。可以参考成熟公司的一些流程规范和方法,跟进自己业务特点及规模做适当的裁剪,先能线下人工跑通质量管理、监控的全链路。
充分验证后,再投入做系统建设。质量是个复杂问题,不能寄希望于某个系统或者某几个人就可以把公司整体的质量提升。
在成本控制上,我认为第一要素是公司要自上而下有成本意识,让每个资源使用方都能把自己当做是公司的一号位来思考,把公司当做创业公司来看。初期可以参考成熟公司的经验,投入建设数据血缘和元数据工具并对元数据进行认真的分析,从数据价值来评估资源的投入 ROI。
快手的质量与成本治理工具,我们也在考虑对外开放,将我们内部实践过的流程方法沉淀到工具上,帮助一些中小企业提升质量与控制成本。
InfoQ:规模比较大的一些公司,一般都会有大数据治理平台,快手的大数据治理平台研发过程经历了哪些阶段?
徐波:快手的大数据治理平台包括质量,成本,安全,建设规范等方面,我以成本治理为例,简单讲讲治理平台在成本方向发展的三个阶段。
InfoQ:在您参与建设的这些阶段,您遇到过的印象最深的难题是什么?这些问题最终是如何解决的?
徐波:在成本治理的三个阶段,我印象最深,也是最难的还是在第一个阶段往第二个阶段发展的过程中,从“计划经济”转向“市场经济”改变原来业务资源使用习惯时遇到的挑战。从无限制到被约束,业务肯定有反弹,也会带来团队服务满意度下降,甚至对资源问题的投诉。
我们的解法是“走上层路线”,因为这种变化是一种机制和理念的变化,必须要得到公司高层的理解与支持,不然无法落地。
我们对当时的资源进行了充分的分析,对方案做了充分的讨论与设计,也学习了其他大公司的经验,与 CTO 汇报沟通,论述了这种机制的变化会带来什么样的优势,以及过渡方案。最终得到了 CTO 的认可。
在具体落地与业务协作时,对于每个业务,先基于资源现状协助做资源单元(租户)初始化,然后根据业务实际情况做人员与资源单元的映射,明确资源管理员,最后上 Qutoa(资源配额),让大家明确职责,各司其职。
InfoQ:统一的数据治理平台可以为快手带来哪些治理优势?
徐波:统一的数据治理平台带来的优势主要体现在治理效率上,治理平台与数据生产,管理,监控平台打通后,可以在统一平台上看到各团队数据资产的状态与治理项,可以很方便的一站式发现问题,并驱动解决问题。同时能将一些原来需要事后治理的策略提前到生产环节,从治理项变成约束项,从源头提升规范性。
除了统一数据治理平台我觉得快手数据治理最大的优势还是来自于组织红利,快手的数据团队是一个中台化非常彻底的组织,这样的组织形态下极大的提升了我们的协同效率,能快速目标一致,方法一致,步调一致快速拿到结果。
InfoQ:元数据平台也是属于统一数据平台的一部分,利用元数据在数据治理上有哪些比较创新的探索?
徐波:除了在利用元数据在数据建模提升研发效率与建模规范化,元数据追踪数据消费链路合理控制成本,以及利用元数据构建 OneService 数据服务,实现一处生产多处调用从系统架构上提升质量外。目前我们在探索用元数据进行组织和项目治理:利用元数据全面量化呈现数据团队各领域建设投入,各产品模块对业务的数据分析效率及业务目标提升情况。将这些数据全面量化监控与分析,用以指导团队人力和项目规划。
我们认为数据也是个业务,操盘数据团队和操盘业务团队类似,都是需要从商业视角来看,尤其在当前提质增效的大背景下,更要关注 ROI。比如有些类似差异不大的工具,用户分布分散,需要投入大量人力和机器资源去运营,原来没有这些数据时,大家很难有动力进行同类项的合并,有了这些数据我们就可以很容易的发现,在某个领域,应该重点发力哪个产品,应该合并哪些产品,在与业务和客户沟通时,也有了更有说服力的数据支撑。
数据治理的未来
InfoQ:数据治理未来的发展方向,您认为会有哪些?
徐波:首先从治理的范围上,我觉得会从基础的质量,成本,安全往数据建设效率以及团队管理和项目规划上拓展;
同时大家会越来越重视元数据的建设与分析,通过对元数据的分析来发掘在各个领域可以优化的点以及用元数据来作为资源和方向投入的决策依据。数据驱动不仅在业务侧发挥价值,对数据团队本身来说也会发掘巨大价值;
另外随着治理的逐渐深入,对于一些成熟的治理领域,比如质量,成本治理,与相关系统的打通会做的更好,把治理的工作前置,把事后治理项转变成事前约束项,提升效率。
嘉宾介绍:
徐波 快手数据平台部负责人,拥有十余年大数据建设与应用相关经验,于 2019 年加入快手,带领团队全面落地了数据生产、治理、分析、应用等数据中台产品,建设了快手全业务数据内容与服务体系。目前专注于使用元数据驱动数据生产、服务、治理的方向应用与探索。