前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >美团酒旅数据治理实践案例分享

美团酒旅数据治理实践案例分享

作者头像
架构之家
发布2022-07-12 13:42:10
8630
发布2022-07-12 13:42:10
举报
文章被收录于专栏:架构之家

导读:本文主要介绍了美团酒旅数据治理的历程和实践经验,以及业务发展各个阶段中数据体系遇到的问题和解决方案,最后探讨数据治理在现阶段的建设思路和发展方向。

01

背景介绍

为什么要做数据治理?笔者个人的理解是,从数据产生、采集、生产、存储、应用到销毁的全过程中,可能在各环节中引入各种问题。初始发展阶段,这些数据问题对我们的影响不大,大家对问题的容忍度比较高。但是,随着业务发展数据质量和稳定性要求提升,并且数据积累得越来越多,对一些数据的精细化要求也越来越高,就会逐渐发现有很多问题需要治理。

1. 需要治理哪些问题

数据治理过程中哪些问题需要治理?总结了有五大类问题:质量问题、成本问题、安全问题、标准化问题、效率问题。

2. 美团酒旅数据现状

主要面临的问题有:标准化的规范缺失、数据质量问题比较多、成本增长非常快、数据安全的控制、数据管理和运维效率低。

02

治理实践

数据治理的内容划分为几大部分:组织、标准规范、技术、衡量指标。整体数据治理的实现路径是以标准化的规范和组织保障为前提,通过做技术体系整体保证数据治理策略的实现。同时会做数据治理的衡量体系,随时观测和监控数据治理的效果,保障数据治理长期向好发展。

1. 标准化和组织保障

管理委员会是一个虚拟的组织,主要组成是技术部门和业务部门,技术部门是业务数据的开发团队,业务部门是业务数据的产品团队,这两个团队作为实现的负责人,各自对接技术团队和业务团队。

2. 技术体系

① 数据质量,数据质量是数据质量中最重要的一个问题,现在数据治理的大部分问题都属于数据质量。这里有四大问题:

  • 数据仓库的综合性比较差,虽然有一些规范文档,但更依赖个人理解去执行。
  • 数据一致性问题多,主要表现在数据指标的管理上。指标管理以前在文档中定义指标,没有系统化的统一管理逻辑和查询逻辑。
  • 数据应用非常多,使用数据的方式包括数据表同步、接口消息推送、OLAP引擎查询等,不能保证数据应用端的数据一致性。
  • 产品非常多,业务数据产品入口有十多个,没有统一的入口,也没有人对这些产品统一把关,导致数据应用和使用方式有很多分歧。

数仓建模规范

事前会有标准化文档给大家提前理解、宣贯,事中很多标准化的事项会通过配置化自动约束规范,事后会有上线时的检验和上线后每周定期检验,检验数据仓库的建模规范是否符合标准,把不符合标准的及时提示出来、及时改进。

统一指标管理系统

指标管理系统化主要做了流程管理标准化、指标定义标准化和指标使用标准化。

统一数据服务

建设统一的数据服务平台,目标是提高效率、提高数据准确性、提供数据监控、将整个数据仓库和数据应用链路打通。提供的方式有两种,一种是对于B端应用,提供按需使用,每天提供几万次的调用额度;一种是对于C端,通过推送的方式,比如每天推送一次最新数据。

统一用户产品入口

通过数据仓库的统一建模、数据指标管理保证了三大类底层数据集市的一致,从而保证了所有数据的一致性。

整体系统架构

整体的技术架构分为三层,从统一数据建模到统一指标逻辑、统一数据服务和统一产品入口,整体保障了数据的质量。

② 数据运营效率

对于运营相关的数据问题,先提供系统化的数据指南。该指南包含三大类信息:指标类、数仓模型、推荐使用方式。

具体的实现方式,针对数据使用指南做了一个系统,把指标元数据、维度元数据、数据表和各种产品元数据等管理起来。

③ 数据成本

美团业务的数据成本也很大,每一年的数据存储、计算相关的成本增长非常快。美团目前大概的比例是70%的计算成本、20%是存储成本、10%为采集日志。

④ 数据安全

数据安全是以事前预防、事中监控、事后追踪三个方式来进行的。

数据使用过程中应当遵循的五个原则:密文处置原则、最晚解密原则、最小范围提取原则、最小授权原则、全程审计原则。

3. 衡量指标

未来能够全面的衡量数仓治理的效果,新建了数据衡量指标体系,总体分为五大类:质量类、成本类、安全、易用性和价值。

将数据治理作为日常运营项目做起来,底层依赖数据指标体系进行监控,之上从发现问题到提出优化方案,然后跟进处理,再到日常监控构成一个循环。

03

未来规划

总体来说,数据治理分为三个大阶段:被动治理、主动治理、自动治理。

第一阶段做的是被动治理,也就是阶段性治理,没有统筹考虑,主要是基于单个问题的治理,而且治理之后过一段时间可能要做重复治理。这个阶段更多是人治,一个项目成立,协调几个人按照项目制完成,没有体系规划也没有组织保障。

第二阶段是主动治理,有长期的统筹规划,能覆盖到数据生命周期的各个链路,在治理过程中把一些手段和经验流程化、标准化、系统化,长期解决一些数据问题,让数据治理长期可控。

第三阶段是自动治理,也是智能治理,希望长期规划和数据生命周期个环节链路确定好之后,把已经有的经验、流程和标准做成策略。一旦出现问题,自动监控,通过一些系统化的方式解决。自动治理的第一步还是治理方案的落地和策略化,这就非常依赖于元数据,把数据治理各个过程中的一些经验技术都沉淀起来。做完策略沉淀之后做自动化,把策略用工具的方式实现,当系统发现数据有问题时,自动去处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 架构之家 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档