浅谈企业的数据架构

我知道这里很多人是从我之前的公众号“邮才”转过来的,对于搞邮件的人,基础架构(或叫技术架构)是我们熟悉的领域,我们知道怎么设计网络、设计负载均衡,设计服务器的高可用。但再上层的数据架构和应用架构我们就可能不太了解了。

在一家企业中,数据架构指的是其采集何种数据以及在一个数据系统或组织内如何存储、管理及使用这些数据的模型、策略、规则或标准。具体来说,主要涉及以下领域。

传统的分析型数据架构由各业务流产生交易数据经过第一次数据整合进入一个汇总的数据仓库,这个数据仓库(Data Warehouse,对于大数据来说叫Data Lake)存放所有业务未经处理的原始数据。经过第二次数据整合进入面向对象的各个数据市场,数据市场(Data Marts)是针对各业务目的的数据集,比如需要出报表或者做业务分析。最后在分析层展现为各种格式的报表或分析数据。

上述整个流程中的还需要一些共享的服务以保证数据的一致性、质量和安全性以保证数据的采集、处理、使用合理合规。

其实数据架构有一个发展变化的过程,最早的数据架构只为业务处理不做任何分析,当时的BI工具由于数据库处理速度和存储价格的制约根本无法满足通用性和实时性的要求,用户往往需要等数周才能拿到原始报表,还必须要“数据专家”来为其定制所需的报表。好在在这一框架下数据治理及报告的准确性还算不错。

随着用户对报表实时性的要求越来越高,单线程处理的数据架构越来越无法满足这种需求,这种情况下不同部门建立起各自的数据竖井(Silos),使用自服务的报表工具为终端用户自动生成报表。虽然满足了实时性的要求,但数据治理方面缺比先前倒退了,

之后就出现了我们上图的数据架构。

作为现代化的企业数据架构,必须保证架构中的数据由业务驱动、高度整合(不存在数据孤岛)、 灵活、安全、易懂易治理以及可预测

随着企业数据样式的丰富,基于大数据的Data Lake逐渐替代传统基于结构化数据的Warehouse成为企业核心数仓,它能提供高效可扩展的数据平台,为各种数据源提供接入接口,为各种业务需求提供数据调用。

基于这样的灵活性,越来越多的开源厂家愿意为Hadoop提供各种各样的辅助功能,可以说在今后很长一段时间内都会成为企业数据架构的主流模型。因为这个平台已经构建了几乎完备的生态体系。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180714G0CIJI00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券