我们为什么需要统一的数据仓库,统一的数据仓库能给业务带来什么好处理?想要回答这个问题,那就要先搞清楚这个问题的反面。也就是如果不建立统一的数据仓库会带来什么破坏性的结果,会给业务带来什么负面的影响。
常用的数据仓库架构ODS-DWD-DWS-ADS
数据孤岛和烟囱式建设
什么是数据孤岛?通俗解释:数据孤岛就像一座座与世隔绝的岛屿,每个岛屿(部门或系统)都有自己的数据,但这些数据无法与其他岛屿互通。例如,公司的人力资源系统和财务系统各自独立,员工信息需要手动在两个系统间同步,导致重复劳动、信息不一致甚至错误。
什么是烟囱式建设?通俗解释:烟囱式建设好比每个部门都建了一座“高楼”(系统),但这些高楼彼此独立、互不相连。例如,企业为销售、采购、生产分别开发系统,但这些系统无法共享客户或库存数据,导致重复投入和维护成本高企。
从上面的解释可以看出来,数据孤岛和烟囱式建设不是数据仓库建设里独有的现象。这些现象也同样存在于业务系统之中。大家在日常生活中就有很强烈的感受。像以前业务系统还没有打通的时候,就真的像是一座座数据孤岛一样的。同样一份材料需要反反复复地进行填写。
但是随着信息化建设的进步和完善,现在同样的一个信息一处填写后就可以多处使用了。就像你的身份信息,现在都是电子化了,只要你登记过一次,很多地方都可以一键带出你的基本信息了。这就是消除数据孤岛带来的好处了。
建设数据仓库的必要性
回到数仓中,数据孤岛同样也有可能会存在。产生的原因是多种多样的,有可能是建设初期就没有统一。而是各部门自己想要建设自己的,没有和其它部门拉通。也有可能是在初期,各部门想要快速输出自己的报表。大家注意,这里的前提都是建设初期。为什么会有这样一个前提存在呢。因为如果到了中期的后期还没有消除数据孤岛的话,那数他能发挥的作用就会很有限。不仅不会帮忙到业务的增长,反而会反过来限制了业务。最终导致数仓的建设失败。
大家可以想象一下,同样的一份数据,在A部门的数仓出现了一次,在B部门的数仓里又出现了一次。而这两份数据从名字上看是一样的,例如是销售情况分析。但是翻出来一看,A部门的统计口径和B部门的统计口径完全不一样,而且显现出的维度也完全不一样。如果你是公司老板,看到这样两份报告会是什么感觉?
所以消除数据孤岛,整合出一个统一、一致的数仓,最终才能真正地帮助到业务,助力业务的增长。
如何建设数据仓库
而数据仓库建设首先要从架构设计上建立一个合理分层,业务架构统一的规划。
像文章最开头上的数据架构图所展示的,统一的数据分层主要包括:ODS->DWD->DWS->ADS和维度层(主数据)。
1.ODS(OperationalDataStore)
中文为操作数据存储层,主要用于存储从业务系统直接采集的原始数据,保持与源系统一致的结构和内容,不进行深度加工。例如,企业ERP、CRM系统的原始日志和业务表会直接落地到ODS层。
2.DWD(DataWarehouseDetail)
中文为数据明细层,负责对ODS层数据进行清洗、标准化和维度退化等处理,生成规范化的明细数据。例如,去除空值、脏数据,统一字段命名和格式,并将部分维度字段冗余到事实表中以减少关联复杂度。
这一层非常的重要,公共性的业务口径一般都会在这一层进行体现。这样一来,业务口径发生变化的话,那下游引用这一层的表就不需要改动。这样可以最快速响应业务逻辑的变化。
3.DWS(DataWarehouseService 或Summary)
中文为数据服务层或汇总层,基于DWD层明细数据按业务主题进行轻度或重度聚合,生成宽表以提升查询效率。例如,将用户行为日志按日聚合为“用户日活宽表”。不同资料中命名可能略有差异,Service更强调服务化能力,Summary更侧重聚合特性。
4.ADS(ApplicationDataService)
中文为数据应用层,存放面向最终业务场景的加工结果数据,如报表、推荐模型输出等,通常直接对接BI工具或前端应用。例如,电商的“双十一实时销量看板”数据就存储在此层。
5.DIM(Dimension)层是数据仓库中的维度层,专门用于存储和管理描述业务实体的维度数据,例如时间、产品、客户、地理位置等。其核心作用是为事实数据(如销售额、订单量)提供上下文背景,支持多维分析、数据切片和业务指标的可解释性。
这一层是贯穿整个数仓的,维度层建立后,数仓的各层都可以引用。对于那些没有将维度字段冗余的表,后续只要维表数据发生了变化,那事实数据也可以直接看到最新数据。
总结:数据治理的破局与新生
数据孤岛与烟囱式建设本质上是企业数字化转型中的"成长痛",而分层数仓架构正是化解这一痛点的系统性处方。通过ODS的原始镜像留存、DWD的标准化治理、DWS的领域化提纯、ADS的场景化输出,配合DIM层构建的统一业务坐标系,企业实现了三个关键突破:
打破数据藩篱
统一加工链路让财务的"应收账款"与供应链的"在途库存"产生化学反应,客服的投诉分类与研发的故障代码形成关联映射,数据真正成为跨部门协作的语言。
消灭重复劳动
某零售企业曾需20人团队手工核对各系统数据,架构落地后,90%的指标实现"一次加工,全局复用",数据团队得以聚焦深度分析。
建立信任基石
当所有报表溯源至同一份DWD层数据时,高层会议上不再出现"数据打架"的尴尬场景,用某CEO的话说:"现在争论焦点终于回归到业务决策本身"。
这揭示了一个本质规律:数据架构的本质不是技术堆砌,而是通过规范化的数据生产关系,释放埋藏在业务系统中的数据生产力。当企业建立起"全链路同频、跨领域共振"的数据生态时,那些曾经阻碍发展的数据壁垒,反而会转化为驱动创新的数据资产。正如航海时代打破孤岛成就全球化贸易,数字化时代打破数据孤岛的企业,必将率先驶入智能商业的新蓝海。
领取专属 10元无门槛券
私享最新 技术干货