数据湖
数据湖里存放了公司来自各个业务系统的数据,包括结构化数据、非结构化数据(比如日志、邮件、音频等),这些数据完全没有经过清洗,原始系统什么样,在数据湖中就怎样存储。
什么时候使用数据湖
数据仓库
数据仓库汇总有可能有很多维度数据的统计分析结果,取百家之长(各个数据源的数据),成就自己的一方天地(规划各种业务域的模型,指标)。
关于数据仓库的详细介绍可参考之前的一篇文章:数据分析师应该了解的数据仓库(1)
数据湖和数据仓库如何选择
如果您目前已经拥有完善的数据仓库,当然不建议删除它重新开始。但是,建议你在建设数据仓库的同时,实施一个数据湖。数据仓库可以继续照常运行,开始用新的数据源填充数据湖,可以将其用于收集所有业务系统数据,然后进行向下建设,沉淀部分数据到数据仓库。
关于数据湖和数据仓库的区别可以参考上一篇文章:数据分析师应该了解的数据湖
数据集市
简单来说,数据集市是数据仓库的一个子部分,专门为特定部门/业务功能设计和构建的。
为什么选择数据集市
数据集市和数据仓库的区别
所以,对于大型企业来说,数据湖,数据仓库,数据集市都是共存的,针对不同的用户和部分使用。
拓展: