专栏首页数据派THU独家 | 一文盘点数据集市和数据仓库的差异(附链接)

独家 | 一文盘点数据集市和数据仓库的差异(附链接)

作者:By Gilad David Maayan

翻译:王雨桐

校对:丁楠雅

本文约1600字,建议阅读10分钟

本文从基本定义入手分析数据集市和数据仓库的差异,并分析了各自的适用情况。

当一家企业开始应用商业智能(Business Intelligence,BI)的战略和技术时,首先需要明确数据集市和数据仓库的区别。理解这种差异将决定你采用何种BI架构和数据驱动决策。

商业智能的目标是运用技术将数据转化为可执行的想法,并帮助终端用户在信息更完备的情况下做出商业决定,不论是理论战略还是实际战略。在阐述各自的实例和结构特点前,本文将先对各自的重要概念进行定义。

数据集市定义

数据集市是一个面向主题的数据存储库,其服务于特定的业务领域,如金融或销售。以下是数据集市的一些重要的典型特征。

  • 仅包含与特定业务或功能单元相关的源数据。
  • 数据集市的规模通常是几十GB的数量级。
  • 通常只保存汇总数据,一些数据集市可能会包含完整的细节。
  • 数据集市的搭建要花费不少于一万美元,以及3-6个月的时间。
  • 基于数据集市工具得到的决策是影响特定部门运营方式的战术决策。

数据仓库定义

数据仓库是用于一个企业内的存储库,包含来自不同业务、系统和部门的集成数据。关于数据仓库类型,请参照如下文章。

附链接: https://blog.panoply.io/i-choose-you-criteria-for-selecting-a-data-warehouse-platform

以下是数据仓库的特征:

  • 包含来自业务中的多个单元/主题区域的数据。
  • 数据仓库的大小通常为TB量级,至少也要超过100GB。
  • 存储的详细信息级别很高,包括原始数据、汇总数据和元数据。
  • 然而,搭建内部系统的成本通常要超过10万美元,而随着数据仓库服务的普及,云计算模式降低了成本。
  • 特定工具的业务用户想通过数据仓库信息来做出更明智的战略业务决策,这会影响整个公司。

经典的Inmon 和 Kimball争论

区分数据集市和数据仓库是非常重要的,这源于数据仓库先驱Bill Inmon和Ralph Kimball提出的两种截然不同的数据建模方法之间的争论。

Ralph Kimball认为,最好的方法是从最重要的业务方面或部门入手,从这些方面可以产生面向特定业务线的数据集市。随着时间的推移,企业可以根据需要合并其数据集市以形成数据仓库。Kimball的方法被称为自下而上(bottom-up)。

Bill Inmon认为仅仅将数据集市结合起来是不够的。他提倡创建数据仓库,作为企业数据模型的物理表示,可以根据需要为特定的业务单元创建数据集市。

每种方法都有各自的优点,许多因素会影响你的决定。应该从数据集市入手,还是从数据仓库入手,要基于你从事的行业考虑。

例如,保险公司显然需要从一开始就有一个高层次的概述,包括所有影响其业务模型和战略选择的因素,包括人口统计数据、股票市场趋势、索赔历史、统计概率等,因此采用Inmon方法并从数据仓库开始是最有意义的。

对于中小型营销企业来说,从数据集市入手更合适。如果该业务扩展,未来会包括多个子部门和业务线,可以在以后将每个业务线的数据集市合并到数据仓库中,就像Kimball方法一样。

结构化细节

大多数数据库都是规范化的,这样优化可以使事务处理的速度更快,比如添加或删除数据。规范化的工作方式是重新组织数据,使其不包含冗余数据,并将相关数据分离到表中,在指定关系的表之间使用连接。

数据仓库/市场通常使用非规范化的数据结构,其中管理员通过向规范化数据添加冗余数据来减少分析查询的运行时间,从而提高查询性能。

一个重要的概念是提取、转换和加载(ETL)。ETL从多个数据源提取数据,基于特定的规则对数据进行转换以满足业务需求,最后将数据加载(写入)到目标系统中。

如果从数据仓库入手,通常使用ETL将数据直接从源系统获取到数据仓库,然后根据需要从数据仓库获取到数据集市。如果采用Kimball方法并从数据集市入手,只需将相关源系统中的数据写入适当的数据集市,然后再执行ETL过程,以便从数据集市创建数据仓库。

小结

由于时间限制和资源限制,除了最成熟的企业之外,所有企业都应该从数据集市开始,并随着时间的推移逐步开发数据仓库。然而,云计算缩短了时间并降低了构建企业数据仓库的成本,企业数据仓库可以提供对组织数据的单一视图的访问。

原文标题: The Difference Between a Data Mart and a Data Warehouse 原文链接: http://www.dataversity.net/difference-data-mart-data-warehouse/

本文分享自微信公众号 - 数据派THU(DatapiTHU)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 云从科技正式发布国家人工智能平台

    2018年10月12日,「国家人工智能基础资源公共服务平台发布会暨第二届人工智能金融创新峰会」在北京开幕。

    计算机视觉战队
  • 2018最强程序员进阶学习路线图!

    比如,如何利用技术变现、如何面试、如何选择新的技术、如何学习、如何管理自己的时间、如何管理自己的老板和工作、如何成为一个Leader……这些东西都是耗子对自己多...

    Java技术栈
  • 京东金融研究院:共建智能化财富管理生态圈—财富管理与金融科技的融合创新

    点滴科技资讯
  • 腾讯金融业务估值千亿美金?相当于5个京东金融

    大家都知道,腾讯投资了京东,而且目前是京东的第一大股东。刘强东也把自己视作腾讯系的一员,协同腾讯发展新零售业务。京东除了电商以外,还重点发展了京东金融,目前估值...

    光荣与梦想1987
  • 凡秘APP上线背后:通过场景化服务加速生态战略布局

    金融科技的浪潮里,水深鱼多。尽管行业经历过争抢捕鱼的乱象,但在强监管与严整治之后,行业正快速分化。

    曾响铃
  • 我在第十三届中国金融CIO年会上的分享

    近年来,中国金融行业快速发展,整体趋势是开放。而开放的核心是通过开放金融业应用接口、实现跨界合作,最终打造互联网金融服务的生态圈。也就是我们提到的API经济。

    魏新宇
  • 金融稳定理事会:加密数字资产影响未来金融稳定的潜在机制

    点滴科技资讯
  • 那些不重视行业背景的程序员,后来怎么样了?

    国庆期间是读书的好时候,带一本陌生的书,去一个陌生的地方,在秋日的阳光里,享受着山间气息与阅读带来的充实感,这大概是人生最美好的时刻之一了。

    纯洁的微笑
  • 盘点全球30家顶尖金融科技创新实验室

    点滴科技资讯
  • 继苹果后,亚马逊和超微要求彭博社撤回间谍芯片报道

    美国国土安全部、国家安全局和英国最高网络安全机构的官员也表示,他们未发现任何与彭博社的指控相符合的证据。

    镁客网

扫码关注云+社区

领取腾讯云代金券