专栏首页智能计算时代数据湖与数据仓库:主要差异

数据湖与数据仓库:主要差异

问题4:数据库不仅仅是数据仓库的重访吗?

我们中的一些人更多地了解了数据湖,特别是在过去的六个月里。有些人告诉我们,数据湖只不过是数据仓库的转世,本着“去过那里”的精神,其他人则专注于这个“有光泽的,新的”数据湖有多好,而另一些则是站在海岸线尖叫,“不要进去!这不是一个湖 - 这是一个沼泽!“

所有的开玩笑,我看到两者之间的共同点是,他们都是数据存储库。而已。但是我正在超越自己。我们首先定义数据湖,确保我们都在同一页面上。Pentaho的创始人兼首席技术官James Dixon被认为是提出这个术语。这就是他如何描述一个数据湖:

“如果你想把一个数据集市看作一个瓶装水的存储 - 清洁和包装,并容易消费的结构 - 数据湖是一个更自然状态的大量水。数据湖的内容从一个源头填充到湖中,湖的各种用户可以来检查,潜水或采样。

今年早些时候,我的同事Anne Buff和我参加了关于数据湖的在线辩论。我的集会呼声是#GOdatalakeGO,而Anne坚持#NOdatalakeNO。以下是我们在辩论中使用的定义:

“数据湖是一个存储库,以原生格式存储大量原始数据,包括结构化,半结构化和非结构化数据。在需要数据之前,数据结构和需求是没有定义的。“

下表帮助充实这个定义。它还突出了数据仓库和数据湖之间的一些主要差异。这绝不是一个详尽的清单,但它确实使我们超越了这个“在那里,做到了”的心态:

我们来简单的看看每一个:

数据。数据仓库仅存储已建模/结构化的数据,而数据库不包含数据。它将其存储为全结构化,半结构化和非结构化的。[看我的大数据是不是新的图形。数据仓库只能存储橙色数据,而数据湖可以存储所有的橙色和蓝色数据。]

处理。在将数据加载到数据仓库之前,我们首先需要给它一些形状和结构,即我们需要对其进行建模。这就是所谓的写模式。有了数据湖,您只需按原样加载原始数据,然后在准备好使用数据时,就是在给定数据的形状和结构时。这就是所谓的模式在读。两种截然不同的方法。

存储。像Hadoop这样的大数据技术的主要特点之一是与数据仓库相比,存储数据的成本相对较低。这主要有两个原因:首先,Hadoop是开源软件,所以许可和社区支持是免费的。其次,Hadoop被设计成安装在低成本的商品硬件上。

敏捷。根据定义,数据仓库是一个高度结构化的仓库。改变结构在技术上并不困难,但考虑到与之相关的所有业务流程,这可能非常耗时。另一方面,数据湖缺乏数据仓库的结构 - 这使开发人员和数据科学家能够轻松地配置和重新配置他们的模型,查询和应用程序。

安全。数据仓库技术已经存在了数十年,而大数据技术(数据湖的基础)则相对较新。因此,保护数据仓库中的数据的能力比保护数据湖中的数据要成熟得多。但是,应该指出的是,目前大数据行业正在大力推行安全措施。这不是一个问题,而是什么时候。

用户。很长一段时间,大家一直在呼吁BI和分析!我们建立了数据仓库,并邀请“所有人”来,但他们来了吗?平均而言,有20-25%的人拥有。这个数据湖是否一样的呐喊?我们将建设数据湖,并邀请大家来?不,如果你聪明。相信我,一个数据湖,在这个成熟的阶段,最适合数据科学家。

为什么这很重要

作为营销人员,您可能会听到您的组织正在建立一个数据湖和/或您的营销数据仓库是一个候选人被迁移到这个数据湖。尽管数据仓库和数据库都是存储库,但数据仓库不是数据仓库2.0,也不是数据仓库的替代品,这一点很重要。

所以要回答这个问题 - 数据仓库不仅仅是数据仓库吗?- 我的意思是否定的。数据湖不是数据仓库。它们都针对不同的目的进行了优化,目标是将每个目标用于他们设计的目的。换句话说,使用最好的工具来完成这项工作。

本文分享自微信公众号 - 首席架构师智库(jiagoushipro),作者:南极真君

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据湖和数据仓库 - 了解其中的差异

    在过去的几年中,您可能已经听说某个地方放弃了“数据湖”这个词。随着数据量呈指数级增长,流式数据已经取消,非结构化数据持续低于结构化数据,这个概念已经越来越受到重...

    首席架构师智库
  • 探索机器学习中的数据科学

    原文作者:原微软技术与研究部门合伙人数据科学架构师Mario Garzia 译者:杜红光 数据科学与“大数据”已经成为21世纪高科技产业的流行语。而“大数据”这...

    首席架构师智库
  • 「存储架构」块存储、文件存储和对象存储(第1节)

    全球传输和生成的数据比以往任何时候都多。国际数据公司(IDC)的分析师预计,到2025年,全球数据层将增至163zb。这比2016年16.1 ZB的数据增长了1...

    首席架构师智库
  • 闲聊数据库和数据仓库的区别

    直观上理解:相同点是两者都是存储数据。不同点是数据库主要是基本的、日常的事务处理,例如银行交易;数据仓库,支持复杂的分析操作,侧重决策支持。

    木东居士
  • 胖子哥的大数据之路(一)-数据仓库也需要大数据

      大数据传统企业实施,其路漫漫,绝不会如昙花一现,探索大数据在传统行业的实施之路,寻找一条适合传统行业的企业大数据实施方法体系,是我执着坚守的信念,大数据是一...

    数据饕餮
  • 跟 Amazon 学入门级数据仓库架构

    我(Lewis Gavin)目前的工作角色是用 Amazon Redshift 来设计数据仓库。以我的经验,无论我们采用的是 Oracle 来搭建数仓,还是以 ...

    Lenis
  • 我在测试移动弱网时踩过的坑|洞见

    安丛 ThoughtWorks 什么是弱网测试 在当今移动互联网盛行的时代,网络的形态除了有线连接,还有2G/3G/Edge/4G/Wifi等多种手机网络连接...

    ThoughtWorks
  • ASM 翻译系列第十弹:ASM Internal ASM DISK header

    原作者:Bane Radulovic 译者: 庄培培 审核: 魏兴华 DBGeeK社群联合出品 ASM disk header ASM磁盘头可能是A...

    沃趣科技
  • 关于大数据的十个有力事实

    大数据文摘
  • 大数据怎么玩?如何开始大数据创业?

    经常有朋友通过知乎私信、微博私信、电子邮件、QQ和微信问我,如何进入大数据行业?该学哪些知识?大数据行业如何创业,到底先从哪里做起?我想,这些问题,并没有一个准...

    华章科技

扫码关注云+社区

领取腾讯云代金券