前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据湖与数据仓库:主要差异

数据湖与数据仓库:主要差异

作者头像
首席架构师智库
发布2020-03-20 10:42:44
1K0
发布2020-03-20 10:42:44
举报
文章被收录于专栏:超级架构师超级架构师

问题4:数据库不仅仅是数据仓库的重访吗?

我们中的一些人更多地了解了数据湖,特别是在过去的六个月里。有些人告诉我们,数据湖只不过是数据仓库的转世,本着“去过那里”的精神,其他人则专注于这个“有光泽的,新的”数据湖有多好,而另一些则是站在海岸线尖叫,“不要进去!这不是一个湖 - 这是一个沼泽!“

所有的开玩笑,我看到两者之间的共同点是,他们都是数据存储库。而已。但是我正在超越自己。我们首先定义数据湖,确保我们都在同一页面上。Pentaho的创始人兼首席技术官James Dixon被认为是提出这个术语。这就是他如何描述一个数据湖:

“如果你想把一个数据集市看作一个瓶装水的存储 - 清洁和包装,并容易消费的结构 - 数据湖是一个更自然状态的大量水。数据湖的内容从一个源头填充到湖中,湖的各种用户可以来检查,潜水或采样。

今年早些时候,我的同事Anne Buff和我参加了关于数据湖的在线辩论。我的集会呼声是#GOdatalakeGO,而Anne坚持#NOdatalakeNO。以下是我们在辩论中使用的定义:

“数据湖是一个存储库,以原生格式存储大量原始数据,包括结构化,半结构化和非结构化数据。在需要数据之前,数据结构和需求是没有定义的。“

下表帮助充实这个定义。它还突出了数据仓库和数据湖之间的一些主要差异。这绝不是一个详尽的清单,但它确实使我们超越了这个“在那里,做到了”的心态:

我们来简单的看看每一个:

数据。数据仓库仅存储已建模/结构化的数据,而数据库不包含数据。它将其存储为全结构化,半结构化和非结构化的。[看我的大数据是不是新的图形。数据仓库只能存储橙色数据,而数据湖可以存储所有的橙色和蓝色数据。]

处理。在将数据加载到数据仓库之前,我们首先需要给它一些形状和结构,即我们需要对其进行建模。这就是所谓的写模式。有了数据湖,您只需按原样加载原始数据,然后在准备好使用数据时,就是在给定数据的形状和结构时。这就是所谓的模式在读。两种截然不同的方法。

存储。像Hadoop这样的大数据技术的主要特点之一是与数据仓库相比,存储数据的成本相对较低。这主要有两个原因:首先,Hadoop是开源软件,所以许可和社区支持是免费的。其次,Hadoop被设计成安装在低成本的商品硬件上。

敏捷。根据定义,数据仓库是一个高度结构化的仓库。改变结构在技术上并不困难,但考虑到与之相关的所有业务流程,这可能非常耗时。另一方面,数据湖缺乏数据仓库的结构 - 这使开发人员和数据科学家能够轻松地配置和重新配置他们的模型,查询和应用程序。

安全。数据仓库技术已经存在了数十年,而大数据技术(数据湖的基础)则相对较新。因此,保护数据仓库中的数据的能力比保护数据湖中的数据要成熟得多。但是,应该指出的是,目前大数据行业正在大力推行安全措施。这不是一个问题,而是什么时候。

用户。很长一段时间,大家一直在呼吁BI和分析!我们建立了数据仓库,并邀请“所有人”来,但他们来了吗?平均而言,有20-25%的人拥有。这个数据湖是否一样的呐喊?我们将建设数据湖,并邀请大家来?不,如果你聪明。相信我,一个数据湖,在这个成熟的阶段,最适合数据科学家。

为什么这很重要

作为营销人员,您可能会听到您的组织正在建立一个数据湖和/或您的营销数据仓库是一个候选人被迁移到这个数据湖。尽管数据仓库和数据库都是存储库,但数据仓库不是数据仓库2.0,也不是数据仓库的替代品,这一点很重要。

所以要回答这个问题 - 数据仓库不仅仅是数据仓库吗?- 我的意思是否定的。数据湖不是数据仓库。它们都针对不同的目的进行了优化,目标是将每个目标用于他们设计的目的。换句话说,使用最好的工具来完成这项工作。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 首席架构师智库 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档