首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >首先是数据湖还是数据仓库?

首先是数据湖还是数据仓库?
EN

Database Administration用户
提问于 2022-05-13 12:30:14
回答 1查看 225关注 0票数 2

我一直困惑着是要创建一个数据湖还是一个数据仓库,希望一些有经验的现实世界的专业人士能给我一些启示。

我想用我从多个来源(IoT设备、API等)摄取的数据来存储、可视化和执行机器学习。我读到,在我们所处的当前环境中,企业将同时需要数据湖和数据仓库。

我的问题是:

  1. 我是否应该先创建一个数据湖,然后从湖中转换/处理这些原始数据,并将其摄取到数据仓库中?
  2. 还是数据湖本身是一个独立的数据处理管道?
  3. 还是这取决于用例?

这就是我一直在想的:

PS:如果这是错误的StackExchange,请告诉我,谢谢:)

EN

回答 1

Database Administration用户

回答已采纳

发布于 2022-05-13 12:51:52

海事组织,最近有很多类似和重叠的术语(数据湖、数据沼泽、数据仓库等),我不会太在意。

数据湖是收集不同数据来源的非正式场所。它们可以是灵活的,不一定需要坚持固定的模式,但可以遵循一个模式。

数据仓库被更正式地定义,并将这些不同的数据源统一到一个公共结构中,这样就可以很容易地构建消耗的应用程序和报告。

因此,您的问题的答案是,它仅仅取决于您的用例,您需要使用多少不同类型的数据和源,如果使用data作为中间步骤,那么在对该数据应用ETL (实际上是转换部分)处理之前,更容易完成您的用例。

如果您的所有数据源都已经遵循了一个相当常见的模式,那么通常您可以直接将ETL直接放到数据仓库中,然后跳过Lake。但是,有时在提取原始数据时使用Data来保存它是很好的,以便以后需要某种程度的协调和调试。它在您触摸数据之前添加了一个数据层,将其转换为仓库。

票数 1
EN
页面原文内容由Database Administration提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://dba.stackexchange.com/questions/312092

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档