我一直困惑着是要创建一个数据湖还是一个数据仓库,希望一些有经验的现实世界的专业人士能给我一些启示。
我想用我从多个来源(IoT设备、API等)摄取的数据来存储、可视化和执行机器学习。我读到,在我们所处的当前环境中,企业将同时需要数据湖和数据仓库。
我的问题是:
这就是我一直在想的:
PS:如果这是错误的StackExchange,请告诉我,谢谢:)
发布于 2022-05-13 12:51:52
海事组织,最近有很多类似和重叠的术语(数据湖、数据沼泽、数据仓库等),我不会太在意。
数据湖是收集不同数据来源的非正式场所。它们可以是灵活的,不一定需要坚持固定的模式,但可以遵循一个模式。
数据仓库被更正式地定义,并将这些不同的数据源统一到一个公共结构中,这样就可以很容易地构建消耗的应用程序和报告。
因此,您的问题的答案是,它仅仅取决于您的用例,您需要使用多少不同类型的数据和源,如果使用data作为中间步骤,那么在对该数据应用ETL (实际上是转换部分)处理之前,更容易完成您的用例。
如果您的所有数据源都已经遵循了一个相当常见的模式,那么通常您可以直接将ETL直接放到数据仓库中,然后跳过Lake。但是,有时在提取原始数据时使用Data来保存它是很好的,以便以后需要某种程度的协调和调试。它在您触摸数据之前添加了一个数据层,将其转换为仓库。
https://dba.stackexchange.com/questions/312092
复制相似问题