首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Hadoop Vs数据湖

Hadoop Vs数据湖
EN

Stack Overflow用户
提问于 2016-03-14 12:24:50
回答 7查看 19K关注 0票数 16

我听说了数据湖这个新名词。我在谷歌上查到了

数据湖是一个大规模的存储库和处理引擎.数据池提供“任何类型的数据的大量存储、巨大的处理能力和处理几乎无限并发任务或作业的能力”。 术语数据湖通常与面向Hadoop的对象存储相关联。在这种情况下,组织的数据首先加载到Hadoop平台,然后将业务分析和数据挖掘工具应用于其驻留在Hadoop的商品计算机集群节点上的数据。

Hadoop也做了同样的事情。我们有存储的HDFS和用于计算的MapReduce。我对Hadoop和数据湖有点困惑。两者之间的区别是什么。如果它们是相同的,为什么会出现这个词。或者如何定义数据湖。

EN

回答 7

Stack Overflow用户

发布于 2016-03-14 12:42:18

数据湖是一个抽象的“概念”。Hadoop是一种特定的技术/软件。您可以使用hadoop或使用不同的工具实现数据湖。

票数 17
EN

Stack Overflow用户

发布于 2016-06-29 16:23:59

Data是一种在系统中存储数据的方法,它可以方便地对各种模式和结构形式(通常是对象块或文件)中的数据进行排序。

数据湖的概念与Apache及其开源项目的生态系统密切相关。所有关于数据湖的讨论都会很快导致对如何使用Apache生态系统构建数据湖的描述。它之所以流行,是因为它提供了一种成本效益高、技术上可行的方法来应对大数据挑战。各组织正在发现数据湖,这是它们现有数据体系结构的一种发展。

跟随白皮书将成为使用Hadoop构建数据湖的最好示例。

票数 7
EN

Stack Overflow用户

发布于 2018-05-09 15:10:57

想到Data,最简单的方法就是想到这个大容器,它就像一个真正的湖泊,河流流入河流,你永远不知道这些河流来自哪里(或者“类型”河流)。

数据湖能够存储大量不同类型的数据(结构化数据、非结构化数据、日志文件、实时数据、图像等)。并将其融合在一起,将许多不同的数据类型联系起来。这里的关键是,我们正从传统的方式转向现代工具(,如Hadoop、Cassandra、NoSQL DB等)。

我们正在创建大量的数据,如果我们能够对其进行分析,我们可能会从中得到一些价值。我们可以使用云来获取这些数据,在商店中将其收集起来,并进行分析。在Azure,我们有Azure Data 。我们可以把所有的数据存储在Azure数据湖商店。Azure就像一个基于云的文件服务或文件系统,其大小几乎是无限的。

我们可以在存储的数据之上运行服务。因此,您可以在HDInsight集群中使用Hadoop或Spark,也可以使用Azure数据湖分析服务,这是对Azure Data的补充。该服务允许您运行作业,有效地查询存储在Azure data存储中的数据,并生成输出结果。

Azure数据湖商店是我们可以存储所有我们想要分析的数据的地方。Azure作为一种服务,我们可以运行作业来查询数据以生成某种类型的输出进行分析。Hadoop是/(开放源码分布式数据处理集群技术)的具体技术。您可以使用hadoop或使用不同的工具实现数据湖。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35987508

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档