我听说了数据湖这个新名词。我在谷歌上查到了
数据湖是一个大规模的存储库和处理引擎.数据池提供“任何类型的数据的大量存储、巨大的处理能力和处理几乎无限并发任务或作业的能力”。 术语数据湖通常与面向Hadoop的对象存储相关联。在这种情况下,组织的数据首先加载到Hadoop平台,然后将业务分析和数据挖掘工具应用于其驻留在Hadoop的商品计算机集群节点上的数据。
Hadoop也做了同样的事情。我们有存储的HDFS和用于计算的MapReduce。我对Hadoop和数据湖有点困惑。两者之间的区别是什么。如果它们是相同的,为什么会出现这个词。或者如何定义数据湖。
发布于 2016-03-14 12:42:18
数据湖是一个抽象的“概念”。Hadoop是一种特定的技术/软件。您可以使用hadoop或使用不同的工具实现数据湖。
发布于 2016-06-29 16:23:59
Data是一种在系统中存储数据的方法,它可以方便地对各种模式和结构形式(通常是对象块或文件)中的数据进行排序。
数据湖的概念与Apache及其开源项目的生态系统密切相关。所有关于数据湖的讨论都会很快导致对如何使用Apache生态系统构建数据湖的描述。它之所以流行,是因为它提供了一种成本效益高、技术上可行的方法来应对大数据挑战。各组织正在发现数据湖,这是它们现有数据体系结构的一种发展。
跟随白皮书将成为使用Hadoop构建数据湖的最好示例。
发布于 2018-05-09 15:10:57
想到Data,最简单的方法就是想到这个大容器,它就像一个真正的湖泊,河流流入河流,你永远不知道这些河流来自哪里(或者“类型”河流)。
数据湖能够存储大量不同类型的数据(结构化数据、非结构化数据、日志文件、实时数据、图像等)。并将其融合在一起,将许多不同的数据类型联系起来。这里的关键是,我们正从传统的方式转向现代工具(,如Hadoop、Cassandra、NoSQL DB等)。
我们正在创建大量的数据,如果我们能够对其进行分析,我们可能会从中得到一些价值。我们可以使用云来获取这些数据,在商店中将其收集起来,并进行分析。在Azure,我们有Azure Data 。我们可以把所有的数据存储在Azure数据湖商店。Azure就像一个基于云的文件服务或文件系统,其大小几乎是无限的。
我们可以在存储的数据之上运行服务。因此,您可以在HDInsight集群中使用Hadoop或Spark,也可以使用Azure数据湖分析服务,这是对Azure Data的补充。该服务允许您运行作业,有效地查询存储在Azure data存储中的数据,并生成输出结果。
Azure数据湖商店是我们可以存储所有我们想要分析的数据的地方。Azure作为一种服务,我们可以运行作业来查询数据以生成某种类型的输出进行分析。Hadoop是/(开放源码分布式数据处理集群技术)的具体技术。您可以使用hadoop或使用不同的工具实现数据湖。
https://stackoverflow.com/questions/35987508
复制相似问题