什么是hadoop和Spark?它们是大数据生态圈的哪一环?

  • 回答 (7)
  • 关注 (0)
  • 查看 (1408)

大数据”这个名词越来越多进入我们的视野。大数据的快速发展也在无时无刻影响着我们的生活。

那大数据究竟是什么呢?

在大数据生态圈中hadoop和Spark扮演着什么样的角色?

博乖乖博乖乖提问于
宮園薰回答于

大数据指的是那些数据量特别大,数据类型特别复杂的数据集。

这些数据集无法使用传统的数据库进行存储、管理和处理。大数据的主要特点为:数据量大(Volume),数据类型特别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来称为 4V

HDFS

大数据技术首要的要求就是先把数据存下来。HDFS(Hadoop Distributed FileSystem)的设计本质就是为了大量的数据能够横跨成千上万台机器存储,但是对于用户来说看到的是一个文件系统而不是许多文件系统

MapReduce

能够存储数据后,接下来就要考虑怎么处理数据了。一台计算机处理成 T 上 P 的数据可能需要几天甚至好几周,对于大部分公司都是不可接受的。

Hive

在使用了一段时间的 MapReduce 以后,程序员发现 MapReduce 的程序写起来太麻烦。希望能够封装出一种更简单的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。Pig 是以类似脚本的方式去描述 MapReduce,而 Hive 则是以 SQL 的方式。

这些 应该就是数据仓库的主要内容了。首先底层是 HDFS,上面运行的是 MapReduce/Tez/Spark,在往上封装的是 Pig 和 Hive。

Storm

如果想要更快的计算速度,比如视频网站的热博榜,要求更新延迟在一分钟内,上面的任何一种手段都无法胜任。于是 Streaming(流)计算模型被开发出来了。Storm 是最流行的流计算平台。流处理的思路就是在数据进入系统的时候就进行处理,基本无延迟。

HBase

HBase 是一个构建与 HDFS 的分布式,面向列的存储系统。以 kv 对的方式存储数据并对存取操作做了优化,能够飞快的根据 key 获取绑定的数据。

Other

当然还有一些其他组件,比如Nutch 是搜索引擎,Mahout 是机器学习和推荐引擎,诸如此类等等等。。。。

yarn

为了使这么多工具有序的运行在同一个集群上,还需要使用一个调度系统进行协调指挥。目前流行的是使用 yarn 来进行管理。

这些应该就是比较主流的大数据处理套件了,希望对题主有所帮助

事情来得太突然资深菜鸟回答于

Hadoop是一个对海量数据进行处理的分布式系统架构,可以理解为Hadoop就是一个对大量的数据进行分析的工具,和其他组件搭配使用,来完成对大量数据的收集、存储和计算。

Hadoop框架最核心的设计就是:HDFS 和 MapReduce。

可以看下图:

应该说的比较清楚了~

全球资讯翻译官为您提供人工智能,机器学习,神经网络等技术的前沿资讯回答于

先回答题主的第一个问题:

Hadoop 是什么?

  1. Hadoop 是 Apache 旗下的一套开源软件平台。
  2. Hadoop 可以利用计算机集群,根据用户自定义的业务逻辑对海量数据进行分布式处理。
  3. 通常我们说的 Hadoop 是指一个更广泛的概念--Hadoop 生态圈。

这个就是两个大数据处理框架 Hadoop 和 Spark。蓝色部分是 Hadoop 的生态圈组件,黄色部分是 Spark 生态圈组建。这两个框架之间的关系并不是互斥的,它们之间既有合作,补充又有竞争。比如 Spark 提供的实时内存计算是比 Hadoop 中 MapReduce 快的多的技术,但是 Spark 又依赖于 Hadoop 中的 HDFS 来存储数据。虽然 Spark 也可以基于于别的系统进行搭建,但是大家一致认为 Spark 和 Hadoop 更配。

从技术的的角度来解释,大数据就是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

成都加米谷大数据回答于

简单点来说,Hadoop和Spark都是大数据计算框架。Hadoop有狭义和广义之分,狭义的Hadoop,是指核心的三组件,及MapReduce、HDFS和Yarn,而通常拿来与Spark相提并论做比较的,准确来说应该是核心计算引擎——MapReduce。所以如果一定要说属于大数据生态圈的哪一环的话,应当是大数据计算环节。

最初的Spark,出现的契机,就是为了弥补MapReduce在计算性能上的不足,MapReduce所针对的核心场景,是大批量离线计算,而随着实时性的要求不断提高,MapReduce有了局限。而Spark则是在MapReduce模式下的一次“优化”,将计算中间结果存储与内存当中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。

Spark计算引擎的思想,实质上还是使用的MapReduce的“套路”,所以算不上真正意义上的实时计算,通常我们都称之为“准实时计算”,虽然赶不上真的实时计算,但是计算速度已然提升了很多,在实际计算场景当中,也能够满足大部分的任务需求,又因为与Hadoop能够很好地集成,因此得到重用,甚至比真正的实时计算框架Storm显得更受欢迎。

而发展至今,Hadoop和Spark仍然占据重要的地位,但是也不乏新兴的技术框架,比如Flink,这几年的热度也非常高。

chocolateboyiOS工程师回答于

感觉接触大数据用的比较多的还是 推荐系统了

software微软、谷歌、腾讯、阿里、百度……回答于

我们所谈论的大数据实际上更多是从应用的层面,比如某公司搜集、整理了大量的用户行为信息,然后通过数据分析手段对这些信息进行分析从而得出对公司有利用价值的结果。

比如:头条的推荐机制,就是建立在对海量用户的阅读信息的搜集、分析之上。这就是大数据在现实中具体体现。

扫码关注云+社区

领取腾讯云代金券