【大数据框架】Hadoop和Spark的异同

谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨一起看下它们究竟有什么异同。

1

解决问题的层面不一样

首先,Hadoop 和 Apache Spark 两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop 实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。

同时,Hadoop 还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

2

两者可合可分

Hadoop 除了提供为大家所共识的 HDFS 分布式数据存储功能之外,还提供了叫做 MapReduce 的数据处理功能。所以这里我们完全可以抛开 Spark,使用 Hadoop 自身的 MapReduce 来完成数据的处理。

相反,Spark 也不是非要依附在 Hadoop 身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择 Hadoop 的 HDFS,也可以选择其他的基于云的数据系统平台。但 Spark 默认来说还是被用在 Hadoop 上面的,毕竟,大家都认为它们的结合是最好的。

以下是天地会珠海分舵从网上摘录的对 MapReduce 的最简洁明了的解析:

我们要数图书馆中的所有书。你数 1 号书架,我数 2 号书架。这就是“Map”。我们人越多,数书就更快。

现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

3

Spark 数据处理速度秒杀 MapReduce

Spark 因为其处理数据的方式不一样,会比 MapReduce 快上很多。MapReduce 是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群,等等…“ Booz Allen Hamilton 的数据科学家 Kirk Borne 如此解析。

反观 Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,” Born 说道。Spark 的批处理速度比 MapReduce 快近 10 倍,内存中的数据分析速度则快近 100 倍。

如果需要处理的数据和结果需求大部分情况下是静态的,且你也有耐心等待批处理的完成的话,MapReduce 的处理方式也是完全可以接受的。

但如果你需要对流数据进行分析,比如那些来自于工厂的传感器收集回来的数据,又或者说你的应用是需要多重数据处理的,那么你也许更应该使用 Spark 进行处理。

大部分机器学习算法都是需要多重数据处理的。此外,通常会用到 Spark 的应用场景有以下方面:实时的市场活动,在线产品推荐,网络安全分析,机器日记监控等。

4

灾难恢复

两者的灾难恢复方式迥异,但是都很不错。因为 Hadoop 将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。

Spark 的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。“这些数据对象既可以放在内存,也可以放在磁盘,所以 RDD 同样也可以提供完成的灾难恢复功能,”Borne 指出。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2016-01-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏原创

个推 Spark实践教你绕过开发那些“坑”

Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大地提高处理速度,特别是复杂的迭代计算。Spark主要包括SparkSQL...

40510
来自专栏加米谷大数据

Spark适用场景以及与Hadoop MapReduce优势对比

3153
来自专栏我是攻城师

Hadoop/Spark生态圈里的新气象

3795
来自专栏CDA数据分析师

别再比较Hadoop和Spark了,那不是设计人员的初衷

对Hadoop与Spark孰优孰劣这个问题,最准确的观点就是,设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。 直接比较Hadoop和Spark...

2188
来自专栏大数据技术学习

Storm与Spark、Hadoop三种框架对比

Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。

2962
来自专栏我是攻城师

ES-Hadoop插件介绍

5606
来自专栏开源优测

大数据测试学习笔记之hadoop家族

前言 在进行大数据测试之前,我们必须了解下大数据处理的的相关技术体系,今天主要学习和了解了hadoop家族,这里记录下来分享给大家。 hadoop家族产品 ha...

3066
来自专栏大数据

使用Hadoop分析大数据

大数据由于其庞大的规模而显得笨拙,并且大数据需要工具进行高效地处理并从中提取有意义的结果。Hadoop是一个用于存储,分析和处理数据的开源软件框架和平台。本文是...

1782
来自专栏CSDN技术头条

MapReduce谢幕,谁将成为最终的接棒者?

【编者按】MapReduce,曾Hadoop的杀手级组件,被广泛运用于海量数据分析场景。然而时过境迁,随着新型资源管理器YARN的发布,Spark等各种计算框架...

1959
来自专栏Spark学习技巧

干货 | 如何成为大数据Spark高手

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和...

3218

扫码关注云+社区

领取腾讯云代金券