大数据之Hadoop vs. Spark,如何取舍?

Hadoop在大数据领域享有多年垄断权,随着该领域开始出现新生力量,其统治地位正在逐渐下滑。年初的调查中,Hadoop被列为2018年大数据领域的“渐冻”趋势之一,Gartner的调查也揭示了Hadoop使用量的下滑,不少人将Hadoop称作“倒下的大象”,比如Lucidworks首席执行官Will Hayes。

如果Hadoop开始进入寒冬期,率先崛起的会是呼声最高的Spark吗?

笔者曾经看过一个非常有趣的比喻,Hadoop是第一家大型包工队,可以组织一大堆人合作(HDFS)搬砖盖房(用MapReduce),但是速度比较慢。

Spark是另一家包工队,虽然成立得晚一些,但是他们搬砖很快很灵活,可以实时交互地盖房子,比Hadoop快得多。

Hadoop开始升级,指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS,Cassandra,S3,HBase),还允许不同专家如YARN/ MESOS对人员和任务进行调度。

当然,他们两家并不是水火不容。Spark经常和Hadoop团队合作,这让问题变得更加复杂。不管怎么说,Spark和Hadoop都是两个独立的包工队,都有着各自的优缺点和特定的业务用例。

所以,最后,哪一家会胜出呢?

本文将从这两大系统的体系结构,性能,成本,安全性和机器学习能力等方面进行比较。

Hadoop是什么?

现在恐怕没有人会问“Hadoop是什么?”这个问题了,因为它实在是太火了!Hadoop在2006年开始成为雅虎项目,随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构,具有多个组件:Hadoop分布式文件系统(HDFS),它将文件以Hadoop本机格式存储并在集群中并行化; YARN,协调应用程序运行时的调度程序; MapReduce,这是实际并行处理数据的算法。Hadoop使用Java编程语言构建,其上的应用程序也可以使用其他语言编写。通过一个Thrift客户端,用户可以编写MapReduce或者Python代码。

除了这些基本组件外,Hadoop还包括Sqoop,它将关系数据移入HDFS; Hive,一种类似SQL的接口,允许用户在HDFS上运行查询; Mahout,机器学习。除了将HDFS用于文件存储之外,Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。

它可以通过Apache发行版开源,也可以通过Cloudera(规模和范围最大的Hadoop供应商),MapR或HortonWorks等厂商提供。

Spark是什么?

Spark是一个较新的项目,最初于2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目,专注于在集群中并行处理数据,最大的区别在于它在内存中运行。

类似于Hadoop读取和写入文件到HDFS的概念,Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行,Hadoop集群可用作数据源,也可与Mesos一起运行。在后一种情况下,Mesos主站将取代Spark主站或YARN以进行调度。

Spark是围绕Spark Core构建的,Spark Core是驱动调度,优化和RDD抽象的引擎,并将Spark连接到正确的文件系统(HDFS,S3,RDBM或Elasticsearch)。Spark Core上还运行了几个库,包括Spark SQL,允许用户在分布式数据集上运行类似SQL的命令,用于机器学习的MLLib,用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。

Spark有几个API。原始界面是用Scala编写的,并且由于大量数据科学家的使用,还添加了Python和R接口。Java是编写Spark作业的另一种选择。

Databricks是由Spark创始人Matei Zaharia创立的公司,现在负责Spark开发并为客户提供Spark分销。

架构对比

Hadoop

首先,所有传入HDFS的文件都被分割成块。根据配置的块大小和复制因子,每个块在集群中被复制指定的次数。该信息被传递给NameNode,它跟踪集群中的所有内容。NameNode将这些文件分配给多个数据节点,然后将这些文件写入其中。在2012年被实施的高可用性允许NameNode故障转移到备份节点上,以跟踪集群中的所有文件。

MapReduce算法位于HDFS之上,由JobTracker组成。一旦应用程序以其中一种语言编写,Hadoop接受JobTracker,然后分配工作(可包括计算单词和清理日志文件等内容,以及在Hive仓库数据集之上运行HiveQL查询)到侦听其他节点的TaskTracker。

YARN分配JobTracker加速并监控它们的资源,以提高效率。然后将所有来自MapReduce阶段的结果汇总并写入HDFS中的磁盘之上。

Spark

Spark的计算过程在内存中执行并在内存中存储,直到用户保存为止。除此之外,Spark处理工作的方式基本与Hadoop类似。最初,Spark从HDFS,S3或其他文件存储系统读取到名为SparkContext的程序执行入口。除此之外,Spark创建了一个名为RDD(弹性分布式数据集)的结构,它表示一组可并行操作元素的不可变集合。

随着RDD和相关操作的创建,Spark还创建了一个DAG(有向无环图),以便可视化DAG中的操作顺序和操作之间的关系。每个DAG都有确定的阶段和步骤。

用户可以在RDD上执行转换,中间操作或最终步骤。给定转换的结果进入DAG,不会保留到磁盘,但每一步操作都会将内存中的所有数据保留到磁盘。

Spark RDD顶部的一个新抽象是DataFrames,它是在Spark 2.0中作为RDD配套接口开发的。这两者非常相似,但DataFrames将数据组织成命名列,类似于Python的pandas或R包。这使得它们比RDD更方便,RDD没有类似的一系列列级标题引用。SparkSQL还允许用户像存储关系数据的SQL表一样查询DataFrame。

性能

Spark在内存中运行速度比Hadoop快100倍,在磁盘上运行速度快10倍。众所周知,Spark在数量只有十分之一的机器上,对100TB数据进行排序的速度比Hadoop MapReduce快3倍。此外,Spark在机器学习应用中的速度同样更快,例如Naive Bayes和k-means。

由处理速度衡量的Spark性能之所以比Hadoop更优,原因如下:

1、每次运行MapReduce任务时,Spark都不会受到输入输出的限制。事实证明,应用程序的速度要快得多。

2、Spark的DAG可以在各个步骤之间进行优化。Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。

但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的诉求,Hadoop被认为是更高效的系统。

成本

Spark和Hadoop都可以作为开源Apache项目免费获得,这意味着用户都可以零成本安装运行。但是,考虑总体拥有成本才是最重要的,比如维护、硬件和软件购买,雇佣集群管理团队的开销。内部安装的一般经验法则是Hadoop需要更多的磁盘内存,而Spark需要更多的RAM,这意味着设置Spark集群可能会更加昂贵。此外,由于Spark是较新的系统,因此它的专家更为稀少,成本更高。另一种选择是使用供应商进行安装,例如Cloudera for Hadoop或Spark for DataBricks,或使用AWS在云中运行EMR / Mapreduce。

由于Hadoop和Spark是串联运行的,将各自的价格分离出来进行比较可能是困难的。对于高级别的比较,假设为Hadoop选择计算优化的EMR集群,最小实例c4.large的成本为每小时0.026美元。 Spark最小内存优化集群每小时成本为0.067美元。因此,Spark每小时更昂贵,但考虑到计算时间,类似的任务在Spark集群上花费的时间更少。

容错和安全性

Hadoop具有高度容错性,因为它旨在跨多个节点复制数据。每个文件都被分割成块,并在许多机器上复制无数次,以确保如果单台机器停机,可以从其他块重建文件。

Spark的容错主要是通过RDD操作来实现。最初,静态数据存储在HDFS中,通过Hadoop的体系结构进行容错。随着RDD的建立,lineage也是如此,它记住了数据集是如何构建的,由于它是不可变的,如果需要可以从头开始重建。跨Spark分区的数据也可以基于DAG跨数据节点重建。数据在执行器节点之间复制,如果执行器和驱动程序之间的节点通信失败,通常可能会损坏数据。

Spark和Hadoop都可以支持Kerberos身份验证,但Hadoop对HDFS具有更加细化的安全控制。 Apache Sentry是一个用于执行细粒度元数据访问的系统,是另一个专门用于HDFS级别安全性的项目。

Spark的安全模型目前很少,但允许通过共享密钥进行身份验证。

机器学习

Hadoop使用Mahout来处理数据。Mahout包括集群,分类和基于批处理的协作过滤,所有这些都在MapReduce之上运行。目前正在逐步推出支持Scala和DSL语言的Samsara(类似R的矢量数学环境),允许用户进行内存和代数操作,并允许用户自己编写算法。

Spark有一个机器学习库叫MLLib,充分利用了Spark快速内存计算,迭代效率高的优势开发机器学习应用程序。它可用于Java,Scala,Python或R,包括分类和回归,以及通过超参数调整构建机器学习管道的能力。

总结

所以,到底是选Hadoop还是Spark呢?两者都是Apache的顶级项目,经常一起使用,并且有相似之处,但Spark并不是离不开Hadoop,目前已有超过20%的Spark独立于Hadoop运行,并且这一比例还在增加。从性能、成本、高可用性、易用性、安全性和机器学习诸多方面参考,Spark都略胜一筹!

∞∞∞∞∞

原文发布于微信公众号 - IT派(it_pai)

原文发表时间:2018-03-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据

Hadoop和Spark的异同

解决问题的层面不一样 Hadoop实质上是解决大数据大到无法在一台计算机上进行存储、无法在要求的时间内进行处理的问题,是一个分布式数据基础设施。 HDFS,它将...

24080
来自专栏about云

Cloudera 系列1:Cloudera 入门指南

问题导读 1.Cloudera 提供了那些产品和工具? 2.Cloudera Navigator的作用是什么? Cloudera 提供一个可扩展、灵活、...

47160
来自专栏学一学大数据

写给大数据开发初学者的话 | 附教程

30240
来自专栏包子铺里聊IT

五分钟深入 Hadoop 内核

前一篇系列文章 <五分钟零基础理解 Hadoop> 介绍了 Hadoop 到底是怎么回事。下面几篇文章介绍 Hadoop 的核心框架, 为后面讨论 Hadoo...

23750
来自专栏美图数据技术团队

Hello Spark! | Spark,从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数...

15000
来自专栏Albert陈凯

Impala 与Hive

Impala 与Hive都是构建在Hadoop之上的数据查询工具,但是各有不同侧重,那么我们为什么要同时使用这两个工具呢?单独使用Hive或者Impala不可以...

47860
来自专栏Albert陈凯

Apache Spark常见的三大误解

最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Go...

35460
来自专栏灯塔大数据

每周学点大数据 | No.70 适于迭代并行计算的平台——Spark初探

编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算...

36460
来自专栏大数据时代

大数据学习路线是什么,小白学大数据学习路线

大数据这个话题热度一直高居不下,不仅是国家政策的扶持,也是科技顺应时代的发展。想要学习大数据,我们该怎么做呢?大数据学习路线是什么?先带大家了解一下大数据的特征...

16630
来自专栏猿人谷

Hadoop架构——云计算的具体实现

Hadoop是IT行业一个新的热点,是云计算的一个具体实现、Hadoop本身具有很高的技术含量,是IT工程师学习的首选!下面我们来详细讲讲什么是Hadoop。 ...

41160

扫码关注云+社区

领取腾讯云代金券