00:00
同学们大家好,很高兴从今天开始和大家一起来学习大数据学科中非常重要的一个数据计算框架Spark,我相信大家对Spark应该已经了解过,对吗?那么之所以说非常重要,是因为随着技术的不断发展,现在的Spark俨然已经成为大数据领域当中杀手级的应用框架,很多大厂合行业巨头都在全面的使用Spark,那当然了,那大家也都知道市面上还有一些其他的流行计算框架,比方说海啦,嗯,Link s stop等等,对吧?那这么多的计算框架,那Spark为什么就会流行起来呢?首先Spark是一种与海豆be相似的开源集群计算框架,在早期完全是基于海豆的数据处理慢而提出的一种解决方案,那对于我们来讲,Spark到底是什么呢?其实啊,在官网的介绍当中,Spark定位是非常准确的。它是一种基于内存的快。
01:00
数通用可扩展的大数据分析计算引擎,它的主要作用就是用来做我们大数据的分析计算,它不做其他的功能,比方说存储它是没有的啊,那么可是呢,在我们学习过程当中,Spaug呢,经常会用来和海杜做一个对比,那为什么会出现这种情况呢?首先他们这两个框架都是计算框架,其次他们现在随着技术的发展,他们都有自己庞大的生态圈,所以呢,在我们的学习当中经常用来做对比啊,不光是咱们来做对比,他们在官网上也会通过一些计算指标也在互相做对比,所以啊,我们的SPA和海杜呢,他们两个框架之间总是有那么一种理不清剪不断的一些微妙关系,那接下来我们就从不同的角度来看一看这两者之间到底有什么区别,首先咱们从时间节点上来看,我们海杜普在2006年的一暂,他开始。
02:00
开发,2008年的一月份,他成为了阿帕奇的顶级项目,更多的程序员开始关注到海杜op 2011年1.0正式发布,2012年的三月份稳定版本发布,2013年的十月份发布了2.x雅安版本。我们这里为什么会加上红色字体,是因为这是一个非常重要的节点,这个咱们后面会讲到,那这个是我们的海杜,后面是我们的Spark Spark是2009年它诞生于伯克利大学的实验室,所以说从时间来讲的话,它会稍微的晚一些出现。然后2010年伯克利大学开源了10SPARK项目,2013年的六暂Spark成为了阿帕奇基金会下的项目,2014年的二月,暂Spark以飞快的速度成为了阿帕奇的顶级项目,你会发现它仅仅用了八个月的时间就成为了顶级项目,发展的速度是非踌快的。而且从2015年到现在,使B变得越。
03:00
发的火爆,大量的国内公司开始重点部署和使用10SPARK,那么从时间节点上大家可以看到我们的这个变化啊,时间节点有两个非常重要的点,这个咱们后面会讲到他们的关系,那接下来我们再从功能上我们来看一看,那么我们的海多朋呢,其实它是一个专用于批处理的数据处理框架,也是首个在开源社区获得极大关注的大数据框架。那么基于谷歌的三篇论文啊,海杜呢,重新实现了一些相关的算法和组件对战,让大规模的P处理技术变得更加易用。现有的海杜呢,包含了多个组件,这个组件包括了HDS,包括了我们的map reduce,以及啊他们这样通过配合这些我们的组件使用,可以进行批量数据处理,所以啊,我们的海豆op呢,其实它里面有存储,他们有计算啊,但是它的核心呢,其实也是跟计算相关,对吧,那Spark呢。
04:00
那是一种包含流处理能力的P处理框架,它与海度不同的是,10BUG主要侧重于通过我们的什么内存计算以及处理优化机制,加快批处理的工作负载的运行速度,所以对于我们来讲,这个Spark它更什么呢?更快一些,为什么呢?它基于内存的数据操作,它可以作为独立的集群来部署,其实也可以跟海多be集成并取代map的集算引擎,所以它们其实之间是有关系的,但是又有所不同,所以啊,咱们来总结一下,就是说我们10BUG出现的时间相对来做较晚,它的主要功能是用来做计算的,所以啊,其实Spark一直被认为呢,是海杜框架的一个升级版本,就是这样啊。
我来说两句