3.0Spark计算模型

Albert陈凯

发布于 2018-04-08 10:38:31

6800

发布于 2018-04-08 10:38:31

文章被收录于专栏：Albert陈凯

Spark大数据处理：技术、应用与性能优化

第3章 Spark计算模型

创新都是站在巨人的肩膀上产生的，在大数据领域也不例外。微软的Dryad使用DAG执行模式、子任务自由组合的范型。该范型虽稍显复杂，但较为灵活。Pig也针对大关系表的处理提出了很多有创意的处理方式，如flatten、cogroup。经典虽难以突破，但作为后继者的Spark借鉴经典范式并进行创新。经过实践检验，Spark的编程范型在处理大数据时显得简单有效。＜Key,Value＞的数据处理与传输模式也大获全胜。

Spark站在巨人的肩膀上，依靠Scala强有力的函数式编程、Actor通信模式、闭包、容器、泛型，借助统一资源分配调度框架Mesos，融合了MapReduce和Dryad，最后产生了一个简洁、直观、灵活、高效的大数据分布式处理框架。

与Hadoop不同，Spark一开始就瞄准性能，将数据（包括部分中间数据）放在内存，在内存中计算。用户将重复利用的数据缓存到内存，提高下次的计算效率，因此Spark尤其适合迭代型和交互型任务。Spark需要大量的内存，但性能可随着机器数目呈多线性增长。本章将介绍Spark的计算模型。

3.1 Spark程序模型

下面通过一个经典的示例程序来初步了解Spark的计算模型，过程如下。

1）SparkContext中的textFile函数从HDFS[插图]读取日志文件，输出变量file[插图]。

val file=sc.textFile("hdfs://xxx")

2）RDD中的filter函数过滤带“ERROR”的行，输出errors（errors也是一个RDD）。

val errors=file.filter(line=＞line.contains("ERROR")

3）RDD的count函数返回“ERROR”的行数：errors.count()。

RDD操作起来与Scala集合类型没有太大差别，这就是Spark追求的目标：像编写单机程序一样编写分布式程序，但它们的数据和运行模型有很大的不同，用户需要具备更强的系统把控能力和分布式系统知识。

从RDD的转换和存储角度看这个过程，如图3-1所示。

[插图]

图3-1 Spark程序模型

在图3-1中，用户程序对RDD通过多个函数进行操作，将RDD进行转换。Block-Manager管理RDD的物理分区，每个Block就是节点上对应的一个数据块，可以存储在内存或者磁盘。而RDD中的partition是一个逻辑数据块，对应相应的物理块Block。本质上一个RDD在代码中相当于是数据的一个元数据结构，存储着数据分区及其逻辑结构映射关系，存储着RDD之前的依赖转换关系。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.07.12 ，如有侵权请联系 cloudcommunity@tencent.com 删除

spark

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

spark

登录后参与评论

0 条评论

热度

3.0Spark计算模型

3.0Spark计算模型

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐