Spark概要掌握情况自我核查

Albert陈凯

发布于 2018-04-04 14:30:38

5420

发布于 2018-04-04 14:30:38

文章被收录于专栏：Albert陈凯

1、Spark目前只持哪哪种语言的API？

Java, Scala, Python, R. Ref： http://spark.apache.org/

2、RDD执行transformation和执行action的区别是什么？

1，transformation是得到一个新的RDD，方式很多，比如从数据源生成一个新的RDD，从RDD生成一个新的RDD 2，action是得到一个值，或者一个结果（直接将RDDcache到内存中）所有的transformation都是采用的懒策略，就是如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发。

从运行层面来看，Transformation实际上是一种链式的逻辑Action，记录了RDD演变的过程。Action则是实质触发Transformation开始计算的动作，由于在每个Transformation的过程中都有记录，所以每个RDD是知道上一个RDD是怎样转变为当前状态的，所以如果出错就可以很容易的重新演绎计算过程。 Reference：

3、RDD cache默认的StorageLevel级别是什么？

val MEMORY_ONLY = new StorageLevel(false, true, true)!

缓存策略 class StorageLevel private(! private var useDisk_ : Boolean,! private var useMemory_ : Boolean,! private var deserialized_ : Boolean,! private var replication_ : Int = 1)! ! ! val NONE = new StorageLevel(false, false, false)! val DISK_ONLY = new StorageLevel(true, false, false)! val DISK_ONLY_2 = new StorageLevel(true, false, false, 2)!

val MEMORY_ONLY_2 = new StorageLevel(false, true, true, 2)! val MEMORY_ONLY_SER = new StorageLevel(false, true, false)! val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, 2)! val MEMORY_AND_DISK = new StorageLevel(true, true, true)! val MEMORY_AND_DISK_2 = new StorageLevel(true, true, true, 2)! val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false)! val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, 2)

4、说明narrow dependency 和 wide dependency的区别？从计算和容错两方面说明！

摘要: narrow dependency和wide dependency的区别，从计算和容错方面说明

根据不同的transformation操作，RDD的依赖可以分为窄依赖（Narrow Dependency）和宽依赖（Wide Dependency，在代码中为ShuffleDependency）两种类型。窄依赖指的是生成的RDD中每个partition只依赖于父RDD(s)固定的partition。宽依赖指的是生成的RDD的每一个partition都依赖于父 RDD(s)所有partition。窄依赖典型的操作有map, filter, union（特殊）等宽依赖典型的操作有groupByKey, sortByKey等。

窄依赖的第一个作用,我的理解是可以不用等上一次操作全部做完，每完成一条记录就可以进行下次操作，如map产生一条新纪录马上就做filter 那么对于宽依赖，不能顺序执行，比如groupByKey操作。它需要等所有的计算map,filter都做完，才能做ByKey的计算。另外，union这个必须要重点提一下。这个操作只能说不一定，记住：不一定。为什么这么说呢。。因为如果你的计算非常少，最后只有一个DAG在计算，那它就是narrow。。。如果是多个DAG，那此时必然是wide,必然要做shuffle。可以看到，宽依赖往往意味着shuffle操作，这也是Spark划分stage（任务集）的主要边界。对于窄依赖，Spark会将其尽量划分在同一个stage中，因为它们可以进行流水线计算。计算方面：

上图详细解释一下Spark中的Stage划分。我们从HDFS中读入数据生成3个不同的RDD，通过一系列 transformation操作后再将计算结果保存回HDFS。可以看到这幅DAG中只有join操作是一个宽依赖，Spark内核会以此为边界将其前后划分成不同的Stage. 同时我们可以注意到，在图中Stage2中，从map到union都是窄依赖，这两步操作可以形成一个流水线操作，通过map操作生成的 partition可以不用等待整个RDD计算结束，而是继续进行union操作，这样大大提高了计算的效率。而Hadoop的MapReduce更像是宽依赖，所以Spark引入了窄依赖大大提高了计算速度。容错方面： narrow dependencies的失败恢复更有效，因为它只需要重新计算丢失的parent partition即可，而且可以并行地在不同节点进行重计算。而wide dependencies牵涉到RDD各级的多个Parent Partitions。

Reference：

5、下载搜狗实验室用户查询日志精简版：http://www.sogou.com/labs/dl/q.html

（63M），做以下查询： ① ⽤户在00:00:00到12:00:00之间的查询数？ ② 搜索结果排名第一，但是点击次序排在第二的数据有多少？

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.04.12 ，如有侵权请联系 cloudcommunity@tencent.com 删除

spark

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

spark

登录后参与评论

0 条评论

热度