SparkConf加载与SparkContext创建(源码阅读二)

  紧接着昨天,我们继续开搞了啊。。

  1、下面,开始创建BroadcastManager,就是传说中的广播变量管理器。BroadcastManager用于将配置信息序列化后的RDDJob以及ShuffleDependency等信息在本地存储。紧接着blockManager的创建后创建。如下:

  随之我们继续深入看这个broadcastManager是怎么创建与实现的。

  可以看到,在initialize()初始化方法调用以后,通过utils.classForName反射生成工厂实例broadcastFactory,可以配置属性spark.broadcast.factory指定,默认为org.apache.spark.broadcast.TorrentBroadcastFactory。广播变量与非广播变量都是以broadcastFactory工厂实现的。

  2、接下来,开始创建缓存管理器CacheManager。CacheManager用于缓存RDD某个分区计算后的中间结果,缓存计算结果发生在迭代计算的时候,那么它是怎么实现的呢。我们继续深入~

  我们可以看到,在创建cacheManager对象的时候,传入了blockManager,真正的缓存对象,依旧是blockManager,cacheManager是为blockManager做了代理。当迭代计算中,如果判断使用了缓存,就会调用getOrCompute,从blockManager.get(key)获取存储的block,如果存在,则封装new InterruptibleIterator返回,否则将重新loading partition,从CheckPoint中获取数据,调用putInBlockManager方法将数据写入缓存,进行InterruptibleIterator封装。

  再次深入调用putInBlockManager的过程。发现传入了partition的key,computedValues,storageLevel存储等级,由BlockId,BlockStatus组成的元素。随之它里面又搞了些事情。

  如果存储级别不允许使用内存,那么直接调用BlockManager的putIterator方法。通过判断putLevel.useMemory,也就是存储级别允许存储,那么就进行展开,如果展开成功则将数据存入内存,否则则写入磁盘。

  然后继续,我们看下,开始创建metricsSystem,主要是用于加载metrics.properties文件中的属性配置,当所有的基本组件准备好后,开始创建SparkEnv.

最后,创建MetadataCleaner,它的实质是一个用TimeTask实现的定时器,用于清理persistentRdds中的过期内容,最后的最后创建SparkUI.

好了~今天就到这里,明日继续,我去敲代码咯~~~~

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python自动化测试

Jmeter4.0接口测试之断言实战(六)

在接口测试用例中得有断言,没有断言的接口用例是无效的,一个接口的断言有三个层面,一个是HTTP状态码的断言,另外一个是业务状态码的断言,最后是某一接口请求后服...

6614
来自专栏用户画像

指令及操作数的寻址方式

  操作数的寻址:把操作数的形式地址,根据间址和变址等组合变换为操作数有效地址的过程。

3502
来自专栏数据之美

shell 学习笔记(17)

声明:转载需署名出处,严禁用于商业用途! 1601.关于rsync相同文件后 du 大小不一样的问题: 不一样大小很正常,因为文件系统的block...

2938
来自专栏小樱的经验随笔

【Java学习笔记之三十四】超详解Java多线程基础

前言 多线程并发编程是Java编程中重要的一块内容,也是面试重点覆盖区域,所以学好多线程并发编程对我们来说极其重要,下面跟我一起开启本次的学习之旅吧。 正文 线...

3705
来自专栏高性能服务器开发

我是一个线程(节选)

多线程编程在现代软件开发中是如此的重要,以至于熟练使用多线程编程是一名合格的后台开发人员的基本功,注意,我这里用的是基本功一词。它是如此的重要,所以您应该掌握它...

1403
来自专栏微信公众号:Java团长

各大公司Java后端开发面试题总结

ThreadLocal(线程变量副本) Synchronized实现内存共享,ThreadLocal为每个线程维护一个本地变量。 采用空间换时间,它用于线程间的...

1251
来自专栏老码农专栏

在ActFramework中进行后台任务调度

1032
来自专栏杂烩

mongodb拾遗

801
来自专栏Java编程技术

一个有关定时生产与消费的问题

按照上面的逻辑看的话,每个队列里面最多有一个元素。其实不然,因为在多线程模型中每个线程占用cpu执行的时间是按照时间片来划分的,每个线程执行完自己的时间片后会被...

811
来自专栏Jimoer

JVM学习记录-线程安全与锁优化(一)

线程:程序流执行的最小单元。线程是比进程更轻量级的调度执行单位,线程的引入,可以把一个进程的资源分配和执行调度分开,各个线程既可以共享进程资源(内存地址、文件I...

732

扫码关注云+社区

领取腾讯云代金券