腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

简单聊聊Spark

专栏作者

44

文章

34514

阅读量

21

订阅数

Spark内核分析之BlockManager工作原理介绍

最近一直在忙，没顾得上写文章，新年的第一篇文章，希望大家可以喜欢；好了，今天接着之前的内容，来聊聊BlockManager的工作原理，上图来分析；

2018-09-05

8590

Spark内核分析之Shuffle操作流程（非常重要）

如题，我们来分析一下spark的shuffle操作原理；为什么说其非常重要，是因为shuffle操作是我们在Spark调优中非常重要的一环，对shuffle进行了优化，往往可以使得我们的spark程序运行效率有极大的提升。依照惯例，我们先来看一张图；

2018-09-05

8630

Spark内核分析之DAGScheduler划分算法实现原理讲解（重要）

接着上一篇，我们接着来分析下一个非常重要的组建DAGScheduler的运行原理是怎么实现的；通过之前对Spark的分析讲解，我们的Spark作业是在遇到一个action算子以后并以此为界限，划分出一个Job出来，也就是在这个时候，Spark作业向集群提交一个Job任务；下面我们看看源码是如何实现的；

2018-09-05

5730

Spark内核分析之Worker原理分析

接着上篇的Schedule调度内容，本篇我们来看看Driver，Application向Worker发送launch以后到底发生了什么。先来看看下面这张图；

2018-09-05

4200

Spark内核分析之Scheduler资源调度机制

上一篇我们阐述了Driver，Application，Worker的注册实现原理，本篇我们来接着聊聊Driver，Application在注册之后是如何实现调度的。废话不多说，直接上源码进行分析（本篇所述内容比较重要，请耐心看完）。

2018-09-05

4470

Spark内核分析之Master的注册机制实现原理

这篇文章我们来讨论一下Master的注册机制；那么有哪些信息需要注册到Master上面去呢？很简单，分别有Worker的注册，Driver的注册，Application的注册。明确了这个以后我们来看一张图；

2018-09-05

4310

Spark内核分析之SparkContext初始化源码分析

上一篇介绍了spark作业提交的三种方式，从本篇开始逐一介绍Spark作业运行流程中各个组件的内部工作原理。如标题所说，我们先来看看SparkContext在Spark作业提交后做了哪些事情，工作流程如下图所示；（注意：本篇文章及后续源码分析所有内容全部基于spark1.3.0源码进行分析，后续不再赘述）

2018-09-05

7210

Spark内核分析之Spark的HA源码分析

Spark作业运行的集群环境有两种，分别基于standalone模式和Yarn集群模式。我们知道Yarn集群提供了HA来保证了集群的高可用，而standalone也提供了一种集群高可用的方法，即通过配置可以实现双master机制，保证在一个master挂掉以后，另外一个master立即启用。spark的主备切换提供了两种模式，一种是基于文件系统的，另外一种是基于zookeeper的。下面我们来看看spark集群的master主备切换是怎么实现的，如下图所示；

2018-09-05

5860

Spark内核分析之spark作业的三种提交方式

最近在研究Spark源码，顺便记录一下，供大家学习参考，如有错误，请批评指正。好，废话不多说，这一篇先来讲讲Spark作业提交流程的整体架构。

2018-09-05

7140

Spark性能调优九之常用算子调优

前面介绍了很多关于Spark性能的调优手段，今天来介绍一下Spark性能调优的最后一个点，就是关于Spark中常用算子的调优。废话不多说，直接进入正文；

2018-09-05

1.2K0

Spark性能调优篇八之shuffle调优（重要）

本篇文章来介绍一个重量级的Spark调优机制，就是我们常说的shuffle调优。在讲解shuffle调优之前，我们先来明确一个概念，什么是shuffle操作？

2018-09-05

4700

Spark性能调优篇七之JVM相关参数调整

由于Spark程序是运行在JVM基础之上的，所以我们这一篇来讨论一下关于JVM的一些优化操作。在开始JVM调优操作之前，我们先通过一张图看一下JVM简单的内存划分情况。

2018-09-05

1.7K0

Spark性能调优篇六之调节数据本地化等待时长

本篇我们讨论一下数据本地化等待时长调节的优化。在介绍关于本地化等待时长调节之前，我们先来看看数据本地化的运行原理吧。

2018-09-05

7430

Spark性能调优篇五之使用fastUtil工具包

今天再来介绍一个小的优化点，是一个通过使用fastutil工具包对数据格式进行优化。首先来明确一个东西，什么是fastutil？

2018-09-05

9040

Spark性能调优篇四之使用Kryo进行序列化操作

接着上一篇文章，今天介绍一下通过使用Kryo这个东东来进一步降低网络IO的传输量和内存的占用率。在介绍Kryo之前，接下来我们先来对比一下默认的序列化和Kryo方式的序列化的性能（其实就是序列化后数据的体积）。

2018-09-05

1.5K0

Spark性能调优篇三之广播方式传输数据

spark 编程算法

接着之前的Spark调优系列文章，我们今天介绍一下通过广播的方式优化我们的Spark作业运行效率。在介绍文章之前，我们首先来分析一下我们Spark作业运行的时候每个task任务默认是怎么怎么工作的。好了，首先先来看一张图。

2018-09-05

6950

Spark性能调优篇二之重构RDD架构及RDD持久化

上一篇介绍了一些关于提交Spark任务参数的调优，本片文章来聊聊一个Spark作业中RDD的重构，以及一些复用的RDD持久化的常用策略。

2018-09-05

3340

Spark性能调优篇一之任务提交参数调整

最近在做spark的项目，虽然项目基本功能都实现了，但是在真正的成产环境中去运行，发现程序运行效率异常缓慢；迫于无奈（实际是自己都不忍直视了），所以决定对程序做一番优化操作。在网上查看了不上关于spark程序的优化方法，但是都比较分散不够全面，所以决定就自己编写的基于Java的spark程序，记录一下我所做过的一些优化操作，加深印象方面以后的项目调优使用。这是一个Spark系列的优化操作，包括了很多方面，欢迎大家一块讨论学习。好了，废话好像有点多，下面开始进入正题：

2018-09-05

8820

spark-1.3.0的编译及三种运行模式的配置

最近安装spark1.3.0并与Hadoop2.5.0集成，在Spark的历史资源管理中心没有找到对应的版本，而且在网上也没有找到对应版本的编译教程，于是只能根据Spark官网提供的教程自己来手动编译对应的版本，废话不多说，开始正文。

2018-09-05

5550

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态