简单聊聊Spark

33 篇文章
14 人订阅

全部文章

用户2992598

Spark内核分析之BlockManager工作原理介绍

        最近一直在忙,没顾得上写文章,新年的第一篇文章,希望大家可以喜欢;好了,今天接着之前的内容,来聊聊BlockManager的工作原理,上图来分析...

1071
用户2992598

Spark内核分析之Shuffle操作流程(非常重要)

        如题,我们来分析一下spark的shuffle操作原理;为什么说其非常重要,是因为shuffle操作是我们在Spark调优中非常重要的一环,对s...

973
用户2992598

Spark内核分析之DAGScheduler划分算法实现原理讲解(重要)

        接着上一篇,我们接着来分析下一个非常重要的组建DAGScheduler的运行原理是怎么实现的;通过之前对Spark的分析讲解,我们的Spark作...

872
用户2992598

Spark内核分析之Worker原理分析

        接着上篇的Schedule调度内容,本篇我们来看看Driver,Application向Worker发送launch以后到底发生了什么。先来看看...

733
用户2992598

Spark内核分析之Scheduler资源调度机制

        上一篇我们阐述了Driver,Application,Worker的注册实现原理,本篇我们来接着聊聊Driver,Application在注册之...

1162
用户2992598

Spark内核分析之Master的注册机制实现原理

        这篇文章我们来讨论一下Master的注册机制;那么有哪些信息需要注册到Master上面去呢?很简单,分别有Worker的注册,Driver的注册...

953
用户2992598

Spark内核分析之SparkContext初始化源码分析

        上一篇介绍了spark作业提交的三种方式,从本篇开始逐一介绍Spark作业运行流程中各个组件的内部工作原理。如标题所说,我们先来看看SparkC...

1153
用户2992598

Spark内核分析之Spark的HA源码分析

        Spark作业运行的集群环境有两种,分别基于standalone模式和Yarn集群模式。我们知道Yarn集群提供了HA来保证了集群的高可用,而s...

922
用户2992598

Spark内核分析之spark作业的三种提交方式

        最近在研究Spark源码,顺便记录一下,供大家学习参考,如有错误,请批评指正。好,废话不多说,这一篇先来讲讲Spark作业提交流程的整体架构。

991
用户2992598

Spark性能调优九之常用算子调优

        前面介绍了很多关于Spark性能的调优手段,今天来介绍一下Spark性能调优的最后一个点,就是关于Spark中常用算子的调优。废话不多说,直接进...

741
用户2992598

Spark性能调优篇八之shuffle调优(重要)

本篇文章来介绍一个重量级的Spark调优机制,就是我们常说的shuffle调优。在讲解shuffle调优之前,我们先来明确一个概念,什么是shuffle操作?

923
用户2992598

Spark性能调优篇七之JVM相关参数调整

        由于Spark程序是运行在JVM基础之上的,所以我们这一篇来讨论一下关于JVM的一些优化操作。在开始JVM调优操作之前,我们先通过一张图看一下J...

1151
用户2992598

Spark性能调优篇六之调节数据本地化等待时长

        本篇我们讨论一下数据本地化等待时长调节的优化。在介绍关于本地化等待时长调节之前,我们先来看看数据本地化的运行原理吧。

1153
用户2992598

Spark性能调优篇五之使用fastUtil工具包

        今天再来介绍一个小的优化点,是一个通过使用fastutil工具包对数据格式进行优化。首先来明确一个东西,什么是fastutil?

791
用户2992598

Spark性能调优篇四之使用Kryo进行序列化操作

        接着上一篇文章,今天介绍一下通过使用Kryo这个东东来进一步降低网络IO的传输量和内存的占用率。在介绍Kryo之前,接下来我们先来对比一下默认的...

1153
用户2992598

Spark性能调优篇三之广播方式传输数据

        接着之前的Spark调优系列文章,我们今天介绍一下通过广播的方式优化我们的Spark作业运行效率。在介绍文章之前,我们首先来分析一下我们Spar...

892
用户2992598

Spark性能调优篇二之重构RDD架构及RDD持久化

上一篇介绍了一些关于提交Spark任务参数的调优,本片文章来聊聊一个Spark作业中RDD的重构,以及一些复用的RDD持久化的常用策略。

632
用户2992598

Spark性能调优篇一之任务提交参数调整

最近在做spark的项目,虽然项目基本功能都实现了,但是在真正的成产环境中去运行,发现程序运行效率异常缓慢;迫于无奈(实际是自己都不忍直视了),所以决定对程序做...

732
用户2992598

spark-1.3.0的编译及三种运行模式的配置

最近安装spark1.3.0并与Hadoop2.5.0集成,在Spark的历史资源管理中心没有找到对应的版本,而且在网上也没有找到对应版本的编译教程,于是只能根...

1173
用户2992598

Hadoop HA及Failover搭建

在Hadoop1.X版本中使用单个NameNode来管理所有的DataNode的元数据,一旦NameNode节点发生故障将导致整个集群不可用,而且必须手动恢复N...

702

扫码关注云+社区