开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何为Spark executor配置Xmn

为Spark executor配置Xmn是为了调整Java堆内存中的新生代大小。新生代是Java堆内存中的一部分，用于存放新创建的对象。配置Xmn参数可以影响垃圾回收的性能和内存利用率。

在Spark中，可以通过以下步骤为executor配置Xmn：

打开Spark配置文件spark-defaults.conf（或spark-env.sh）。
添加或修改以下配置项：
- spark.executor.extraJavaOptions：用于指定executor的JVM参数。
- -XX:NewSize：用于设置新生代的初始大小。
- -XX:MaxNewSize：用于设置新生代的最大大小。

例如，可以将以下配置项添加到spark-defaults.conf中：

spark.executor.extraJavaOptions -XX:NewSize=1g -XX:MaxNewSize=1g

这将为每个executor分配1GB的新生代内存。

配置Xmn的大小需要根据具体的应用场景和数据量进行调整。较小的Xmn值可以减少垃圾回收的时间，但可能导致更频繁的垃圾回收。较大的Xmn值可以减少垃圾回收的频率，但可能导致更长的垃圾回收时间和内存浪费。

推荐的腾讯云相关产品：腾讯云弹性MapReduce（EMR），是一种大数据处理和分析服务，可以快速部署和管理Spark集群。您可以通过EMR来配置和管理Spark executor的相关参数。

更多关于腾讯云EMR的信息，请参考：腾讯云弹性MapReduce（EMR）

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

提交Spark作业 | 科学设定spark-submit参数

关于spark-submit的执行过程，读Spark Core的源码能够获得一个大致的印象。

02

如何为Spark应用启用Kerberos的Debug日志

在CDH集群启用了Kerberos后，在执行Spark作业时难免会遇到由于Kerberos认证问题导致作业运行失败的时候，那我们需要针对Spark作业进行调试，通过一些Debug日志查看认证失败的原因。本篇文章Fayson主要介绍如何为Spark的Driver和Executor的JVM启用Kerberos的Debug日志。

03

Spark 性能优化指南(官网文档)

由于大多数Spark组件基于内存的特性，Spark程序可能会因为集群中的任何资源而导致出现瓶颈：CPU、网络带宽或内存。通常情况下，如果数据适合于放到内存中，那么瓶颈就是网络带宽，但有时，我们还是需要内存进行一些调优的，比如以序列化的形式保存RDDs，以便减少内存占用。

01

Spark全面性能调优详解

如果在Task执行期间发生大量的Full GC，那么说明年轻代的Eden区域给的空间不够大，可以通过一下方式进行调优：

03

Spark图解如何全面性能调优？

如果在Task执行期间发生大量的Full GC，那么说明年轻代的Eden区域给的空间不够大，可以通过一下方式进行调优：

06

spark调优系列之内存和GC调优

本文基于spark1.6讲解。一，基本概述调优内存的使用主要有三个方面的考虑：对象的内存占用量(你可能希望整个数据集都适合内存)，访问这些数据的开销，垃圾回收的负载。默认情况下，java的对象是可以快速访问的，但是相比于内部的原始数据消耗估计2-5倍的空间。主要归于下面三个原因： 1),每个不同的Java对象都有一个“对象头”，它大约是16个字节，包含一个指向它的类的指针。对于一个数据很少的对象（比如一个Int字段），这可以比数据大。 2),Java字符串在原始字符串数据上具有大约40字节的开销（因

spark on yarn的技术挑战

目前spark是一个非常流行的内存计算（或者迭代式计算，DAG计算）框架，在MapReduce因效率低下而被广为诟病的今天，spark的出现不禁让大家眼前一亮。从架构和应用角度上看，spark是一个仅包含计算逻辑的开发库（尽管它提供个独立运行的master/slave服务，但考虑到稳定后以及与其他类型作业的继承性，通常不会被采用），而不包含任何资源管理和调度相关的实现，这使得spark可以灵活运行在目前比较主流的资源管理系统上，典型的代表是mesos和yarn，我们称之为“spark on mesos”

06

spark on yarn的技术挑战

目前spark是一个非常流行的内存计算（或者迭代式计算，DAG计算）框架，在MapReduce因效率低下而被广为诟病的今天，spark的出现不禁让大家眼前一亮。从架构和应用角度上看，spark是一个仅包含计算逻辑的开发库（尽管它提供个独立运行的master/slave服务，但考虑到稳定后以及与其他类型作业的继承性，通常不会被采用），而不包含任何资源管理和调度相关的实现，这使得spark可以灵活运行在目前比较主流的资源管理系统上，典型的代表是mesos和yarn，我们称之为“spark on mesos”和

06

DolphinScheduler 之Docker 部署

这种方式需要先安装 docker-compose, docker-compose 的安装网上已经有非常多的资料，请自行安装即可

01

Spark调优

因为Spark是内存当中的计算框架，集群中的任何资源都会让它处于瓶颈，CPU、内存、网络带宽。通常，内存足够的情况之下，网络带宽是瓶颈，这时我们就需要进行一些调优，比如用一种序列化的方式来存储RDD来减少内存使用，这边文章就讲两种方式，数据序列化和内存调优，接下来我们会分几个主题来谈论这个调优问题。 1、数据序列化（1） Spark默认是使用Java的ObjectOutputStream框架，它支持所有的继承于java.io.Serializable序列化,如果想要进行调优的话，可以通过继承java.io

08

深入浅出Spark：存储系统

专题介绍:2009 年，Spark 诞生于加州大学伯克利分校的 AMP 实验室（the Algorithms, Machines and People lab），并于 2010 年开源。2013 年，Spark 捐献给阿帕奇软件基金会（Apache Software Foundation），并于 2014 年成为 Apache 顶级项目。如今，十年光景已过，Spark 成为了大大小小企业与研究机构的常用工具之一，依旧深受不少开发人员的喜爱。如果你是初入江湖且希望了解、学习 Spark 的“小虾米”，那么 InfoQ 与 FreeWheel 技术专家吴磊合作的专题系列文章——《深入浅出 Spark：原理详解与开发实践》一定适合你！本文系专题系列第四篇。

01

如何指定Spark2作业中Driver和Executor使用指定范围内端口

在CDH集群中提交Spark作业，大家也都知道Spark的Driver和Executor之间通讯端口是随机的，Spark会随选择1024和65535（含）之间的端口，因此在集群之间不建议启用防火墙。本篇文章Fayson主要介绍如何指定Spark2作业中Driver和Executor使用指定范围内的端口进行通讯。

02

如何指定Spark1作业中Driver和Executor使用指定范围内端口

在CDH集群中提交Spark作业，大家也都知道Spark的Driver和Executor之间通讯端口是随机的，Spark会随选择1024和65535（含）之间的端口，因此在集群之间不建议启用防火墙。在前面Fayson介绍了《如何指定Spark2作业中Driver和Executor使用指定范围内端口》，本篇文章Fayson主要介绍如何指定Spark1作业中Driver和Executor使用指定范围内的端口进行通讯。

06

【Spark篇】---Spark中资源和任务调度源码分析与资源配置参数应用

Spark中资源调度是一个非常核心的模块，尤其对于我们提交参数来说，需要具体到某些配置，所以提交配置的参数于源码一一对应，掌握此节对于Spark在任务执行过程中的资源分配会更上一层楼。由于源码部分太多本节只抽取关键部分和结论阐述，更多的偏于应用。

03

「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配

资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor，可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中，无论 Executor上是否有 task 在执行，都会被一直占有直到此 Spark 应用结束。

03

如何禁用CDH集群Kerberos

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在前面的文章介绍了如何为CDH集群启用Kerberos，在集群启用Kerberos后，会对现有环境的部分代码做改造，有些人觉得使用起来不方便，想取消Kerberos。本篇文章Fayson主要介绍如何禁用CDH集群的Kerberos及禁用后对各组件服务的测试。注意：本文

06

戳破 | hive on spark 调优点

微信交流群里有人问浪尖hive on spark如何调优，当时浪尖时间忙没时间回答，这里就给出一篇文章详细聊聊。强调一下资源设置调优，这个强经验性质的，这里给出的数值比例仅供参考。

03

Apache Spark:来自Facebook的60 TB +生产用例

浪尖整理翻译https://databricks.com/blog/2016/08/31/apache-spark-scale-a-60-tb-production-use-case.html。

02

Python大数据之PySpark(四)SparkBase&Core

在哪个文件下面更改？spark-env.sh中增加YARN_CONF_DIR的配置目录

04

Spark参数配置说明

1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件

05

spark2.2以后版本任务调度将增加黑名单机制

问题导读 1.spark如何开启黑名单机制？ 2.哪些条件将将executors列入黑名单？ 3.整个节点被列入黑名单，executors如何处理？ spark2.2中在任务调度中，增加了黑名单机制，提高了资源分配的效率。不同条件分别会将executors和整个节点加入黑名单。但是加入黑名单，也是有时间限制的，我们可以自定义时间，超过了这个时间，将会被资源管理器回收。对于如何配置，大家可参考下面。配置属性黑名单机制配置属性有哪些？明确的是第一个属性spark.blacklist.enable

06

SparkSQL执行时参数优化

近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力.

01

Spark性能调优篇一之任务提交参数调整

最近在做spark的项目，虽然项目基本功能都实现了，但是在真正的成产环境中去运行，发现程序运行效率异常缓慢；迫于无奈（实际是自己都不忍直视了），所以决定对程序做一番优化操作。在网上查看了不上关于spark程序的优化方法，但是都比较分散不够全面，所以决定就自己编写的基于Java的spark程序，记录一下我所做过的一些优化操作，加深印象方面以后的项目调优使用。这是一个Spark系列的优化操作，包括了很多方面，欢迎大家一块讨论学习。好了，废话好像有点多，下面开始进入正题：

02

聊聊spark-submit的几个有用选项

我们使用spark-submit时，必然要处理我们自己的配置文件、普通文件、jar包，今天我们不讲他们是怎么走的，我们讲讲他们都去了哪里，这样我们才能更好的定位问题。我们在使用spark-submit把我们自己的代码提交到yarn集群运行时，spark会在yarn集群上生成两个进程角色，一个是driver，一个是executor，当这两个角色进程需要我们传递一些资源和信息时，我们往往会使用spark-submit的选项来进行传递。那么这些资源和信息，在使用spark-submit指定了之后，都去了哪里呢，

03

Spark on Yarn资源配置

工作期间，我提交spark任务到yarn上，发现指定的资源（使用内存大小。使用core的个数）总是与yarn的UI页面显示的资源使用量不一致，写本文说明一下这个问题，以及介绍一下spark on yarn的资源配置。

06

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day30】——Spakr数据调优(文末附完整文档)

一个CPU core同一时间只能执行一个线程。而每个Executor进程上分配到的多个task，都是以每个task一条线程的方式，多线程并发运行的。

01

Java Web之Tomcat调优

Tomcat调优是一个老话题，目的都是为了提高站点的吞吐和并发。这里面涉及到Tomcat本身参数的优化和JVM优化。近期在研究JVM的参数设置和Tomcat集群，所以进行了一下调优实践。需要说明的是：本文的配置肯定不是最好的，仅仅是一次实践和一次记录。步骤可以参考，但参数设置需要针对不同需求的项目来进行调整。 1、安装APR(Apache Portable Runtime) Tomcat 7 以后 Connector 默认启用 APR 协议，但是只有配置了 APR库才可以生效，否则还是会使用 BIO 或者N

04

Spark on Kubernetes PodTemplate 的配置

本文主要讲 Apache Spark 在 on Kubernetes 的 PodTemplate 的问题，以及也会讲到 Spark Operator 里关于 PodTemplate 的问题，当然也会讲到 Apache Spark 2.2 on Kubernetes 那个 Fork 的版本，感兴趣的同学可以往下看看。

03

spark on yarn 内存分配详解

最近有不少知识星球粉丝和公众号粉丝给浪尖留言，说是不知道spark on yarn的时候，yarn如何分配Spark 的driver和executor内存的。今天浪尖就给大家分享一下spark on yarn，内存分配原理。

01

生产集群spark报错问题

shuffle write的分区数由上一阶段的RDD分区数控制，shuffle read的分区数则是由Spark提供的一些参数控制。

02

Spark 的性能调优

下面这些关于 Spark 的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。

01

工作常用之Spark调优[二】资源调优

先设定单个 Executor 核数，根据 Yarn 配置得出每个节点最多的 Executor 数量，每个节

02

工作常用之Spark调优【二】资源调优

先设定单个 Executor 核数，根据 Yarn 配置得出每个节点最多的 Executor 数量，每个节

02

Spark的性能调优

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。

02

【Spark篇】---Spark中yarn模式两种提交任务方式

Spark可以和Yarn整合，将Application提交到Yarn上运行，和StandAlone提交模式一样，Yarn也有两种提交任务的方式。

03

Spark2.3.0 使用spark-submit部署应用程序

Spark的 bin 目录中的 spark-submit 脚本用于在集群上启动应用程序。可以通过一个统一的接口使用 Spark 所有支持的集群管理器，因此不必为每个集群管理器专门配置你的应用程序。

04

Spark性能调优01-资源调优

在开发完Spark作业之后，就该为作业配置合适的资源了。 Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。

02

图文详解 Spark 总体架构 [禅与计算机程序设计艺术]

本文对Spark总体架构进行描述，本文读者需要一定的Spark的基础知识，至少了解Spark的RDD和DAG。

01

SparkConf加载与SparkContext创建（源码阅读四）

sparkContext创建还没完呢，紧接着前两天，我们继续探索。。作死。。。

01

大数据基础系列之提交spark应用及依赖管理

在Spark的bin目录下的spark-submit脚本用于提交一个任务到集群中。因为是针对所有的集群管理器统一接口(local，Standalone，yarn，mesos)，所以不必为每一个集群管理器进行特殊的配置。一，打包应用的依赖如果你的代码依赖于其它工程，你需要将它们和你的应用一起打包，目的是将这些代码分发到Spark集群中去。为了达到这个目的，需要创建一个assembly jar或者super jar，这个jar要同时包含你的代码和它的依赖。Sbt和maven都有assembly 插件。在创

09

spark面试题目_面试提问的问题及答案

1.Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，Driver和Application以及Executors。standby节点要从zk中，获得元数据信息，恢复集群运行状态，才能对外继续提供服务，作业提交资源申请等，在恢复前是不能接受请求的。另外，Master切换需要注意2点 1）在Master切换的过程中，所有的已经在运行的程序皆正常运行！因为Spark Application在运行前就已经通过Cluster Manager获得了计算资源，所以在运行时Job本身的调度和处理和Master是没有任何关系的！ 2）在Master的切换过程中唯一的影响是不能提交新的Job：一方面不能够提交新的应用程序给集群，因为只有Active Master才能接受新的程序的提交请求；另外一方面，已经运行的程序中也不能够因为Action操作触发新的Job的提交请求； 2.Spark master HA 主从切换过程不会影响集群已有的作业运行，为什么？答：因为程序在运行之前，已经申请过资源了，driver和Executors通讯，不需要和master进行通讯的。 3.Spark on Mesos中，什么是的粗粒度分配，什么是细粒度分配，各自的优点和缺点是什么？答：1）粗粒度：启动时就分配好资源，程序启动，后续具体使用就使用分配好的资源，不需要再分配资源；好处：作业特别多时，资源复用率高，适合粗粒度；不好：容易资源浪费，假如一个job有1000个task，完成了999个，还有一个没完成，那么使用粗粒度，999个资源就会闲置在那里，资源浪费。2）细粒度分配：用资源的时候分配，用完了就立即回收资源，启动会麻烦一点，启动一次分配一次，会比较麻烦。 4.如何配置spark master的HA？ 1)配置zookeeper 2)修改spark_env.sh文件,spark的master参数不在指定，添加如下代码到各个master节点 export SPARK_DAEMON_JAVA_OPTS=”-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk01:2181,zk02:2181,zk03:2181 -Dspark.deploy.zookeeper.dir=/spark” 3) 将spark_env.sh分发到各个节点 4)找到一个master节点，执行./start-all.sh，会在这里启动主master,其他的master备节点，启动master命令: ./sbin/start-master.sh 5)提交程序的时候指定master的时候要指定三台master，例如 ./spark-shell –master spark://master01:7077,master02:7077,master03:7077 5.Apache Spark有哪些常见的稳定版本，Spark1.6.0的数字分别代表什么意思？答：常见的大的稳定版本有Spark 1.3,Spark1.6, Spark 2.0 ，Spark1.6.0的数字含义 1）第一个数字：1 major version : 代表大版本更新，一般都会有一些 api 的变化，以及大的优化或是一些结构的改变； 2）第二个数字：6 minor version : 代表小版本更新，一般会新加 api，或者是对当前的 api 就行优化，或者是其他内容的更新，比如说 WEB UI 的更新等等； 3）第三个数字：0 patch version ，代表修复当前小版本存在的一些 bug，基本不会有任何 api 的改变和功能更新；记得有一个大神曾经说过，如果要切换 spark 版本的话，最好选 patch version 非 0 的版本，因为一般类似于 1.2.0, … 1.6.0 这样的版本是属于大更新的，有可能会有一些隐藏的 bug 或是不稳定性存在，所以最好选择 1.2.1, … 1.6.1 这样的版本。通过版本号的解释说明，可以很容易了解到，spark2.1.1的发布时是针对大版本2.1做的一些bug修改，不会新增功能，也不会新增API，会比2.1.0版本更加稳定。 6.driver的功能是什么？答： 1）一个Spark作业运行时包括一个Driver进程，也是作业的主进程，具有main函数，并且有SparkContext的实例，是程序的人口点；2）功能：负责向集群申请资源，向master注册信息，负责了作业的调度，，负责作业的解析、生成Stage并调度Task到E

02

Spark之三大集群模式—详解（3）

Standalone集群使用了分布式计算中的master-slave模型， master是集群中含有master进程的节点 slave是集群中的worker节点含有Executor进程

02

调优 | Apache Hudi应用调优指南

通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。输入并行性：Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进行调整。我们建议设置shuffle的并发度，配置项为 hoodie.[insert|upsert|bulkinsert].shuffle.parallelism，以使其至少达到inputdatasize/500MB。 Off-heap（堆外）内存：Hudi写入parquet文件，需要使用一定的堆外内存，如果遇到此类故障，请考虑设置类似 spark.yarn.executor.memoryOverhead或 spark.yarn.driver.memoryOverhead的值。 Spark 内存：通常Hudi需要能够将单个文件读入内存以执行合并或压缩操作，因此执行程序的内存应足以容纳此文件。另外，Hudi会缓存输入数据以便能够智能地放置数据，因此预留一些 spark.memory.storageFraction通常有助于提高性能。调整文件大小：设置 limitFileSize以平衡接收/写入延迟与文件数量，并平衡与文件数据相关的元数据开销。时间序列/日志数据：对于单条记录较大的数据库/ nosql变更日志，可调整默认配置。另一类非常流行的数据是时间序列/事件/日志数据，它往往更加庞大，每个分区的记录更多。在这种情况下，请考虑通过 .bloomFilterFPP()/bloomFilterNumEntries()来调整Bloom过滤器的精度，以加速目标索引查找时间，另外可考虑一个以事件时间为前缀的键，这将使用范围修剪并显着加快索引查找的速度。 GC调优：请确保遵循Spark调优指南中的垃圾收集调优技巧，以避免OutOfMemory错误。[必须]使用G1 / CMS收集器，其中添加到spark.executor.extraJavaOptions的示例如下： -XX:NewSize=1g -XX:SurvivorRatio=2 -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof OutOfMemory错误：如果出现OOM错误，则可尝试通过如下配置处理：spark.memory.fraction=0.2，spark.memory.storageFraction=0.2允许其溢出而不是OOM（速度变慢与间歇性崩溃相比）。以下是完整的生产配置 spark.driver.extraClassPath /etc/hive/conf spark.driver.extraJavaOptions -XX:+PrintTenuringDistribution -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintGCTimeStamps -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof spark.driver.maxResultSize 2g spark.driver.memory 4g spark.executor.cores 1 spark.executor.extraJavaOptions -XX:+PrintFlagsFinal -XX:+PrintReferenceGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintAdaptiveSizePolicy -XX:+UnlockDiagnosticVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-

02

Spark Kubernetes 的源码分析系列 - scheduler

这一块代码可以理解为 Spark 是如何实现一个基于 K8S 的调度器，来调度生成 Executor Pod 的。

03

Kyuubi集成spark场景

${kyuubiserver}:${kyport}见 kyuubi-defaults.conf 的 kyuubi.frontend.bind.port 配置。

05

Spark性能优化 (1) | 常规性能调优

Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。

01

Spark优化(二)----资源调优、并行度调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。

02

Spark的调度系统

一，简介 Spark调度机制可以理解为两个层面的调度。首先，是Spark Application调度。也就是Spark应用程序在集群运行的调度，应用程序包括Driver调度和Executor调度。其次，就是每个Spark Application都会有若干Jobs(Spark Actions)，然后这些job是以何种机制，在Executor上执行的，也是需要一个调度管理的机制，该层面调度也可以理解为SparkContext内部调度。之所以会出现这种情况，主要是生产中可能会希望一个SparkContext作为服

08

Spark BlockManager的通信及内存占用分析(源码阅读九）

之前阅读也有总结过Block的RPC服务是通过NettyBlockRpcServer提供打开，即下载Block文件的功能。然后在启动jbo的时候由Driver上的BlockManagerMaster对存在于Executor上的BlockManager统一管理，注册Executor的BlockManager、更新Executor上Block的最新信息、询问所需要Block目前所在的位置以及当Executor运行结束时，将Executor移除等等。那么Driver与Executor之间是怎么交互的呢？

02

Apache Spark 2.2.0 中文文档 - Submitting Applications | ApacheCN

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭