开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

运行spark作业时出现GC错误

运行Spark作业时出现GC错误是指在执行Spark任务时，发生了垃圾回收（Garbage Collection）错误。垃圾回收是一种自动内存管理机制，用于释放不再使用的内存空间，以便给新的对象分配内存。GC错误可能会导致Spark作业的性能下降或甚至失败。

GC错误通常是由于以下原因之一引起的：

内存不足：当Spark作业需要的内存超过了可用内存时，会触发垃圾回收。如果垃圾回收无法释放足够的内存，就会出现GC错误。
内存泄漏：如果Spark作业中存在内存泄漏的情况，即某些对象无法被垃圾回收器正确回收，就会导致内存占用不断增加，最终触发GC错误。

针对GC错误，可以采取以下措施进行优化和解决：

调整内存配置：增加Spark作业的可用内存，可以通过调整Spark的内存分配参数（如executor内存、driver内存等）来提高性能和避免GC错误。
优化代码：检查Spark作业的代码，确保没有内存泄漏的情况。可以使用工具进行内存分析，找出潜在的内存泄漏问题，并及时修复。
增加垃圾回收器的性能：可以尝试使用不同的垃圾回收器，如G1GC、CMS等，并根据具体情况进行调优。
使用更高性能的硬件：如果可能的话，可以考虑使用更高配置的服务器或云实例，以提供更多的内存和计算资源，从而减少GC错误的发生。

腾讯云提供了一系列与Spark相关的产品和服务，可以帮助解决GC错误和优化Spark作业的性能，例如：

腾讯云弹性MapReduce（EMR）：提供了稳定可靠的Spark集群，支持自动调优和弹性扩缩容，帮助优化Spark作业的执行效率。详情请参考：腾讯云弹性MapReduce（EMR）
腾讯云云服务器（CVM）：提供高性能的云服务器实例，可用于部署Spark集群和运行Spark作业。详情请参考：腾讯云云服务器（CVM）
腾讯云对象存储（COS）：提供高可靠、低延迟的对象存储服务，可用于存储Spark作业的输入数据和输出结果。详情请参考：腾讯云对象存储（COS）

请注意，以上仅为示例，具体的解决方案和产品选择应根据实际需求和情况进行评估和决策。

相关搜索:Jenkins maven在构建作业时出现错误 Laravel -调度作业时出现Redis错误 Spark作业长时间无结果运行 Spark安装-运行spark-shell命令时出现警告和错误从未知线程收集gc时出现致命错误作业成功运行时出现Rundeck错误使用Java运行Spark时出现cmd错误"Common was at this time“使用Maven时出现Apache spark错误在Python notebook中配置Spark时出现运行时错误在Slurm runscript中运行OpenMPI作业时出现段错误

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark性能调优篇七之JVM相关参数调整

由于Spark程序是运行在JVM基础之上的，所以我们这一篇来讨论一下关于JVM的一些优化操作。在开始JVM调优操作之前，我们先通过一张图看一下JVM简单的内存划分情况。

01

Spark性能调优06-JVM调优

再JVM虚拟机中，当创建的对象的数量很多时，Eden 和 Survior1 区域会很快的满溢，就需要进行频繁地 Minor GC，这样会导致有一些生命周期较短的对象迅速长到15岁并放入到老年代中，导致老年代中存放大量的短生命周期的对象(正常请况下，老年代应该存放的是数量比较少并且会长期使用的对象，比如数据库连接池)，当老年代满溢后，会进行Full GC，Full GC是开启一个很消耗性能和时间的线程，而且不管 Minor GC 还是 Full GC 都会导致 JVM 的工作线程停止，因为 Scala 也是基于 JVM 的编程语言，所以运行 Spark 程序和运行 Java 程序在 JVM 中的内存分配情况是相同的。

01

Spark性能优化 (4) | JVM 调优

根据 Spark 静态内存管理机制，堆内存被划分为了两块，Storage 和 Execution。

03

spark-submit介绍

spark-submit脚本通常位于/usr/local/spark/bin目录下，可以用which spark-submit来查看它所在的位置，spark-submit用来启动集群中的应用，它使用统一的提交接口支持各种类型的集群服务器。为了将应用发布到集群中，通常会将应用打成.jar包，在运行spark-submit时将jar包当做参数提交。

01

Spark资源调优

Spark 作者：章华燕编辑：龚赛概述 1 在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效

07

Spark 性能调优之资源调优

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

03

Spark性能调优

(2)尽量少对RDD进行算子操作，如果有可能，尽量在一个算子里面实现多个功能；

02

Spark 出现的问题及其解决方案

在Shuffle过程，reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取，而是map端写一点数据，reduce端task就会拉取一小部分数据，然后立即进行后面的聚合、算子函数的使用等操作。

02

Hadoop与Spark常用配置参数总结

背景 MapReduce和Spark对外提供了上百个配置参数，用户可以为作业定制这些参数以更快，更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。 (2) mapreduce.reduce.memory.mb: 一个Reduce Ta

06

【技术博客】Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合

06

Spark性能优化指南——基础篇

原文：https://tech.meituan.com/spark-tuning-basic.html

02

图文详解 Spark 总体架构 [禅与计算机程序设计艺术]

本文对Spark总体架构进行描述，本文读者需要一定的Spark的基础知识，至少了解Spark的RDD和DAG。

01

借助Spark Web UI排查Spark任务

一般比较关注YarnApplicationState 、Logs、ApplicationMaster。

02

Spark性能调优指北：性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

06

Spark性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

03

Spark性能调优指北：性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

03

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

每一台 host 上面可以并行 N 个 worker，每一个 worker 下面可以并行 M 个 executor，task 们会被分配到 executor 上面去执行。stage 指的是一组并行运行的 task，stage 内部是不能出现 shuffle 的，因为 shuffle 就像篱笆一样阻止了并行 task 的运行，遇到 shuffle 就意味着到了 stage 的边界。 CPU 的 core 数量，每个 executor 可以占用一个或多个 core，可以通过观察 CPU 的使用率变化来了解计算资源的使用情况，例如，很常见的一种浪费是一个 executor 占用了多个 core，但是总的 CPU 使用率却不高（因为一个 executor 并不总能充分利用多核的能力），这个时候可以考虑让一个 executor 占用更少的 core，同时 worker 下面增加更多的 executor，或者一台 host 上面增加更多的 worker 来增加并行执行的 executor 的数量，从而增加 CPU 利用率。但是增加 executor 的时候需要考虑好内存消耗，因为一台机器的内存分配给越多的 executor，每个 executor 的内存就越小，以致出现过多的数据 spill over 甚至 out of memory 的情况。 partition 和 parallelism，partition 指的就是数据分片的数量，每一次 task 只能处理一个 partition 的数据，这个值太小了会导致每片数据量太大，导致内存压力，或者诸多 executor 的计算能力无法利用充分；但是如果太大了则会导致分片太多，执行效率降低。在执行 action 类型操作的时候（比如各种 reduce 操作），partition 的数量会选择 parent RDD 中最大的那一个。而 parallelism 则指的是在 RDD 进行 reduce 类操作的时候，默认返回数据的 paritition 数量（而在进行 map 类操作的时候，partition 数量通常取自 parent RDD 中较大的一个，而且也不会涉及 shuffle，因此这个 parallelism 的参数没有影响）。所以说，这两个概念密切相关，都是涉及到数据分片的，作用方式其实是统一的。通过 spark.default.parallelism 可以设置默认的分片数量，而很多 RDD 的操作都可以指定一个 partition 参数来显式控制具体的分片数量。看这样几个例子：（1）实践中跑的 Spark job，有的特别慢，查看 CPU 利用率很低，可以尝试减少每个 executor 占用 CPU core 的数量，增加并行的 executor 数量，同时配合增加分片，整体上增加了 CPU 的利用率，加快数据处理速度。（2）发现某 job 很容易发生内存溢出，我们就增大分片数量，从而减少了每片数据的规模，同时还减少并行的 executor 数量，这样相同的内存资源分配给数量更少的 executor，相当于增加了每个 task 的内存分配，这样运行速度可能慢了些，但是总比 OOM 强。（3）数据量特别少，有大量的小文件生成，就减少文件分片，没必要创建那么多 task，这种情况，如果只是最原始的 input 比较小，一般都能被注意到；但是，如果是在运算过程中，比如应用某个 reduceBy 或者某个 filter 以后，数据大量减少，这种低效情况就很少被留意到。最后再补充一点，随着参数和配置的变化，性能的瓶颈是变化的，在分析问题的时候不要忘记。例如在每台机器上部署的 executor 数量增加的时候，性能一开始是增加的，同时也观察到 CPU 的平均使用率在增加；但是随着单台机器上的 executor 越来越多，性能下降了，因为随着 executor 的数量增加，被分配到每个 executor 的内存数量减小，在内存里直接操作的越来越少，spill over 到磁盘上的数据越来越多，自然性能就变差了。下面给这样一个直观的例子，当前总的 cpu 利用率并不高：

02

Spark-submit 参数调优完整攻略

该参数主要用于设置该应用总共需要多少executors来执行，Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor个数，并尽量满足所需。在不带的情况下只会分配少量Executor。这个值得设置还是要看分配的队列的资源情况，太少了无法充分利用集群资源，太多了则难以分配需要的资源。

02

Spark性能调优篇三之广播方式传输数据

接着之前的Spark调优系列文章，我们今天介绍一下通过广播的方式优化我们的Spark作业运行效率。在介绍文章之前，我们首先来分析一下我们Spark作业运行的时候每个task任务默认是怎么怎么工作的。好了，首先先来看一张图。

02

Spark调优 | Spark OOM问题常见解决方式

Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型：Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。

03

Spark性能调优篇一之任务提交参数调整

最近在做spark的项目，虽然项目基本功能都实现了，但是在真正的成产环境中去运行，发现程序运行效率异常缓慢；迫于无奈（实际是自己都不忍直视了），所以决定对程序做一番优化操作。在网上查看了不上关于spark程序的优化方法，但是都比较分散不够全面，所以决定就自己编写的基于Java的spark程序，记录一下我所做过的一些优化操作，加深印象方面以后的项目调优使用。这是一个Spark系列的优化操作，包括了很多方面，欢迎大家一块讨论学习。好了，废话好像有点多，下面开始进入正题：

02

Spark性能调优-Shuffle调优及故障排除篇（万字好文）

在划分stage时，最后一个stage称为FinalStage，它本质上是一个ResultStage对象，前面的所有stage被称为ShuffleMapStage。

04

Spark Shuffle调优指南

从Spark shuffle原理可知，Spark shuffle在计算与IO方面，都可能有较大开销，故，Spark shuffle调优就是优化这2个方面。这里仅关注调参的调优方式，不关注应用代码层面的调优。

02

【Dr.Elephant中文文档-6】度量指标和启发式算法

我们将作业的资源使用量定义为任务容器大小和任务运行时间的乘积。因此，作业的资源使用量可以定义为mapper和reducer任务的资源使用量总和。

03

大数据平台：计算资源优化技术&作业诊断

大数据平台的资源管理组件主要针对存储资源与计算资源进行分析优化。前文《大数据平台：资源管理及存储优化技术》主要介绍了存储资源优化，本文主要介绍大数据平台构建过程中，计算资源相关的优化技术。

09

spark-submit 参数设置

在使用spark时，根据集群资源情况和任务数据量等，合理设置参数，包括但不限于以下：

05

【万字长文】Spark最全知识点整理（内含脑图）

Spark有以下四种部署方式，分别是：Local，Standalone，Yarn，Mesos

01

关于Spark的面试题，你应该知道这些！

之前分享过一篇博客，?不会这20个Spark热门技术点，你敢出去面试大数据吗?，那一篇确实是非常精华，提炼出了非常重要同样非常高频的Spark技术点，也算是收到了一些朋友们的好评。本篇博客，博主打算再

02

Spark程序开发调优（前奏）

Spark 性能优化的第一步，就是要在开发 Spark 作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些 Spark 基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的 Spark 作业中。

01

Spark 性能调优之开发调优

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

03

万字详解 Spark Core 开发调优（建议收藏）

前两天和大家分享了一篇关于 Spark Core 数据倾斜调优相关的文章，今天继续和大家分享一篇关于 Spark 开发调优的文章，干货文章，建议收藏！

01

spark jobserver源码导读

最近有人问浪尖，想读一个比较大的spark项目源码，问浪尖要，浪尖只能告诉你业务相关的是基本上不会有人开源，平台相关的源码就比较多了，浪尖比较推荐的是Spark JobServer相关的源码。改源码量比较小，而且是关于Spark API的非常适合大家去阅读，以便于帮助大家更加深刻的理解spark API的使用及运行原理相关的内容。

01

万字详解 Spark开发调优（建议收藏）

在大数据计算领域，Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

01

Spark编程技巧

这两个转换都有shuffle过程发生，且都类似map reduce，但是reduceByKey会在map阶段会对相同的key进行聚合，极大的减少了map产生的数据量，进而减少了shuffle的数据量，提高了程序的执行效率

02

YARN & Mesos，论集群资源管理所面临的挑战

在国内，大部分的Spark用户都是由Hadoop过渡而来，因此YARN也成了大多Spark应用的底层资源调度保障。而随着Spark应用的逐渐加深，各种问题也随之暴露出来，比如资源调度的粒度问题。为此，7月2日晚，在CSDN Spark高端微信群中，一场基于YARN和Mesos的讨论被拉开，主要参与分享的嘉宾包括TalkingData研发副总裁阎志涛，GrowingIO田毅，AdMaster技术副总裁卢亿雷，Spark Committer、Mesos/Hadoop Contributor夏俊鸾，下面一起回顾。

08

spark调优系列之内存和GC调优

本文基于spark1.6讲解。一，基本概述调优内存的使用主要有三个方面的考虑：对象的内存占用量(你可能希望整个数据集都适合内存)，访问这些数据的开销，垃圾回收的负载。默认情况下，java的对象是可以快速访问的，但是相比于内部的原始数据消耗估计2-5倍的空间。主要归于下面三个原因： 1),每个不同的Java对象都有一个“对象头”，它大约是16个字节，包含一个指向它的类的指针。对于一个数据很少的对象（比如一个Int字段），这可以比数据大。 2),Java字符串在原始字符串数据上具有大约40字节的开销（因

Spark性能优化 (1) | 常规性能调优

Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。

01

万字Spark性能优化宝典（收藏版）

导读：发现一篇好文，分享给大家。全文分为四个部分，基本涵盖了所有Spark优化的点，面试和实际工作中必备。全文较长，建议收藏后PC端查看或工作中问题troubleshooting。

01

【Spark篇】---Spark调优之代码调优，数据本地化调优，内存调优，SparkShuffle调优，Executor的堆外内存调优

Spark中调优大致分为以下几种，代码调优，数据本地化，内存调优，SparkShuffle调优，调节Executor的堆外内存。

03

三万字长文 | Spark性能优化实战手册

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

02

三万字长文 | Spark性能优化实战手册

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

02

四万字长文 | Spark性能优化实战手册（建议收藏）

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

02

这可能是你见过大数据岗位最全，最规范的面试准备大纲 !(建议收藏）

本篇博客所分享的知识非常硬核,建议各位看官(尤其是大数据专业的同学啊)，赶紧搬好小板凳，带好西瓜，我们边看边吃瓜。

03

大数据技术之_19_Spark学习_07_Spark 性能调优小结

========== Spark 的监控方式 ========== 1、Spark Web UI Spark 内置应用运行监控工具（提供了应用运行层面的主要信息--重要） 2、Ganglia 分析集群的使用状况和资源瓶颈（提供了集群的使用状况--资源瓶颈--重要） 3、Nmon 主机 CPU、网络、磁盘、内存（提供了单机信息） 4、Jmeter 系统实时性能监控工具（提供了单机的实时信息） 5、Jprofile Java 程序性能监控工具（提供了对应用程序开发和JVM的监控--次重要）

03

2020年最新Spark企业级面试题【上】

现在距离2021年还有不到一个月的时间了，是不是有的小伙明年不知该怎么复习spark，以及不知道该备战企业中会问到那些问题。好今天他来了总结了20个企业中经常被问到的面题以及会附带一些笔试题哦，编写不易建议收藏。

02

Spark性能优化总结

Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张，CPU，网络带宽，内存。通过都会将数据序列化，降低其内存memory和网络带宽shuffle的消耗。

03

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day24】——Spark11

1）参数用于设置每个stage的默认task数量。这个参数极为重要，如果不设置可能会直接影响你的Spark作业性能； 2）很多人都不会设置这个参数，会使得集群非常低效，你的cpu，内存再多，如果task始终为1，那也是浪费， spark官网建议task个数为CPU的核数*executor的个数的2~3倍。

02

Spark vs. Pig 时间缩短8倍，计算节约45%

Apache Pig是在HDFS和MapReduce之上的数据流处理语言，它将数据流处理自动转换为一个DAG（有向无环图）的MapReduce作业流去执行，为数据分析人员提供了更简单的海量数据操作接口。但是在DAG的作业流中，作业之间存在冗余的磁盘读写、网络开销以及多次资源申请，使得Pig任务存在严重的性能问题。大数据处理新贵Spark凭借其对DAG运算的支持、Cache机制和Task多线程池模型等优势，相比于MapReduce更适合用于DAG作业流的实现。腾讯TDW Spark平台基于社区最新Spark

06

调优 | Apache Hudi应用调优指南

通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。输入并行性：Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进行调整。我们建议设置shuffle的并发度，配置项为 hoodie.[insert|upsert|bulkinsert].shuffle.parallelism，以使其至少达到inputdatasize/500MB。 Off-heap（堆外）内存：Hudi写入parquet文件，需要使用一定的堆外内存，如果遇到此类故障，请考虑设置类似 spark.yarn.executor.memoryOverhead或 spark.yarn.driver.memoryOverhead的值。 Spark 内存：通常Hudi需要能够将单个文件读入内存以执行合并或压缩操作，因此执行程序的内存应足以容纳此文件。另外，Hudi会缓存输入数据以便能够智能地放置数据，因此预留一些 spark.memory.storageFraction通常有助于提高性能。调整文件大小：设置 limitFileSize以平衡接收/写入延迟与文件数量，并平衡与文件数据相关的元数据开销。时间序列/日志数据：对于单条记录较大的数据库/ nosql变更日志，可调整默认配置。另一类非常流行的数据是时间序列/事件/日志数据，它往往更加庞大，每个分区的记录更多。在这种情况下，请考虑通过 .bloomFilterFPP()/bloomFilterNumEntries()来调整Bloom过滤器的精度，以加速目标索引查找时间，另外可考虑一个以事件时间为前缀的键，这将使用范围修剪并显着加快索引查找的速度。 GC调优：请确保遵循Spark调优指南中的垃圾收集调优技巧，以避免OutOfMemory错误。[必须]使用G1 / CMS收集器，其中添加到spark.executor.extraJavaOptions的示例如下： -XX:NewSize=1g -XX:SurvivorRatio=2 -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof OutOfMemory错误：如果出现OOM错误，则可尝试通过如下配置处理：spark.memory.fraction=0.2，spark.memory.storageFraction=0.2允许其溢出而不是OOM（速度变慢与间歇性崩溃相比）。以下是完整的生产配置 spark.driver.extraClassPath /etc/hive/conf spark.driver.extraJavaOptions -XX:+PrintTenuringDistribution -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintGCTimeStamps -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof spark.driver.maxResultSize 2g spark.driver.memory 4g spark.executor.cores 1 spark.executor.extraJavaOptions -XX:+PrintFlagsFinal -XX:+PrintReferenceGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintAdaptiveSizePolicy -XX:+UnlockDiagnosticVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-

02

Spark性能调优02-代码调优

代码调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭