开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在包含join的Sparkjob中超出了GC开销限制

在包含join的Spark job中超出了GC开销限制是指在使用Spark进行数据处理时，由于数据量过大或者计算复杂度较高，导致在执行join操作时产生了大量的中间数据，进而导致垃圾回收（GC）的开销超出了系统的限制。

Spark是一个开源的分布式计算框架，它提供了高效的数据处理能力，特别适用于大规模数据集的处理和分析。在Spark中，join操作是常用的数据处理操作之一，它用于将两个或多个数据集按照某个共同的键值进行连接。

然而，当数据量较大或者计算复杂度较高时，join操作可能会产生大量的中间数据，这些中间数据需要在内存中进行存储和处理。由于内存资源是有限的，当中间数据超出了系统的内存限制时，就会触发垃圾回收机制来释放内存空间。垃圾回收会导致系统的性能下降，甚至可能导致任务失败或超时。

为了解决在包含join的Spark job中超出GC开销限制的问题，可以采取以下几种方法：

调整内存配置：可以通过调整Spark的内存配置参数来增加可用的内存空间，例如增加executor的内存分配、调整垃圾回收机制的参数等。具体的配置方式可以参考Spark官方文档。
优化数据处理逻辑：可以通过优化数据处理逻辑来减少中间数据的产生量，例如使用更合适的数据结构、减少不必要的计算步骤等。
使用分布式存储：可以将中间数据存储在分布式存储系统中，例如Hadoop HDFS、Tencent COS等，以减轻内存压力。在join操作中，可以将需要连接的数据集预先存储在分布式存储系统中，并通过Spark读取和处理。
使用分布式数据库：可以将需要连接的数据集存储在分布式数据库中，例如Tencent DB、Tencent TDSQL等，通过数据库的join操作来完成数据连接，减少中间数据的产生。
使用Spark的优化技术：Spark提供了一些优化技术，例如广播变量、分区裁剪等，可以在一定程度上减少中间数据的产生和传输。

总之，在包含join的Spark job中超出GC开销限制是一个常见的问题，需要综合考虑数据量、计算复杂度、内存配置等因素，并采取相应的优化措施来解决。腾讯云提供了一系列与Spark相关的产品和服务，例如Tencent Spark、Tencent EMR等，可以帮助用户在云上高效地进行大数据处理和分析。具体产品介绍和链接地址可以参考腾讯云官方网站。

相关搜索:Django2.x-使用ModelForm在表单中创建一个包含无限制项的列表包含正文和主题时邮件在Gmail中起作用的字符限制在MySQL中的特定表格的JOIN中限制1？在SPL TEDA 4.2中，我们对可以包含的输入文件类型的数量有限制吗？在同一个对象中获取一个包含最新帖子的Thread，latest()会产生巨大的开销如何将移动的div限制在包含的div中？如何避免在GeoSpark的范围查询中超出gc开销限制？我在php中做了self join，但它给出了错误的结果我应该如何限制父模型在laravel中可以包含的子模型的数量？我的数组包含一个空格[“"]。当我对带有下划线的空格执行.join操作时，结果字符串中的空格元素在html中是不可见的

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

关于大数据Flink内存管理的原理与实现

最近几年国内大数据apache开源社区计算框架最火的莫过于Flink，得益于阿里在后面的推动以及各大互联网大厂的参与，flink业已成为流式计算事实上的标准。一句话来介绍 Flink 就是 “Stateful Computations Over Streams”，基于数据流的有状态计算。flink的四个基石：Checkpoint、State、Time、Window。

03

flink二三事（2）：起家的技术

上一篇聊到flink的历史，请看上篇 flink两三事 ----（1）历史。可以说基本上是起了个大早，赶了个晚集，但是flink能做今天这种热度，没有被spark干死也是不容易。原来大家都在想办法突破MapReduce太慢的问题时候，除了spark，比如还有Tez等框架基本上销声匿迹了。14年flink在apache孵化能活下来并成为顶级项目的关键还是flink的有些自己的创新技术。 Spark的核心概念是RDD，抽象概念是弹性分布式数据集(RDD)，它是一个元素集合，划分到集群的各个节点上，可以被并行操

05

Spark利用Project Tungsten将硬件性能提升到极限

我们将为你介绍性能提升的下一阶段——Tungsten。在2014年，我们目睹了Spark缔造大规模排序的新世界纪录，同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。 Tungsten项目将是Spark自诞生以来内核级别的最大改动，以大幅度提升Spark应用程序的内存和CPU利用率为目标，旨在最大程度上压榨新时代硬件性能。Project Tungsten包括了3个方面的努力： Memory Management和Binary Processing：利用应用的语义（appl

07

Spark性能优化指南——基础篇

原文：https://tech.meituan.com/spark-tuning-basic.html

02

【技术博客】Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合

06

GC overhead limit exceeded 问题分析与解决

今天出现了一个很奇怪的异常：java.lang.OutOfMemoryError: GC overhead limit exceeded ，超出了GC开销限制。科普了一下，这个是JDK6新添的错误类型。是发生在GC占用大量时间为释放很小空间的时候发生的，是一种保护机制。一般是因为堆太小，导致异常的原因：没有足够的内存。

02

基于Spark的大规模机器学习在微博的应用

众所周知，自2015年以来微博的业务发展迅猛。如果根据内容来划分，微博的业务有主信息（Feed）流、热门微博、微博推送（Push）、反垃圾、微博分发控制等。每个业务都有自己不同的用户构成、业务关注点和数据特征。庞大的用户基数下，由用户相互关注衍生的用户间关系，以及用户千人千面的个性化需求，要求我们用更高、更大规模的维度去刻画和描绘用户。大体量的微博内容，也呈现出多样化、多媒体化的发展趋势。一直以来，微博都尝试通过机器学习来解决业务场景中遇到的各种挑战。本文为新浪微博吴磊在CCTC 2017云计算大会Spa

07

Spark 性能优化指南(官网文档)

由于大多数Spark组件基于内存的特性，Spark程序可能会因为集群中的任何资源而导致出现瓶颈：CPU、网络带宽或内存。通常情况下，如果数据适合于放到内存中，那么瓶颈就是网络带宽，但有时，我们还是需要内存进行一些调优的，比如以序列化的形式保存RDDs，以便减少内存占用。

01

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

每一台 host 上面可以并行 N 个 worker，每一个 worker 下面可以并行 M 个 executor，task 们会被分配到 executor 上面去执行。stage 指的是一组并行运行的 task，stage 内部是不能出现 shuffle 的，因为 shuffle 就像篱笆一样阻止了并行 task 的运行，遇到 shuffle 就意味着到了 stage 的边界。 CPU 的 core 数量，每个 executor 可以占用一个或多个 core，可以通过观察 CPU 的使用率变化来了解计算资源的使用情况，例如，很常见的一种浪费是一个 executor 占用了多个 core，但是总的 CPU 使用率却不高（因为一个 executor 并不总能充分利用多核的能力），这个时候可以考虑让一个 executor 占用更少的 core，同时 worker 下面增加更多的 executor，或者一台 host 上面增加更多的 worker 来增加并行执行的 executor 的数量，从而增加 CPU 利用率。但是增加 executor 的时候需要考虑好内存消耗，因为一台机器的内存分配给越多的 executor，每个 executor 的内存就越小，以致出现过多的数据 spill over 甚至 out of memory 的情况。 partition 和 parallelism，partition 指的就是数据分片的数量，每一次 task 只能处理一个 partition 的数据，这个值太小了会导致每片数据量太大，导致内存压力，或者诸多 executor 的计算能力无法利用充分；但是如果太大了则会导致分片太多，执行效率降低。在执行 action 类型操作的时候（比如各种 reduce 操作），partition 的数量会选择 parent RDD 中最大的那一个。而 parallelism 则指的是在 RDD 进行 reduce 类操作的时候，默认返回数据的 paritition 数量（而在进行 map 类操作的时候，partition 数量通常取自 parent RDD 中较大的一个，而且也不会涉及 shuffle，因此这个 parallelism 的参数没有影响）。所以说，这两个概念密切相关，都是涉及到数据分片的，作用方式其实是统一的。通过 spark.default.parallelism 可以设置默认的分片数量，而很多 RDD 的操作都可以指定一个 partition 参数来显式控制具体的分片数量。看这样几个例子：（1）实践中跑的 Spark job，有的特别慢，查看 CPU 利用率很低，可以尝试减少每个 executor 占用 CPU core 的数量，增加并行的 executor 数量，同时配合增加分片，整体上增加了 CPU 的利用率，加快数据处理速度。（2）发现某 job 很容易发生内存溢出，我们就增大分片数量，从而减少了每片数据的规模，同时还减少并行的 executor 数量，这样相同的内存资源分配给数量更少的 executor，相当于增加了每个 task 的内存分配，这样运行速度可能慢了些，但是总比 OOM 强。（3）数据量特别少，有大量的小文件生成，就减少文件分片，没必要创建那么多 task，这种情况，如果只是最原始的 input 比较小，一般都能被注意到；但是，如果是在运算过程中，比如应用某个 reduceBy 或者某个 filter 以后，数据大量减少，这种低效情况就很少被留意到。最后再补充一点，随着参数和配置的变化，性能的瓶颈是变化的，在分析问题的时候不要忘记。例如在每台机器上部署的 executor 数量增加的时候，性能一开始是增加的，同时也观察到 CPU 的平均使用率在增加；但是随着单台机器上的 executor 越来越多，性能下降了，因为随着 executor 的数量增加，被分配到每个 executor 的内存数量减小，在内存里直接操作的越来越少，spill over 到磁盘上的数据越来越多，自然性能就变差了。下面给这样一个直观的例子，当前总的 cpu 利用率并不高：

02

从 PageRank Example 谈 Spark 应用程序调优

最近做了关于Spark Cache性能测试，开始是拿BigData-Benchmark中Spark KMeans来作为测试基准，分别测试各种Cache下应用程序的运行速度，最后使用Spark PageRank Example来验证。在做PageRank测试时，发现有很多有趣的调优点，想到这些调优点可能对用户来说是普遍有效的，现把它整理出来一一分析，以供大家参考。

02

从 PageRank Example 谈 Spark 应用程序调优

本文阐述了大数据处理框架Spark在大数据处理过程中的优势，包括处理速度快、易扩展、高可用以及支持多种编程语言等特点。同时，文章还介绍了Spark在大数据处理中的数据倾斜问题、高阶函数、广播变量、算子驱动等优化点。最后，本文总结了Spark在大数据处理中的资源调度、数据倾斜、广播变量等方面的技术实践。

04

从 PageRank Example 谈 Spark 应用程序调优

场景描述：最近做了关于Spark Cache性能测试，开始是拿BigData-Benchmark中Spark KMeans来作为测试基准，分别测试各种Cache下应用程序的运行速度，最后使用Spark PageRank Example来验证。在做PageRank测试时，发现有很多有趣的调优点，想到这些调优点可能对用户来说是普遍有效的，现把它整理出来一一分析，以供大家参考。

04

Spark程序开发调优（前奏）

Spark 性能优化的第一步，就是要在开发 Spark 作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些 Spark 基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的 Spark 作业中。

01

Spark调优

因为Spark是内存当中的计算框架，集群中的任何资源都会让它处于瓶颈，CPU、内存、网络带宽。通常，内存足够的情况之下，网络带宽是瓶颈，这时我们就需要进行一些调优，比如用一种序列化的方式来存储RDD来减少内存使用，这边文章就讲两种方式，数据序列化和内存调优，接下来我们会分几个主题来谈论这个调优问题。 1、数据序列化（1） Spark默认是使用Java的ObjectOutputStream框架，它支持所有的继承于java.io.Serializable序列化,如果想要进行调优的话，可以通过继承java.io

08

A Java Fork/Join Framework（Doug Lea 关于java Fork/Join框架的论文翻译）

Doug Lea State University of New York at Oswego Oswego NY 13126 315−341−2688 dl@cs.oswego.edu

02

Flink高效的内存管理

如今，大数据领域的开源框架（Hadoop，Spark，Storm）都使用的 JVM，当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中，这就不得不面对 JVM 存在的几个问题：

02

Spark 性能调优之开发调优

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

03

.NET Core多线程 (1) Thread与Task

.NET Core中加入了本地队列，加入了本地队列，降低了锁竞争，并提高了线程的利用率。

03

Spark性能调优02-代码调优

代码调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。

02

三万字长文 | Spark性能优化实战手册

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

02

三万字长文 | Spark性能优化实战手册

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

02

四万字长文 | Spark性能优化实战手册（建议收藏）

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

02

万字Spark性能优化宝典（收藏版）

导读：发现一篇好文，分享给大家。全文分为四个部分，基本涵盖了所有Spark优化的点，面试和实际工作中必备。全文较长，建议收藏后PC端查看或工作中问题troubleshooting。

01

2022年9月26日 Go生态洞察：Go运行时4年后的进展

🐱 猫头虎博主来啦！今天带来的是Go语言的最新动态。如果你是一个Go语言爱好者，那这篇文章一定不容错过！一起来看看自2018年以来Go运行时和Go垃圾收集器（GC）有哪些新的变化吧！🚀

01

Spark常见错误问题汇总

一.SparkSQL相关在执行insert 语句时报错，堆栈信息为：FileSystem closed。常常出现在ThriftServer里面。原因：由于hadoop FileSystem.get 获得的FileSystem会从缓存加载，如果多线程一个线程closedFileSystem会导致该BUG 解决方法：hdfs存在不从缓存加载的解决方式，在hdfs-site.xml 配置 fs.hdfs.impl.disable.cache=true即可在执行Spark过程中抛出：Failed to big

01

Flink 1.14.0 内存优化你不懂？跟着土哥走就对了（万字长文+参数调优）

自从写 Flink 系列文章，收到了太多读者的私信，希望我不断更新完善 Flink 专栏，为此，土哥还专门创建了一个文档，用来记录粉丝和读者在使用 Flink 组件时遇到的典型问题。

04

【Spark重点难点06】SparkSQL YYDS(中)！

在上节课中我们讲解了Spark SQL的来源，Spark DataFrame创建的方式以及常用的算子。这节课继续讲解Spark SQL中的Catalyst优化器和Tungsten，以及Spark SQL的Join策略选择。

01

高性能Go语言发行版优化与落地实践｜青训营笔记

课程导学：https://juejin.cn/post/7095977466094682148/#comment

01

Flink 原理与实现：内存管理

北京理工大学硕士毕业，2015 年加入阿里巴巴，参与阿里巴巴实时计算引擎 JStorm 的开发与设计。2016 年开始从事阿里新一代实时计算引擎 Blink SQL 的开发与优化，并活跃于 Flink 社区，于2017年2月成为ApacheFlink Committer，是国内早期 Flink Committer 之一。目前主要专注于分布式处理和实时计算，热爱开源，热爱分享。

01

Spark性能优化总结

Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张，CPU，网络带宽，内存。通过都会将数据序列化，降低其内存memory和网络带宽shuffle的消耗。

03

Spark性能调优指北：性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

03

Spark性能调优指北：性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

06

Spark性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

03

常见 JVM 面试题+“答案”, 听说发完年终奖你就需要它了

有些面试题是开放性的，有些是知识性的，注意区别。面试并没有标准答案，尤其是开放性题目，你需要整理成白话文，来尽量的展示自己。

02

保守式 GC 与准确式 GC，如何在堆中找到某个对象的具体位置？

user 这个变量是存在栈中的对吧，name = Jack 的这个 User 对象是存在堆中的，创建对象自然是为了后续使用该对象，那么如何在堆中找到这个对象的具体位置呢（也称为对象的访问定位）？

04

Java Fork/Join 框架

响应式编程（Reactive Programming / RP）作为一种范式在整个业界正在逐步受到认可和落地，是对过往系统的业务需求理解梳理之后对系统技术设计/架构模式的提升总结。Java作为一个成熟平台，对于趋势一向有些稳健的接纳和跟进能力，有着令人惊叹的生命活力：

01

一文了解JDK12 13 14 GC调优秘籍-附PDF下载

想了解JDK12，13，14中的GC调优秘籍吗？想知道这三个版本中JVM有什么新的变化吗？

02

Spark性能调优-Shuffle调优及故障排除篇（万字好文）

在划分stage时，最后一个stage称为FinalStage，它本质上是一个ResultStage对象，前面的所有stage被称为ShuffleMapStage。

04

Spark 的性能调优

下面这些关于 Spark 的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。

01

Spark的性能调优

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。

02

Spark配置参数调优

在项目中，由于数据量为几百万甚至千万级别，如果一个executor装载的对象过多，会导致GC很慢。项目中，我们使一个worker节点执行app时启动多个executor，从而加大并发度，解决full GC慢的问题。同时，由于启动了多个exeucute，在内存与核数不变的情况下，需要调整分配给每个execute的内存数及核数。

02

Flink重点难点：内存模型与内存结构

Java 虚拟机在执行Java程序的过程中会把它在主存中管理的内存部分划分成多个区域，每个区域存放不同类型的数据。下图所示为java虚拟机运行的时候，主要的内存分区：

03

大数据技术之_19_Spark学习_07_Spark 性能调优小结

========== Spark 的监控方式 ========== 1、Spark Web UI Spark 内置应用运行监控工具（提供了应用运行层面的主要信息--重要） 2、Ganglia 分析集群的使用状况和资源瓶颈（提供了集群的使用状况--资源瓶颈--重要） 3、Nmon 主机 CPU、网络、磁盘、内存（提供了单机信息） 4、Jmeter 系统实时性能监控工具（提供了单机的实时信息） 5、Jprofile Java 程序性能监控工具（提供了对应用程序开发和JVM的监控--次重要）

03

Spark常见20个面试题（含大部分答案）

1、什么是宽依赖，什么是窄依赖？哪些算子是宽依赖，哪些是窄依赖？窄依赖就是一个父RDD分区对应一个子RDD分区，如map，filter 或者多个父RDD分区对应一个子RDD分区，如co-partioned join

01

Java虚拟机详解----JVM内存结构

http://www.cnblogs.com/smyhvae/p/4748392.htm

02

Java虚拟机详解02----JVM内存结构

Java程序在运行时，需要在内存中的分配空间。为了提高运算效率，就对数据进行了不同空间的划分，因为每一片区域都有特定的处理数据方式和内存管理方式。

04

java线程池(四)：ForkJoinPool的使用及基本原理

在前面学习了ThreadpoolExecutor线程池之后，我们知道，ThreadPoolExecutor实际上是AbstractExecutorService的一个实现类。我们再看看AbstractExecutorService的实现类：

02

Flink 常见问题定位指南

流计算作业通常运行时间长，数据吞吐量大，且对时延较为敏感。但实际运行中，Flink 作业可能因为各种原因出现吞吐量抖动、延迟高、快照失败等突发情况，甚至发生崩溃和重启，影响输出数据的质量，甚至会导致线上业务中断，造成报表断崖、监控断点、数据错乱等严重后果。

05

TiDB 2.1 GA Release Notes

2018 年 11 月 30 日，TiDB 发布 2.1 GA 版。相比 2.0 版本，该版本对系统稳定性、性能、兼容性、易用性做了大量改进。

00

中小规模搜索引擎（ElasticSearch）典型应用场景及性能优化（三）

再说到性能优化，个人把搜索引擎的性能优化分为索引数据优化和查询流程优化两方面，这次先来聊聊索引数据优化。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭