开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么我的spark作业在调用collect()时被卡住了？

在进行Spark作业时，当调用collect()方法时卡住的原因可能有多种。下面是一些可能导致此问题的常见原因和解决方法：

数据量过大：如果你的数据集非常大，调用collect()方法将会尝试将所有数据从集群中收集到驱动程序中，这可能导致内存不足或网络拥塞。解决方法是使用其他操作代替collect()，如take()或foreach()，以减少返回的数据量。
内存不足：如果集群中的可用内存不足以容纳整个数据集，调用collect()方法可能会导致内存溢出。可以通过增加集群的内存或调整Spark作业的内存配置来解决此问题。
网络问题：如果网络带宽有限或存在网络故障，调用collect()方法可能会导致数据传输延迟或失败。确保网络连接正常，并尝试在网络状况较好的时候运行作业。
作业执行时间过长：如果作业的计算量非常大，调用collect()方法可能需要很长时间才能完成。可以通过优化作业的代码、增加集群的计算资源或使用分布式存储系统来提高作业的执行效率。
数据倾斜：如果数据在分布式集群中不均匀地分布，某些节点可能会处理更多的数据，导致调用collect()方法时出现性能问题。可以通过重新分区数据或使用Spark的数据倾斜解决方案来解决数据倾斜问题。

总之，调用collect()方法时卡住的原因可能是数据量过大、内存不足、网络问题、作业执行时间过长或数据倾斜等。根据具体情况，可以采取相应的解决方法来解决该问题。

相关搜索:为什么我的concurrentSkipListSet在多次添加时卡住了？为什么我在Azkaban中的Sqoop任务在列被选中后被卡住了？为什么我的on_message在我的命令之后被调用？为什么我的闭包没有在我期望的时候被调用？为什么django在加载一个不存在的模板时被卡住了？为什么我的函数没有在SignalR集线器上被调用为什么我的GPU在训练数据时被中断？为什么我的UIViewController的视图在可见时被卸载？当我运行这个函数时，为什么我的用户输入没有被调用？为什么我的动作创建器在使用thunk时被调用的顺序是错误的？为什么在等待之后我的代码行没有被调用？为什么我的测试在验证mock函数时失败，尽管它已经被调用了？为什么我的数组在observedobject更新时被清空了？为什么我的选项卡内容在单击时不会更改？为什么OnLevelWasLoaded ()被调用两次，为什么我的变量在每次调用中都有不同的值？为什么我的操作在传递给eventhandlers时没有被调度？为什么我的变量在I volley调用成功后被设置为null 每当我浏览应用程序viewPager时,为什么我的片段onCreate被广泛调用？我无法获得此代码的输出。在使用onclick时，我的函数似乎没有被调用为什么我的函数在第二次被调用时没有定义？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark 2.0 DataFrame map操作中Unable to find encoder for type stored in a Dataset.问题的分析与解决

随着新版本的spark已经逐渐稳定，最近拟将原有框架升级到spark 2.0。还是比较兴奋的，特别是SQL的速度真的快了许多。。然而，在其中一个操作时却卡住了。主要是dataframe.map操作，这个之前在spark 1.X是可以运行的，然而在spark 2.0上却无法通过。。看了提醒的问题，主要是： ******error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc)

09

Apache Spark:来自Facebook的60 TB +生产用例

浪尖整理翻译https://databricks.com/blog/2016/08/31/apache-spark-scale-a-60-tb-production-use-case.html。

02

Spark常用的算子以及Scala函数总结

上海站 | 高性能计算之GPU CUDA培训 4月13-15日三天密集式学习快速带你晋级阅读全文 > 正文共11264个字，7张图，预计阅读时间28分钟。 Spark与Scala 首先，介绍一

Spark常用的算子以及Scala函数总结

首先，介绍一下scala语言： Scala 是一种把面向对象和函数式编程理念加入到静态类型语言中的混血儿。

02

如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业

继上一章介绍如何使用R连接Hive与Impala后，Fayson接下来讲讲如何在CDH集群中提交R的Spark作业，Spark自带了R语言的支持，在此就不做介绍，本文章主要讲述如何使用Rstudio提供的sparklyr包，向CDH集群的Yarn提交R的Spark作业。

06

如何在CDSW上调试失败或卡住的Spark应用

默认情况下，CDSW会话中的Spark应用程序只显示ERROR级别的日志，当作业出现异常或卡住时无法查看作业运行详细日志及异常堆栈信息，不能根据日志的上下文正确的定位问题。在Cloudera Data Science Workbench中允许基于每个Project配置较低级别的Spark运行日志记录，Spark2使用的是Apache Log4j，可以通过log4j.properties文件配置日志输出级别。本篇文章Fayson主要介绍如何在CDSW上调试失败或卡住的Spark作业。

03

PySpark入门级学习教程，框架思维（上）

为什么要学习Spark？作为数据从业者多年，个人觉得Spark已经越来越走进我们的日常工作了，无论是使用哪种编程语言，Python、Scala还是Java，都会或多或少接触到Spark，它可以让我们能够用到集群的力量，可以对BigData进行高效操作，实现很多之前由于计算资源而无法轻易实现的东西。网上有很多关于Spark的好处，这里就不做过多的赘述，我们直接进入这篇文章的正文！

02

Spark学习之Spark调优与调试（7）

本文介绍了Spark调优与调试的方法和技巧，包括设置SparkConf、查看应用进度信息和性能指标、Spark执行组成部分、使用Spark shell完成简单的日志分析应用、查看RDD和DataFrame等。同时，还讲解了Spark网页用户界面的使用方法以及关键性能考量。

07

Spark调优 | Spark OOM问题常见解决方式

Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型：Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。

03

Hadoop与Spark常用配置参数总结

背景 MapReduce和Spark对外提供了上百个配置参数，用户可以为作业定制这些参数以更快，更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。 (2) mapreduce.reduce.memory.mb: 一个Reduce Ta

06

Spark2.4.0源码分析之WorldCount 触发作业提交(二)

Spark2.4.0源码分析之WorldCount 触发作业提交(二) 更多资源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 主要内容描述 Final RDD作为参数，通过RDD.collect()函数触发作业提交时序图 https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/image/example/spark-sql-d

01

ElasticSearch Aggregations 分析

我记得有一次到一家公司做内部分享，然后有研发问我，即席分析这块，他们用ES遇到一些问题。我当时直接就否了，我说ES还是个全文检索引擎，如果要做分析，还是应该用Impala,Phenix等这种主打分析的产品。随着ES的发展，我现在对它的看法，也有了比较大的变化。而且我认为ES+Spark SQL组合可以很好的增强即席分析能够处理的数据规模，并且能够实现复杂的逻辑，获得较好的易用性。

03

Hive迁移Saprk SQL的坑和改进办法

Qcon 全球软件开发者大会2016北京站演讲主题：Spark在360的大规模实践与经验分享李远策 360-Spark集群概况 360-Spark集群概况 360-Spark应用 MLLib

08

Spark on Yarn年度知识整理

Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

02

Spark知识体系完整解读

Spark简介 Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口 Sparkon Yarn

02

借助Spark Web UI排查Spark任务

一般比较关注YarnApplicationState 、Logs、ApplicationMaster。

02

4.3 RDD操作

4.3 RDD操作 RDD提供了一个抽象的分布式数据架构，我们不必担心底层数据的分布式特性，而应用逻辑可以表达为一系列转换处理。通常应用逻辑是以一系列转换（Transformation）和执行（Action）来表达的，前者在RDD之间指定处理的相互依赖关系，后者指定输出的形式。其中： □转换：是指该操作从已经存在的数据集上创建一个新的数据集，是数据集的逻辑操作，并没有真正计算。 □执行：是指该方法提交一个与前一个Action之间的所有Transformation组成的Job进行计算，Spark会根据A

07

Spark2.4.0源码分析之WorldCount FinalRDD构建(一)

Spark2.4.0源码分析之WorldCount FinalRDD构建(一) 更多资源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 主要内容描述 Spark dataSet执行计算转成FinalRDD FinalRdd从第一个RDD到最到一个RDD的转化过程 RDD之间的依赖引用关系 ShuffleRowRDD默认分区器为HashPartitioning,实际new Partitioner,分区个数为200 Fina

01

【大数据哔哔集20210117】Spark面试题灵魂40问

1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类 local：只启动一个executor local[k]:启动k个executor local[ * ]:启动跟cpu数目相同的 executor

02

Spark源码系列（八）Spark Streaming实例分析

这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程指南》。 Example代码分析 val ssc = new StreamingContext(sparkConf, Seconds(1)); // 获得一个DStream负责连接监听端口:地址 val lines = ssc.socketTextStream(serverIP, serverPort); // 对每一行数据执行Split操作 val words = lines.flatM

07

1.4　弹性分布式数据集

Spark大数据分析实战 1.4　弹性分布式数据集本节将介绍弹性分布式数据集RDD。Spark是一个分布式计算框架，而RDD是其对分布式内存数据的抽象，可以认为RDD就是Spark分布式算法的数据结构，而RDD之上的操作是Spark分布式算法的核心原语，由数据结构和原语设计上层算法。Spark最终会将算法（RDD上的一连串操作）翻译为DAG形式的工作流进行调度，并进行分布式任务的分发。 1.4.1　RDD简介在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Dist

08

01-Spark的Local模式与应用开发入门

Spark 运行模式之一，用于在本地机器上单机模拟分布式计算的环境。在 local 模式下，Spark 会使用单个 JVM 进程来模拟分布式集群行为，所有 Spark 组件（如 SparkContext、Executor 等）都运行在同一个 JVM 进程中，不涉及集群间通信，适用本地开发、测试和调试。

00

Flink Back Pressure(背压)是怎么实现的？有什么绝妙之处？

场景描述：如果看到任务的背压警告（如 High 级别），这意味着生成数据的速度比下游算子消费的的速度快。以一个简单的 Source -> Sink 作业为例。如果能看到 Source 有警告，这意味着 Sink 消耗数据的速度比 Source 生成速度慢。Sink 正在向 Source 施加反压。

02

Spark的调度系统

一，简介 Spark调度机制可以理解为两个层面的调度。首先，是Spark Application调度。也就是Spark应用程序在集群运行的调度，应用程序包括Driver调度和Executor调度。其次，就是每个Spark Application都会有若干Jobs(Spark Actions)，然后这些job是以何种机制，在Executor上执行的，也是需要一个调度管理的机制，该层面调度也可以理解为SparkContext内部调度。之所以会出现这种情况，主要是生产中可能会希望一个SparkContext作为服

08

Spark 与 Hadoop 学习笔记介绍及对比

这篇博客将会简单记录Hadoop与Spark对比，HDFS，MapReduce的基本概念，及Spark架构设计，RDD，运行模式。整理起来一起阅读方便我们理解整个大数据处理框架全局和发展。

03

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇，以为自己写不完了，但为了改正拖延症，还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程（本地+集群），性能调优以及Spark SQL相关的知识，如果对Spark不熟的同学可以先看看之前总结的两篇文章：【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性 #####我是

3万字长文，PySpark入门级学习教程，框架思维

关于PySpark，我们知道它是Python调用Spark的接口，我们可以通过调用Python API的方式来编写Spark程序，它支持了大多数的Spark功能，比如SparkDataFrame、Spark SQL、Streaming、MLlib等等。只要我们了解Python的基本语法，那么在Python里调用Spark的力量就显得十分easy了。下面我将会从相对宏观的层面介绍一下PySpark，让我们对于这个神器有一个框架性的认识，知道它能干什么，知道去哪里寻找问题解答，争取看完这篇文章可以让我们更加丝滑地入门PySpark。话不多说，马上开始！

02

万字详解 Spark 数据倾斜及解决方案（建议收藏）

一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾斜的key的数据分布情况八、数据倾斜的解决方案：

01

Spark之数据倾斜调优

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

02

三万字长文 | Spark性能优化实战手册

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

02

Spark重点难点 | 万字详解Spark 性能调优

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

02

系列 | Spark之数据倾斜调优

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

01

系列 | Spark之数据倾斜调优

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

00

三万字长文 | Spark性能优化实战手册

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

02

四万字长文 | Spark性能优化实战手册（建议收藏）

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

02

Spark性能调优篇七之JVM相关参数调整

由于Spark程序是运行在JVM基础之上的，所以我们这一篇来讨论一下关于JVM的一些优化操作。在开始JVM调优操作之前，我们先通过一张图看一下JVM简单的内存划分情况。

01

万字Spark性能优化宝典（收藏版）

导读：发现一篇好文，分享给大家。全文分为四个部分，基本涵盖了所有Spark优化的点，面试和实际工作中必备。全文较长，建议收藏后PC端查看或工作中问题troubleshooting。

01

SparkCore快速入门系列（5）

铁铁们，博主前段时间在做一些项目加上找工作所以到现在才更新，(__) 嘻嘻…… 博主现在已经工作啦，后期会给你们更新一些关于数据库以及报表开发的文章哦！接下来言归正传！！！！！！

01

Flink Back Pressure

如果看到任务的背压警告（如 High 级别），这意味着生成数据的速度比下游算子消费的的速度快。以一个简单的 Source -> Sink 作业为例。如果能看到 Source 有警告，这意味着 Sink 消耗数据的速度比 Source 生成速度慢。Sink 正在向 Source 施加反压。

02

揭秘Spark应用性能调优

我们知道Spark 可以通过 RDD 实现计算链的原理：转换函数包含在 RDD 链中，但仅在调用 action 函数后才会触发实际的求值过程，执行分布式运算，返回运算结果。要是在同一 RDD 上重复调用 action 会发生什么？

02

Flink Back Pressure

如果看到任务的背压警告（如 High 级别），这意味着生成数据的速度比下游算子消费的的速度快。以一个简单的 Source -> Sink 作业为例。如果能看到 Source 有警告，这意味着 Sink 消耗数据的速度比 Source 生成速度慢。Sink 正在向 Source 施加反压。

01

Spark性能调优04-数据倾斜调优

数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据，然后1秒钟就运行完了；但是个别task可能分配到了100万数据，要运行一两个小时。因此，整个Spark作业的运行进度是由运行时间最长的那个task决定的。

05

Spark 算子

RDD算子分类，大致可以分为两类，即： Transformation：转换算子，这类转换并不触发提交作业，完成作业中间过程处理。 Action：行动算子，这类算子会触发SparkContext提交Job作业。一：Transformation：转换算子 1.map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例： scala> val a = sc.parallelize(1 to 9, 3) scala> val

05

11月大数据面试题复习

2 为什么要前后端分离开发？前后端分离开发的优势和劣势？让专业的人做专业的事情优势：分工明确，各司其职劣质：前后端联调需要消耗比较多的时间

01

Spark优化(二)----资源调优、并行度调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。

02

【万字长文】Spark最全知识点整理（内含脑图）

Spark有以下四种部署方式，分别是：Local，Standalone，Yarn，Mesos

01

理解Spark里的闭包

闭包的概念如下图：在spark应用里，变量及函数的作用范围和声明周期在spark的集群运行模式下是比较难理解的，尤其是对初学者来说。RDD的操作，要修改其作用范围的变量，经常会出点叉子。下面，可以举

02

Spark2.0学习（一）--------Spark简介

Apache Spark™ is a unified analytics engine for large-scale data processing

03

Spark源码系列（三）作业运行过程

作业执行上一章讲了RDD的转换，但是没讲作业的运行，它和Driver Program的关系是啥，和RDD的关系是啥？官方给的例子里面，一执行collect方法就能出结果，那我们就从collect开始看吧，进入RDD，找到collect方法。 def collect(): Array[T] = { val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray) Array.concat(results: _*)

04

【Spark研究】用Apache Spark进行大数据处理之入门介绍

什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。首先，Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。将Hadoop集群的中的应用在内出中运行速度提升100倍，甚至

09

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭