Apache Spark如何收集和协调来自执行器的结果

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、、

发布此问题以了解Apache Spark如何收集和协调来自执行者的结果。假设我正在运行一个有3个执行器的作业。我的DataFrame是分区的，并在这3个执行器上运行。那么，当我在DataFrame上执行count()或collect()操作时，spark将如何协调这三个执行器的结果<

浏览 33提问于2019-11-04得票数 0

1回答

火花-提交：--罐子不起作用

、

我正在为火花流作业构建度量系统，在系统中，每个执行者收集度量，因此需要在每个执行器中初始化度量源(用于收集度量的类)。如果执行者能够等到所有资源准备就绪，问题就会解决，但我真的不知道如何去做。错误

浏览 4提问于2016-01-15得票数 5

1回答

spark.python.worker.memory与spark.executor.memory的关系如何？

、、、

非常清楚不同纱线与火花内存相关设置之间的关系，除非涉及到spark.python.worker.memory。更新解释了设置的功能，但没有回答有关内存治理的问题，也没有回答它与其他内存设置的关系

浏览 3提问于2016-04-13得票数 10

回答已采纳

1回答

为什么在增加memoryOverhead后收集大型数据集成功

、

简介我对驱动程序和执行器都使用相同的配置。我想知道，因为我正在做一个相当大的收集(创建一个~1.5G地图(长，长))，然后我打算广播给所有的执行者。当我在没有显式指定开销(缺省值为0.1)的情况下进行<e

浏览 1提问于2018-11-27得票数 2

回答已采纳

1回答

Spark K-means性能随节点/实例的增加而降低

、、、、

我本以为随着集群上节点数量的增加，Spark的性能会提高(执行时间减少)，但我得到的却是相反的结果。使用更多的工作节点/实例比使用单个工作节点的性能更差(执行时间更长)。对于包含5个、10个和15个工作节点的集群，我也得到了相同的结果；随着节点数量的增加，性能会降低。我尝试改变分区(spark.sql.shuffle.partitions)，并使用不同

浏览 11提问于2019-10-23得票数 0

1回答

HDInsigh Spark如何使用以下代码

、、

我是Spark和HDInsight的新手。我想知道下面的代码是如何工作的？我的意思是如何在集群节点之间调度作业。我如何让Spark知道我想要在工作节点上执行一些代码？// the code is from https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-

浏览 30提问于2019-09-24得票数 0

1回答

如果我启动火花-提交与执行器内存1G和驱动器内存1G在纱线模式。我在星火日志中看到了以下内容： INFO org.apache.spark.storage.BlockManagerMasterEndpoint:注册块管理器10.10.11.116:36011与366.3MB内存，BlockManagerId(驱动程序，10.10.11.116,36011，无)信息org.apache.spark.storage.BlockManagerMasterEndpoint:RAM, %s".forma

浏览 0提问于2018-03-28得票数 2

2回答

如果文件大小大于spark中的驱动程序大小，会发生什么情况？

、

有人能向我解释一下，如果我们的数据比驱动程序的大小大得多，会发生什么？在这种情况下，Spark究竟是如何工作的？如果它将数据缓存在磁盘内存中，那么它将如何成为“内存中计算”？任何帮助都将不胜感激。

浏览 46提问于2021-11-16得票数 0

回答已采纳

1回答

Hortonworks纱线故障的字数计算实例

、、、、

我有带有Hadoop2.2.0的Hortonworks sandbox，我在沙箱上安装了Apache-spark技术预览。下面是我用于执行的步骤：在Eclipse中，我创建了一个Java项目，在src下，主管创建了一个文件JavaWordCount，代码取自Apache附带的示例示例。-主纱-客户-num-执行器1-驱动器-内存512 m-执行器-内存512 m-执行器-核心1/家庭/火车/桌面&#

浏览 1提问于2015-02-28得票数 0

1回答

为什么分配给spark作业的executor内存参数与yarn上分配的内存不匹配？

、

true") .set("spark.kryoserializer.buffer.max", "512m") .set("spark.serializer", classOf[org.apache.<em

浏览 2提问于2019-12-13得票数 0

2回答

指定spark提交的spark驱动程序

我正在提交一个shell脚本中的spark作业，该脚本有一堆环境变量和参数要传递给spark。奇怪的是，驱动程序主机不在这些参数中(但是有驱动程序内核和内存)。我不想要这种行为，因为1)我提交的jar只在其中一台机器上，2)驱动机器通常应该比其他机器小，如果它是随机选择的话就不是这种情况。到目前为止，我还没有找到在命令行中为spark-submit指定此参数的方法。我已经尝试了--conf SPARK_DRIVER_HOST="172.30.

浏览 22提问于2017-03-03得票数 0

1回答

来自非主类的调试、警告和信息消息在spark* executor日志记录中不可见*

、、、

我们尝试了各种解决方案，包括更改log4j.properties文件，通过--file将该文件复制到执行器，然后告诉它们将其用作通过--conf传递给spark的arg，还尝试更新EMR集群本身的配置。在执行器日志中可以看到来自系统的警告消息。来自主类的警告消息是可见的，但是没有来自任何其他类的消息通过以太，并且我们不确定问题可能是什么。日志级别很好，如Spark

浏览 0提问于2016-09-30得票数 2

1回答

GCE中未使用工作节点

、、

在google-cloud-dataproc上运行我的spark作业时，我注意到只有主节点被利用，所有工作节点的CPU利用率几乎为0% (0.8 %左右)。我同时使用了GUI和控制台来运行代码。您是否知道可能导致这种情况的任何特定原因，以及如何充分利用工作节点？我以以下方式提交作业： gcloud dataproc作业提交spark --属性spark.executor.cores=10 --集群集群--663c --class ComputeMST --jar

浏览 0提问于2018-04-03得票数 1

2回答

Scala spark，listbuffer为空

、、

在注释1中的这段代码中，listbuffer项的长度显示正确，但在第二个注释中，代码永远不会执行。为什么会发生这种情况？executor ID driver on host localhost 16/11/20 01:16:53 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService59 INFO SparkContext: Invoking s

浏览 1提问于2016-11-20得票数 1

2回答

火花驱动存储器和执行器存储器

、、、

我是Spark的初学者，我正在运行我的应用程序，从文本字段读取14 am的数据，进行一些转换和操作(收集，collectAsMap)，并将数据保存到数据库

浏览 5提问于2017-01-14得票数 12

0回答

在hadoop群集中运行spark时，无法通过yarn获得更快的结果

、、、

应用Spark1.4 ()中的LSH算法，我处理了一个LIBSVM格式()的文本文件(4 4GB)，以查找重复项。首先，我在一个服务器上运行了我的scala脚本，它只使用了一个具有36个核心的执行器。我在1.5小时内检索到了我的结果。为了更快地得到我的结果，我尝试在hpc中通过yarn在hadoop集群中运行我的代码，hpc有3个节点，每个节点有20个核心和64 gb内存。由于我在hpc中运行代码

浏览 15提问于2016-12-20得票数 0

2回答

理解mesos上火花作业的资源分配

、

我正在研究星火的一个项目，最近我从使用Spark独立应用到用于集群管理的Mesos。现在，我发现自己对在新系统下提交职务时如何分配资源感到困惑。在独立模式下，我使用了类似的东西(遵循的一些建议) -令人欣慰的是，我很好地控制了运行的执行者的<

浏览 2提问于2015-12-11得票数 6

回答已采纳

1回答

Map转换性能火花数据帧与RDD

、、、

我的代码流程是从hive表中读取数据作为spark dataframe，并在其中一列上应用所需的函数，如下所示： schema = StructType([StructField("field1", IntegerType，确保代码以最大的并行度和降低的吞吐量运行--在我的问题背景下，我需要帮助来使用spark概念，如“重新分区”、“SparkConf中的并行值”或其他方法。任何帮助都是非常感谢的。我的</

浏览 2提问于2016-08-24得票数 1

2回答

在关闭我的终端时，如何在服务器上使用python运行我的dse spark应用程序呢？

、、

这是我的submit命令，我不知道如何在我的终端窗口关闭时在后台运行它：提交-主火花://主火花:7077-执行器-内存2G -总-执行器-核心2-包org.apache.spark:spark-streaming-kafka

浏览 4提问于2016-02-23得票数 1

回答已采纳

2回答

如何序列化elastic4s ElasticSearch客户端以使用Spark运行？

、、、、

目前，我正在运行Spark对百万用户和产品和以下代码，因为高度洗牌到磁盘，收集步骤比recommendProductsForUsers步骤花费更多的时间。因此，如果我能够以某种方式将数据从执行器中移除、收集、执行步骤并直接提供给elasticsearch，那么将节省大量的时间和计算资源。client.execute { index into "recommendations1" / "items" id curr_user fie

浏览 3提问于2015-08-11得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云