Spark性能监控

、、

我需要向管理/客户端显示用于运行spark作业的executor-memory、内核数量、默认并行度、shuffle分区数量和其他配置属性没有过多或超过要求。我需要一个监控(与可视化)工具，通过它我可以证明spark作业中的内存使用情况。此外，它还应该提供内存未正确使用或某些工作需要更多内存等信息。请推荐一些应用程序或工具。

浏览 13提问于2019-12-27得票数 0

1回答

谷歌云DataProc的性能监控

、

对于处理，我们目前使用的是google cloud dataproc & spark-streaming。我们希望使用Ganglia、Graphite、Dr.Elephant等监控工具来检查作业性能。要设置其中任何一个，都需要修改每个节点中的配置。我想知道，数据处理程序本身是否支持任何这样的性能监控工具？

浏览 0提问于2016-06-13得票数 0

1回答

在尝试了一些监视结构化流性能和输入/输出指标的方法后，我发现一种可靠的方法是附加streamingQueryListener来输出streamingQueryProgress，以获得输入/输出数量。除了SparkUI，将queryProgress输出到文件或Kafka的最好方法是什么？在spark streaming和spark structured之间比较性能(速度、输入、输出记录)的有效方法是什么？

浏览 1提问于2018-05-19得票数 2

1回答

如何在Azure数据工厂链接服务中设置spark executor内存

、、、、

我的Spark Scala代码由于Spark内存不足问题而失败。我正在运行ADF管道中的代码。在Databricks集群中，executor内存设置为4g。在创建链接服务时，我们有额外的集群设置，我们可以在其中定义集群spark配置。请找到下面的内容。谁能让我知道如何在ADF的链接服务中设置火花执行器内存。谢谢。 ?

浏览 16提问于2021-11-11得票数 0

回答已采纳

1回答

用于监控执行器性能的Spark程序

、、、、

我正在开发一个spark程序，它可以监控每个执行者的表现，比如某个执行者何时开始工作，以及何时完成其工作。

浏览 0提问于2016-11-10得票数 0

1回答

如何通过火花应用程序监视内存和CPU的使用情况？

、、

在运行我的spark应用程序之后，我希望监视它的内存和cpu使用情况，以评估它的性能，但是找不到任何选项。有可能监控它吗？如何通过火花应用程序监视内存和CPU的使用情况？

浏览 3提问于2017-10-23得票数 1

回答已采纳

1回答

如何在本地构建和运行Scala Spark

、、、

我正在尝试在本地构建Apache Spark。这样做的原因是为了调试像reduce这样的Spark方法。特别是，我对Spark如何在幕后实现和分发Map Reduce很感兴趣，因为我遇到了性能问题，我认为从源代码运行这些任务是找出问题的最好方法。所以我从Spark repo克隆了最新的：Spark似乎是一个Maven项目，所以当我在Ecl

浏览 0提问于2014-05-26得票数 3

回答已采纳

1回答

具有6到7个节点硬件配置的分布式Spark和HDFS群集

、、、、

我计划旋转我的开发集群，用于基础设施监控应用程序的趋势分析，我计划使用Spark来分析故障趋势，使用Cassandra来存储传入的数据和分析的数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同的应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒，我计划将其推送到Cassandra表中，该表具有时间戳，服务器作为主键，应用程序以及一些重要的矩阵作为聚类键。我将在此存储的信息之上运行Spark作业，以进行性能矩阵故障趋势分析。关于这个问

浏览 14提问于2017-07-19得票数 0

2回答

使用Ganglia进行Spark监控

、

我正在测试Apache Spark框架。我需要监控我的集群的一些方面，比如网络和资源。我在我的Spark中找到了目录：“/extras/spark-ganglia lgpl”。如何安装Ganglia监控Spark<

浏览 4提问于2014-10-03得票数 3

1回答

阿克卡流与蜂巢流

、、、、

我正在做一项要求，我们需要阅读卡夫卡的信息，并保存(下沉)到蜂巢。我可以考虑使用不同技术的多个实现：谢谢阿伦

浏览 5提问于2017-05-23得票数 1

2回答

AWS EMR Spark应用- CPU和内存利用率较低

、、、

我正在AWS EMR上运行我的Spark Streaming应用程序的两个副本(Spark 2.2.1，EMR 5.11，Scala) (3个节点* m4.4xlarge集群-每个节点16vCPU和64G在内置的EMR集群监控(Ganglia)中，我看到集群的CPU利用率不到30%，可用内存不超过32 30，网络也远未达到100%。但是应用程序几乎不能在批处理间隔内完成批处理。以下是我使用客户端模式将应用程序的每个副本提交给Master时使用的参数：--num-executors 2 --executor-co

浏览 1提问于2018-01-12得票数 1

1回答

在监控Apache Spark时，如何估计Graphite(whisper)数据库的大小

、、

我要通过$SPARK_HOME/conf/metrics.propetries设置Spark监控应用程序。并决定使用石墨。有没有办法估计Graphite的数据库大小，特别是用于监控Spark应用程序？

浏览 2提问于2019-04-12得票数 1

1回答

有没有办法监控Apache Spark应用程序的RAM和CPU使用情况？

、

我需要监控在独立Spark集群上运行的Spark应用程序的RAM和CPU。我尝试过使用java控制台，它工作得很好，但我需要监控各种应用程序，而且我需要为每个应用程序设置不同的java控制台端口。例如，有没有办法从Spark UI或其他什么地方监控应用程序？

浏览 1提问于2015-11-05得票数 2

1回答

对HDFS的Spark写入速度很慢

、、

partitionBy ex: df.write.mode("overwrite").partitionBy("some_column").orc("hdfs partitionBy写入不带ay转换的DF“)在调试模式下运行作业并查看spark日志后，我意识到写入"_temporary“的任务将在20分钟内完成。我能做些什么来提高

浏览 174提问于2020-05-28得票数 0

2回答

在Google Colab上工作时如何打开Spark* UI？*

、、、

如何通过Spark WEB UI监控作业进度？在本地运行Spark时，我可以使用http://localhost:4040通过端口4040访问Spark UI。

浏览 38提问于2019-04-27得票数 12

1回答

使用什么来获得Spark内存使用情况的图形化视图(使用YARN)？

、、、

我正在看一个关于spark内存管理的，我想知道如何获得一个很好的executor内存使用情况的图形图片(类似于演示文稿中提到的内容)，以便更好地理解内存不足错误。另外，分析spark executors中堆外内存使用情况的最佳方法是什么？如何找出堆外内存使用量随时间变化的情况？我查看了Ganglia，但它给出了节点级别的指标。

浏览 20提问于2016-09-14得票数 9

1回答

如何使用oshi远程监控Linux服务器的性能状态？

、、

我想使用来监控我的远程Linux服务器的性能状态，但是官方api似乎只监控机器的性能状态。是否必须将java代码放在服务器上才能获得服务器的性能状态？我是否可以使用自己的机器来监控远程服务器的性能状态？

浏览 122提问于2019-11-21得票数 3

回答已采纳

1回答

纱线容器如何使用分配的CPU？

、、

我在纱线集群中运行Spark或Flink作业。每个执行器或任务管理器请求一个具有1个CPU的纱线容器。基本上，容器的数量等于主机中可用CPU的数量。据我所知，YARN会监控内存使用情况，如果容器超出了限制，它会发送一个kill信号。我想知道CPU调度到底是如何工作的。假设我在主机中有10个CPU，并且我创建了一个容器。该容器的CPU性能是否会达到主机CPU性能的10%？

浏览 2提问于2021-12-02得票数 0

1回答

用于Spark结构化流媒体的Grafana

、、、

我按照以下步骤设置了Prometheus、Graphite Exporter和Grafana，以绘制运行结构化流的Spark 2.2.1的指标。这篇文章的收集指标非常过时；并且不包括任何可以用来监控结构化流媒体的指标(我相信)。我对执行执行各种聚合的流查询的资源和持续时间特别感兴趣。有没有任何预配置的Spark仪表板--我有点惊讶在上没有找到，这让我怀疑Grafana并没有被广泛用于监控spark的指标。如果是这样的话，哪种方法效果更好？

浏览 2提问于2018-02-03得票数 2

1回答

如何监控spark的“状态”大小？

、、、、

如何监控spark streaming应用的状态大小？驱动程序GUI中的存储选项卡仅显示Mapwithstate State操作的结果(Mapwithstaterdd，而不是实际的Spark State RDD！从Grafana中，我们观察到spark streaming应用程序的总内存使用量随着每批传入的流处理而“增长”。我怀疑大部分内存被spark 'state‘消耗掉了。有没有办法监控火花“状态”的大小？

浏览 2提问于2016-09-30得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

谷歌云DataProc的性能监控

结构化流式传输指标性能？

如何在Azure数据工厂链接服务中设置spark executor内存

用于监控执行器性能的Spark程序

如何通过火花应用程序监视内存和CPU的使用情况？

如何在本地构建和运行Scala Spark

具有6到7个节点硬件配置的分布式Spark和HDFS群集

使用Ganglia进行Spark监控

阿克卡流与蜂巢流

AWS EMR Spark应用- CPU和内存利用率较低

在监控Apache Spark时，如何估计Graphite(whisper)数据库的大小

有没有办法监控Apache Spark应用程序的RAM和CPU使用情况？

对HDFS的Spark写入速度很慢

在Google Colab上工作时如何打开Spark* UI？*

使用什么来获得Spark内存使用情况的图形化视图(使用YARN)？

如何使用oshi远程监控Linux服务器的性能状态？

纱线容器如何使用分配的CPU？

用于Spark结构化流媒体的Grafana

如何监控spark的“状态”大小？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐