Spark:基于窗口的处理是如何拆分给执行器的？_超长队列的spark任务是如何处理的？_基于返回值的注释，Spring mvc serials是如何处理jackson的结果的？ - 腾讯云开发者社区

apache-spark、apache-spark-sql、bigdata

我清楚地知道Spark如何将数据拆分到executors中的分区，然后每个分区被处理，然后聚合，直到最终的“逻辑”数据帧。然而，使用windows时，我觉得每个窗口数据都应该在一个单独的分区中，这样每个executor都在本地拥有所有数据？或者，数据仍然被拆分，然后用一种魔术聚合？这类窗口的一个示例是： val window = Window .partitionBy("partition-col&qu

浏览 25提问于2019-10-15得票数 4

回答已采纳

1回答

基于Spark处理存储在SSD上的数据

apache-spark、apache-spark-sql、hdfs、solid-state-drive

我们目前正在使用基于Spark 2.1的应用程序，该应用程序分析和处理大量记录，以生成一些用于报告生成的统计数据。现在我们使用150个执行器，每个执行器2个核心，每个执行器10 GB用于我们的spark任务，数据大小为~3TB，以parquet格式存储。处理12个月的数据需要大约15分钟的时间。现在，为了提高性能，我们希望尝试完全基于SSD<em

浏览 12提问于2018-12-16得票数 0

回答已采纳

1回答

星河中的窗口函数会导致长期挂起的任务

apache-spark、spark-streaming、windowing

我们正试图在spark中实现窗口功能。Spark正在通过Kafka (有5个分区)接收数据，我们正在使用Spark进行处理。一旦从kafka分离的逗号数据被映射到Spark中的一个对象，我们就创建了一个20秒的窗口，该窗口在1秒内滑动。一切正常工作，直到在处理时间内出现尖峰，这大约需要40秒来处理一个任务并发布这个，我们得到一个很长的队列。)-为

浏览 3提问于2017-07-14得票数 0

1回答

如何启动并行spark作业？

apache-spark、pyspark

我想我对如何启动工作还不够了解。 --conf spark.shuffle.service.enabled=true \ --conf spark.executor.instances=4 \ 如果我增加来自代码的分区数量和执行程序的数量，应用程序会更快地完成，这是可以

浏览 3提问于2017-02-14得票数 0

回答已采纳

1回答

Spark中有没有太多的executors？

apache-spark、hadoop-yarn

我正在使用Spark/YARN集群，它限制了我可以分配给8 8GB内存和每个容器一个核心的资源，但我可以分配数百，甚至数千个执行器来运行我的应用程序。然而，由于驱动程序具有类似的资源限制(8 8GB内存，4核)，我担心太多的执行器可能会使驱动程序不堪重负并导致超时。是否有调整驱动程序内存和内核大小以处理大量执行程序的经验法则？

浏览 0提问于2017-03-10得票数 1

1回答

火花加工用纱线执行器

hadoop、apache-spark、hadoop-yarn

Process spark = new SparkLauncher().setMainClass("com.aa.bb.app").setDeployMode( "cluster").launch(); 这是用执行器

浏览 1提问于2017-04-03得票数 0

回答已采纳

2回答

在关闭我的终端时，如何在服务器上使用python运行我的dse spark应用程序呢？

apache-spark、pyspark、datastax-enterprise

这是我的submit命令，我不知道如何在我的终端窗口关闭时在后台运行它：提交-主火花://主火花:7077-执行器-内存2G -总-执行器-核心2-包org.apache.spark:spark-streaming-kafka

浏览 4提问于2016-02-23得票数 1

回答已采纳

1回答

如何在dcos spark* run中传递jar文件(来自Artifactory)？*

jar、pyspark、dcos、spark-submit

我试图在DC/OS平台上运行spark streaming作业，但我遇到了kafka包的问题。当我尝试使用--jars模式包含Kafka库和它的依赖项(从Maven下载的jar文件，添加到artifactory并从中读取)时，如下所示： dcos spark run --submit-args"/spark-streaming 2.11-2.2.1.jar --conf spark.executor.memory=2g --py-files

浏览 9提问于2018-11-19得票数 0

1回答

自动设置Dataproc集群后Yarn/Spark的内存分配不正确

hadoop、google-cloud-platform、google-cloud-dataproc

我正尝试在Dataproc集群上运行Spark作业，但由于Yarn配置错误，Spark无法启动。从shell运行"spark-shell“时(在主机上本地运行)，以及从本地计算机通过web-GUI和gcloud命令行实用程序上传作业时，我收到以下错误：java.lang.IllegalArgumentExcept

浏览 0提问于2015-11-09得票数 10

回答已采纳

1回答

火花上的Dataproc:有可能运行更多的每个CPU执行器？

apache-spark、google-cloud-dataproc

我在上运行Spark1.6.2(所以Dataproc版本为1.0)。我的集群由几个n1-standard-8工作人员组成，我正在每个核心运行一个执行器(spark.executor.cores=1)。我发现，我的总体CPU利用率永远不会超过50%，即使每个工作人员运行的执行器数量都是正确的(我将在每个工作人员上为OS保留一个核心，等等)。我想知道是否有可能在每个工作人员上运行更多的执行程序来更充分地利用集群？如果是，

浏览 0提问于2018-05-11得票数 4

回答已采纳

2回答

火花驱动器内存计算

apache-spark、memory、memory-management、driver、executor

我知道如何计算执行器核心和memory.But，谁能解释spark.driver.memory是基于什么基础计算的？

浏览 0提问于2018-12-05得票数 1

回答已采纳

1回答

在Spark中重新分区大文件

scala、apache-spark、apache-spark-sql、spark-streaming

我是Spark的新手，有一个1TB的文件要处理。我的系统规格是：节点数:2据我所知，我必须重新分区数据以获得更好的并行性，因为spark将尝试创建默认分区，仅通过(totalNumber of但在我的例子中，由于数据文件非常大，我必须将这些数据重新划分为一个数字，以便能够以有效的方式处理这些数据。

浏览 1提问于2020-11-02得票数 1

1回答

Apache如何计算分区以及如何在executor中处理分区

mysql、hadoop、apache-spark、spark-dataframe

我需要一些帮助来理解Spark如何决定分区的数量以及它们是如何在执行器中处理的，对于这个问题我感到很抱歉，因为我知道这是一个重复的问题，但是即使在阅读了很多文章之后，我仍然无法理解我正在使用的实际生活用例我的硬件配置：spark-submit config:

浏览 3提问于2017-09-01得票数 1

2回答

Hadoop纱簇性能调整

hadoop、apache-spark、hadoop-yarn

 我想知道一些参数，以加快我的纱线集群上的火花作业。- spark.yarn.am.cores = 2- spark.executor.cores = 8- yarn.nodemanager.resource.memory-mbyarn.nodemanager.reso

浏览 0提问于2015-11-09得票数 0

1回答

spark streaming中限制Kafka消费数据

apache-kafka、spark-streaming、kafka-consumer-api

Spark从kafka获取数据。我想通过spark-streaming限制记录消耗。关于卡夫卡的数据非常庞大。我使用spark.streaming.kafka.maxRatePerPartition=1属性来限制spark中的记录。但是仍然在5分钟内，我收到了13400条消息。我的spark程序每5分钟不能处理超过1000条消息。Kafka topic有3个分区。我的spark驱动内存是</

浏览 17提问于2018-02-06得票数 0

1回答

spark.yarn.driver.memoryOverhead或spark.yarn.executor.memoryOverhead用来存储什么样的数据？

apache-spark、hadoop-yarn

我想知道：星火使用spark.yarn.driver.memoryOverhead或spark.yarn.executor.memoryOverhead存储什么样的数据？在这种情况下，我应该提高spark.yarn.driver.memoryOverhead或spark.yarn.executor.memoryOverhead的价值？

浏览 0提问于2016-04-07得票数 4

回答已采纳

2回答

基于海量和小数据负载的星火SQL计算

apache-spark

我有一个用例，根据传入的参数，我可能需要从数据库中获取和处理数百万条或记录(使用jdbc读取rdbms、解码、转换为xml、转换为csv等，这是一个非常耗时的过程)，或( 2)只处理少量的延迟或少数记录请注意，我不知道在这个多租户火花应用程序的数据量，直到我的应用程序运行期间，我计算的记录总数#我需要处理。我有两个问题要问：如何知道在开始运行时，我需要多少个执行程序或内核来请求这个火花作业，而不知道数据卷。现在我<

浏览 11提问于2022-12-02得票数 0

1回答

火花纱簇仍未得到充分利用

python、azure、apache-spark

我的Python代码中最相关的部分是创建长度为72的元组的Python arg_list。(每个元组大约有6个元素，没有两个元组是相同的。)然后我创建了一个RDD，它有72个分区，rdd = sc.parallelize(arg_list, len(arg_list)) 根据接收到<

浏览 0提问于2018-05-25得票数 0

1回答

Kafka消费者请求超时

apache-spark、apache-kafka、spark-streaming

我有一个Spark streaming (Scala)应用程序运行在CDH 5.13中，使用client 0.10.0使用Kafka的消息。我的Kafka集群包含3个代理。我的Spark流媒体客户有12个执行器，每个执行器都有一个核心。Spark streaming开始从Kafka读取每批数百万条消息，但由于Spark无法应对负载和创建未处理批量的队列，因此将消息数减少到数千。这很好，我的<

浏览 0提问于2018-10-09得票数 1

2回答

使用火花-提交，

multithreading、hadoop、apache-spark、pyspark、cpu-cores

根据我所看到的，在默认情况下，Spark每个节点启动4个从节点(我让4个python同时处理一个从节点)。我又看了一遍火花文档，以下是我所理解的：但是，每个工作人员都可以并行地运行

浏览 6提问于2015-05-04得票数 14

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云