spark服务器内存cpu_spark 服务器内存 cpu_Spark -上限从服务器的CPU核心或内存数量 - 腾讯云开发者社区

、、

我目前已经使用helm在k8s中建立了spark独立集群。它有固定数量的工人(5名工人)和一名硕士。目前正在做火花-提交如下 spark-submit --class LogParser.LogBundleConfigFetcher --conf spark.submit.deployMode=cluster --conf spark.network.timeout=300 --conf spark.scheduler.mode=FAIR --conf **spark.master=spark://sm-care-alice-staging:7077** --conf spark.execut

浏览 2提问于2020-06-22得票数 1

2回答

Apache使用多个核心，尽管使用了spark.executor.cores=1

、、、、

当我在Apache Spark 1.2.1 6.5上启动CentOS应用程序时，我会根据“top”输出接收超过100%的执行程序负载，并且负载平均值比内核数量大得多。因此，我对垃圾收集器的负载很高。试图用spark.executor.cores=1限制每个执行器的核心。尝试过spark.cores。没有任何效果。硬件为2×Intel(R) Xeon(R) CPU E5-2620 v2 @ 2.10GHz，每个节点有6个物理核，每个节点有12个CPU核。部署模型是纱线客户端。类似的Ubuntu14.04设置与4个物理核(英特尔i5)没有任何问题，每个执行者一个

浏览 1提问于2015-03-28得票数 2

回答已采纳

1回答

为什么在单个应用程序中，每次迭代SparkSession初始化都需要更长的时间？

我使用spark进行批量分析。我在一台128G内存和32核CPU的独立Ubuntu服务器上运行Spark。在不带任何其他配置参数的情况下运行spark-sumbit my_code.py。在while循环中，我启动SparkSession，分析数据，然后停止上下文，这个过程每10秒重复一次。 while True: spark = SparkSession.builder.appName("sync_task").config('spark.driver.maxResultSize' , '5g').getOrCreate()

浏览 1提问于2017-04-16得票数 1

1回答

获取java.lang.OutOfMemoryError:关于提交pyspark应用程序

、

我正在运行32核心，64 GB服务器使用火花提交命令的吡火花应用程序。应用程序中的步骤 df1 =从csv文件(field1、field2、field3、field4)加载5亿个数据集。 df2 =从mongodb加载5亿个条目(使用spark适配器)(field1、field2、field3)。左联接操作(步骤抛出异常java.lang.OutOfMemoryError: Java堆空间)：df_output= df1.join(df2、"field1“、"field2”、"field3“、"left_outer").select(&#

浏览 0提问于2017-02-23得票数 1

1回答

使用星火上的k8s-操作符一次提交多个星火应用程序时失败。

、、

我正试图一次提交大约20份火花申请。这导致他们中的大多数都失败了。我怎么才能阻止这一切的发生？火花操作符的吊舱没有耗尽记忆。CPU确实增加了，但时间很短。由于这些作业，火花操作员吊舱不会重新启动。原木- 10 controller.go:184] SparkApplication spark/sch-3a44a9db-7993-413e-2022-08-29t18-30-00tz00-00-1 was added, enqueuing it for submission 10 controller.go:184] SparkApplication spark/sch-3a44a9db-799

浏览 16提问于2022-09-01得票数 0

回答已采纳

1回答

Spark驱动程序未分配任何工作进程

、

我正在学习spark，并尝试执行简单的字数统计应用程序。我正在使用 spark version 2.4.7-bin-hadoop.2.7 scala 2.12 java 8 具有1个主节点和2个工作节点的spark群集正在作为独立群集spark配置运行 spark.master spark://localhost:7077 spark.serializer org.apache.spark.serializer.KryoSerializer spark.driver.memory 500M

浏览 31提问于2021-04-17得票数 0

1回答

在Dataproc中运行300+并发spark作业的最佳方式？

、、

我有一个具有2个工作节点(n1s2)的Dataproc集群。有一个外部服务器，它在一小时内提交大约360个spark任务(每次提交之间有几分钟的间隔)。第一个作业成功完成，但随后的作业被卡住，根本不能继续。每个作业处理一些时间序列数字并写入Cassandra。当集群完全空闲时，通常需要3-6分钟。我觉得这可以通过扩展集群来解决，但对我来说会变得非常昂贵。还有什么其他选项可以最好地解决这个用例？

浏览 11提问于2020-11-04得票数 2

回答已采纳

1回答

使用星火独立群集中的多个工作人员运行分布式星火作业服务器

、

我有一个独立的星火集群运行在几台机器上。所有工作人员都在使用2核和4GB内存。我可以使用./server_start.sh --master spark://ip:7077 --deploy-mode cluster --conf spark.driver.cores=2 --conf spark.driver.memory=4g启动作业服务器，但是每当我试图启动一个具有两个以上核心的服务器时，驱动程序的状态就会陷入“提交”状态，并且没有工人接受该任务。我试着用./spark-shell --master spark://ip:7077 --conf spark.driver.cores=4

浏览 0提问于2016-05-16得票数 0

回答已采纳

1回答

org.apache.spark.SparkException:由于阶段故障，作业已中止:阶段11.0中的任务98失败了4次

、、、、

我正在使用Google Cloud Dataproc做spark工作，我的编辑器是Zepplin。我正在尝试将json数据写入gcp存储桶。当我尝试10MB文件时，它成功了。但由于文件为10 But而失败。我的dataproc有一个主服务器，4CPU，26 My内存，500 My磁盘。5个具有相同配置的工作进程。我猜它应该能够处理10 it的数据。我的命令是toDatabase.repartition(10).write.json("gs://mypath") 错误是 org.apache.spark.SparkException: Job aborted. at org

浏览 4提问于2019-04-08得票数 11

回答已采纳

1回答

尝试将星星之火用户界面端口设置为范围，但它始终在随机数上运行。

我尝试设置火花ui端口为35000和最大重试200。但是当它运行时，它不使用35 use端口。它使用随机数端口。通过更改配置和使用代码(根据)，我尝试了这两种方法。有人知道这件事吗？这里是配置火花-defaults.conj.2： spark.master yarn spark.port.maxRetries 200 spark.ui.port 35000 spark.blockManager.port 36000 spark.driver.blockManager.port 37000 spark.driver.port 38000 这里是日志： -Dspark.ui.port=35

浏览 8提问于2022-01-28得票数 2

1回答

控制Apache束/火花流管道中的最小文件大小

我有一条从卡夫卡读到GCP的管道。档案记录太少了。我想创建更大的文件。到目前为止，这是我如何配置梁(至少我认为是一个相关的参数)。我的问题是如何控制从束流管道产生的文件的大小？ windowDuration: 5 numShards: 0 batchIntervalMillis: 30000 checkpointDurationMillis: 30000 maxRecordsPerBatch: 60000000 以下是与流相关的火花配置参数。 spark.default.parallelism=600 spark.ui.retainedStages=10 sp

浏览 3提问于2021-05-26得票数 0

回答已采纳

1回答

apache spark单机版调度器--为什么驱动需要一个‘集群’模式的整个内核？

、、、

在spark的“客户端”部署模式中，spark驱动程序不会消耗内核，只有spark应用程序才会。但是为什么在“集群”模式下，spark驱动程序需要一个内核呢？

浏览 25提问于2019-06-27得票数 0

1回答

在Amazon上使用Spark时如何分配驱动程序内存和执行器内存

、、、、

我使用AWSEMR5.2实例m4.2x和10个节点运行我的Spark应用程序，使用Spark2.0.2。我使用了maximizeResourceAllocation=true的属性。我在spark-defaults.conf中看到了以下属性： spark.executor.instances 10 spark.executor.cores 16 spark.driver.memory 22342M spark.executor.memory 21527M spark.default.parallelism

浏览 2提问于2017-01-25得票数 2

1回答

火花中执行器内存设置

我制作了独立的集群，并希望找到最快的方式来处理我的应用程序。我的机器有12克内存。这是我试过的一些结果。 Test A (took 15mins) 1 worker node spark.executor.memory = 8g spark.driver.memory = 6g Test B(took 8mins) 2 worker nodes spark.executor.memory = 4g spark.driver.memory = 6g Test C(took 6mins) 2 worker nodes spark.executor.memory = 6g spark.drive

浏览 0提问于2016-03-24得票数 1

回答已采纳

1回答

如何设置配置以使火花/纱线作业更快？

、、、、

我是星火的新手。我一直在阅读有关星火配置和不同属性的设置，以便我们可以优化作业。但我不知道该如何确定该设置什么呢？例如，我创建了一个r3.8x大集群(1Master和10个从站) 我该如何设置： spark.executor.memory spark.driver.memory spark.sql.shuffle.partitions spark.default.parallelism spark.driver.cores spark.executor.cores spark.memory.

浏览 6提问于2016-10-06得票数 0

回答已采纳

1回答

Spark可调参数，特别是执行器内存

、、

time ../bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 2g --executor-memory 3G --num-executors 100 /var/tmp/learning/Movie-Similarities-1m-hdfs.py 260 耗时: 6m5.293s time ../bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 2g --executor-memory 2G --num-exe

浏览 0提问于2016-06-16得票数 0

1回答

为什么星火(纱线)使用比总vCores更多的vCores？

、、

使用像这样简单的东西： spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 3g --executor-cores 1 --num-executors 1 examples/jars/spark-examples_2.11-2.4.7-amzn-0.jar 1000 我可以在Hadoop仪表板上看到"vCores Used“大于"vCores Total”。这怎么会发生呢？

浏览 1提问于2021-04-08得票数 0

2回答

AWS EMR Spark应用- CPU和内存利用率较低

、、、

我正在AWS EMR上运行我的Spark Streaming应用程序的两个副本(Spark 2.2.1，EMR 5.11，Scala) (3个节点* m4.4xlarge集群-每个节点16vCPU和64G RAM )。在内置的EMR集群监控(Ganglia)中，我看到集群的CPU利用率不到30%，可用内存不超过32 30，网络也远未达到100%。但是应用程序几乎不能在批处理间隔内完成批处理。以下是我使用客户端模式将应用程序的每个副本提交给Master时使用的参数： --master yarn --num-executors 2 --executor-cores 20 --executor-

浏览 1提问于2018-01-12得票数 1

1回答

Map转换性能火花数据帧与RDD

、、、

我有一个四节点hadoop集群(Mapr)，每个节点都有40内存。我需要在大数据集(5亿行)的一个字段上‘应用’一个函数。我的代码流程是从hive表中读取数据作为spark dataframe，并在其中一列上应用所需的函数，如下所示： schema = StructType([StructField("field1", IntegerType(), False), StructField("field2", StringType(), False),StructField("field3", FloatType(), False)]) udfCo

浏览 2提问于2016-08-24得票数 1

2回答

Apache :限制TaskManager中CPU的数量

、、

第一个，我是运行在独立模式！我一直试图找到任何配置，但我还没有找到任何有关这方面的东西。在Spark中，有一些配置允许您限制在每个从服务器中使用的CPU数量： SPARK_WORKER_CORES (工人配置) spark.executor.cores (集群配置) 但是在Flink中，您只需要设置要使用的最大内存和任务槽的数量(这只是将内存分开)，就像所说的 taskmanager.numberOfTaskSlots:单个TaskManager可以运行的并行操作符或用户函数实例的数量(默认值: 1)。如果此值大于1，则单个TaskManager接受一个函数或操

浏览 2提问于2017-06-23得票数 3

1回答

无法在Spark中设置正确的内存选项

、、

我正在对wikipedia文章(400万个文档，大约14 am数据)训练一个LDA模型。我在一台内存为98 on的机器上运行scala脚本。我使用以下参数在spark shell中运行scala代码： $SPARK_HOME/bin/spark-shell --executor-memory 2G --driver-memory 25G --total-executor-cores 10 --conf spark.driver.maxResultSize=50g 代码片段： val lda = new LDA().setOptimizer(new OnlineLDAOptimizer()).s

浏览 3提问于2016-07-01得票数 2

1回答

用“火花壳-主纱-客户端”初始化SparkContext错误，只需“火花-外壳”即可。

我有一个运行hadoop集群的节点，现在我尝试从纱线开始。我开始像这个spark-shell --master yarn-client一样的火花，但我得到这个错误下面。对于spark，我只需下载、解压缩和配置星火-env.sh文件，然后启动如下所示的所有星火进程： SPARK_JAVA_OPTS=-Dspark.driver.port=53411 HADOOP_CONF_DIR=/usr/local/hadoop-2.7.1/etc/hadoop SPARK_MASTER_IP=master 然后我开始了所有的火花过程 ./start-all.sh 你知道为什么会发生这个错误吗？错误： 16

浏览 1提问于2016-05-13得票数 0

1回答

从google pubsub到spark streaming的数据摄取速度很慢

、、、、

我正在使用google cloud Dataproc Spark集群来运行Spark streaming作业，该作业从多个PubSub订阅中读取数据并写入BigQuery。PubSub有500万个元素，滑动窗口为2分钟，批/窗口为30秒，我每批只能得到大约200,000个元素。我希望第一批就能全部拿到五百万。每个元素的大小约为140字节，并且是Avro消息格式。我已经在数据流中实现了每秒100万个元素的速度，但我想用Dataproc做同样的事情。我尝试了Dataproc的自动缩放选项，也尝试了在数据流上工作的相同的波束管道代码。如果我增加订阅的数量，那么它可能会提供更多的吞吐量。是否有可能从

浏览 5提问于2019-07-22得票数 3

1回答

为什么纱线节点管理器在运行火花应用程序时会死掉？

、

在启用动态分配的情况下，我在纱线上运行一个spark应用程序。Yarn停止运行，我在Node日志中看到java.lang.OutOfMemoryError: GC overhead limit exceeded。自然，我将Node的内存从1G增加到2G，然后再增加到4G，我仍然看到了同样的问题。奇怪的是，这个应用程序过去在Cloudera集群中运行良好，现在我们已经切换到Horton，我看到了这些问题。当查看节点管理器的Grafana图表时，我可以看到已经死亡的节点只使用其堆的60%。一个问题是火花使用netty & nio simultaneously...because是正

浏览 8提问于2022-02-01得票数 0

1回答

如何在星火中对不同的工人执行任务？

、

我有以下星火的代码： package my.spark; import java.util.ArrayList; import java.util.List; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.SparkSession; public class ExecutionTest { public static void main(String[] args) {

浏览 3提问于2017-09-04得票数 1

回答已采纳

1回答

在google dataproc中失败

、、

但是，我的工作失败了，但是我并不完全理解。它似乎是由 "YarnSchedulerBackend$YarnSchedulerEndpoint: Container killed by YARN for exceeding memory limits. 24.7 GB of 24 GB physical“。但是我怎样才能增加中的内存。日志： 16/05/05 01:12:42 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 332.0 in stage 0.0 (TID 332, cluster-4-w-40.c.l

浏览 3提问于2016-05-05得票数 0

1回答

火花工没有足够的资源

、、

我是Apache和Cloudera管理人员的新手，我在运行我的第一个Spark应用程序时遇到了一些问题。在我的集群中有两个具有RAM和核心的虚拟机： 13.4G /4核作为主节点，node01 4G /4核作为从节点，node02 当我运行su - hdfs -c "spark-shell --executor-memory 1G --executor-cores 1 --num-executors 1"时，它显示警告cluster.YarnScheduler:初始作业未接受任何资源；请检查群集用户界面，以确保员工已注册并拥有足够的资源我不知道要在哪里配置

浏览 2提问于2019-09-04得票数 0

1回答

如果从多个MapR位置读取数据，spark shuffle是如何工作的？

、、、

我的MapR集群中有两个位置，我的spark作业正在从这两个端点加载数据。其中一个端点具有巨大的数据，而其他端点则相对较少。现在，当我做一个像.reduceByKey或.groupByKey这样的混洗操作时，我得到了OOM异常： "java.lang.OutOfMemoryError: Java heap space at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57) at java.nio.ByteBuffer.allocate(ByteBuffer.java:335) at org

浏览 33提问于2020-08-25得票数 0

1回答

如何提高纱线应用并行度

、、

我正尝试在EMR Spark上运行多个yarn应用程序，但我无法同时运行超过5个应用程序。我正在为Spark Cluster使用以下配置： Master = r5.2xlarge Worker = r5.12xlarge 384 GB RAM 48个虚拟核心部署模式=群集 JSON { "Classification":"spark-defaults", "ConfigurationProperties":{ "spark.executor.extraJavaOptions":

浏览 7提问于2019-07-11得票数 0

回答已采纳

2回答

带输出状态的火花悬挂:纱线模式下接受

、、

我的Spark环境 Spark -> 2.1.0 Hadoop -> 2.8.1 Eclipse -> Neon 2 我在yarn mode.How中获取spark上下文时卡住了，我可以在yarn模式中获取spark上下文，请帮助我解决。我的Hadoop、Yarn和Spark安装成功。 $ jps 3200 NameNode 5264 ExecutorLauncher 5328 CoarseGrainedExecutorBackend 3555 SecondaryNameNode 5316 CoarseGrainedExecutorBackend 7590 Jps 335

浏览 2提问于2017-09-22得票数 0

1回答

python程序"java.lang.OutOfMemoryError: Java堆空间“的火花错误

、、

我按照下面的命令运行了我的python kmeans程序： ./bin/spark-submit --master spark://master_ip:7077 my_kmeans.py 主要的python kmeans程序如下所示： sc = spark.sparkContext # data X = jl.load('X.jl.z') data_x = sc.parallelize(X) # kmeans model = KMeans.train(data_x, 10000, maxIterations=5) 文件'X.jl.z'大小为100 m。但我得到

浏览 5提问于2017-03-13得票数 1

2回答

未使用AWS EMR上的1个从节点

、、

我使用以下命令运行存储在AWS EMR集群的主节点上(一个主服务器和两个从服务器，每个具有8GB RAM和4个核的)的pyspark代码- spark-submit --master yarn --deploy-mode cluster --jars /home/hadoop/mysql-connector-java-5.1.45/mysql-connector-java-5.1.45-bin.jar --driver-class-path /home/hadoop/mysql-connector-java-5.1.45/mysql-connector-java-5.1.45.jar --co

浏览 7提问于2020-07-06得票数 1

1回答

上的火花作业失败

、、

我创建了一个包含1个主节点和10个节点的Dataproc集群。它们都有相同的CPU和内存配置: 32 vCPU，120 GB内存。当我提交一份处理大量数据和计算的工作时。工作失败了。从日志记录来看，我不太清楚是什么导致了故障。但是我看到了来自tJob#的与内存相关的错误消息: job-c46fc848-6:由于超出内存限制而被纱线杀死的容器。使用24.1 GB的24 GB物理内存。考虑提高spark.yarn.executor.memoryOverhead。所以我尝试了一些我从其他帖子中找到的解决方案。例如，在从“作业”控制台提交作业时，我试图在“属性”部分增加spark.executor

浏览 0提问于2018-06-04得票数 0

回答已采纳

2回答

火花独立:应用程序获得0核

我似乎无法为应用程序分配核心。这将导致以下(显然是常见的)错误消息： Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources 我在星团里有一个主人和两个奴隶。它们都是8核i7s，内存为16 of . 我在这三种情况下几乎都保留了spark-env.sh，只是指定了主机的IP地址。我的spark-submit如下： nohup ./bin/spark-submit --jars .

浏览 1提问于2018-07-13得票数 1

回答已采纳

2回答

Apache Hadoop Yarn -内核利用率不足

、、、

无论我如何修补yarn-site.xml中的设置，也就是使用以下所有选项 yarn.scheduler.minimum-allocation-vcores yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.cpu-vcores yarn.scheduler.maximum-allocation-mb yarn.scheduler.maximum-allocation-vcores 我仍然无法让我的应用程序(即Spark )利用集群上的所有内核。spark executor似乎正确地占用了所有可用内存，但每个executo

浏览 0提问于2015-04-30得票数 30

回答已采纳

1回答

裸金属到大数据:所有这些都能在同一个集群上一起运行吗？

、、、

我是一个非常新的系统管理员(16级)，我被要求创建一个包含3个裸金属PowerEdge服务器的大数据集群。 *Hadoop2 *纱线*Java 7和8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R ( Spark和Hadoop的库) *Zeppelin *Cassandra 我想知道这些是否都能“一起玩”，因为我对大数据知之甚少，搜索结果是很多"x对y“页面，而不是"x和y”。是否有更好的行业标准？提前感谢您的建议！

浏览 0提问于2018-03-16得票数 0

回答已采纳

1回答

如何提交python SnappyData作业

、

(docs/programming_guide/using_the_spark_shell_and_spark-submit.md)文档显示，可以向Spark (主默认端口7077)提交SnappyData程序，该程序可以使用SnappyData表： $./bin/ io.snappydata.examples.AirlineDataSparkApp -提交-类io.snappydata.examples.AirlineDataSparkApp-主火花://主主机:7077-conf$SNAPPY/io.snappydata.examples.AirlineDataSparkApp/jars

浏览 0提问于2019-05-17得票数 0

4回答

纱线容器内存不足

、、、、

我的纱线容器正在耗尽内存:这个特定的容器运行一个Apache驱动节点。我不明白的部分:我将我的驱动程序的堆大小限制在512 my (您可以在下面的错误消息中看到这一点)。但是纱线容器正在抱怨memory>1GB (也见下面的消息)。您可以验证纱线正在启动，java是用Xmx512m运行的。我的容器是为1GB内存设置的，其中包含.5GB增量。此外，我的物理机器承载的纱线容器有32 my的每个。我去了一台物理机器，发现它有很多自由记忆. 另一件奇怪的事情是，java没有抛出OutOfMemory异常。当我查看驱动程序日志时，我看到它最终从纱线中获得了一个SIGTERM，并很好地关闭了。如果

浏览 5提问于2016-01-22得票数 6

回答已采纳

2回答

不能在Azure数据库上使用jdbc驱动程序将大型DataFrame写入MSSQL服务器

、、、、

我正在读取一个巨大的csv文件，包括39,795,158条记录，并在Azure Databricks上写入MSSQL服务器。Databricks(笔记本)运行在一个具有56 GB内存、16个核心和12个工作人员的集群节点上。这是我在Python和PySpark中的代码： from pyspark.sql import * from pyspark.sql.types import * from pyspark.sql.functions import * from time import sleep url = "jdbc:sqlserver://{0}:{1};database=

浏览 10提问于2022-02-11得票数 0

2回答

在bash脚本中使用for循环

、、、

我在shell bash中有这个脚本： top | awk '{$10 $11}'> agent.csv top | awk '{$10 $11}'> spark.csv top | awk '{$10 $11}'> kafka.csv top | awk '{$10 $11}'> zk.csv top | awk '{$10 $11}'> engine.csv for ((;;)) do top -b -c -d 2 n 10 | grep agent >&g

浏览 2提问于2017-05-30得票数 0

2回答

Spark如何限制cpu核心和内存的使用？

、、、

Spark如何限制cpu核心和内存的使用?它使用cgroup吗？Yarn怎么样？

浏览 3提问于2017-04-05得票数 2

1回答

在内存受限设置中运行Spark

、

我对在内存非常有限的环境中运行Spark的任何提示/技巧或配置选项都很感兴趣。对于可用内存较小的部署，最重要的注意事项是什么？

浏览 1提问于2019-07-19得票数 1

1回答

df.show()中的问题

、、、、

我有以下代码： import pyspark import pandas as pd from pyspark.sql import SQLContext from pyspark.sql.functions import udf from pyspark.sql.types import IntegerType, StringType sc = pyspark.SparkContext() sqlCtx = SQLContext(sc) df_pd = pd.DataFrame( data={'integers': [1, 2, 3], 'flo

浏览 3提问于2018-12-05得票数 2

1回答

火花MLlib - trainImplicit警告

、、、

我一直在使用trainImplicit时看到这些警告 WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB. 然后任务大小开始增加。我试图在输入RDD上调用repartition，但是警告是相同的。所有这些警告来自ALS迭代，来自flatMap，也来自聚合，例如，flatMap显示这些警告的阶段的起源(w/ Spark1.3.0，但它们也显示在Spark1.3.1中)： org.apache.spark.rd

浏览 2提问于2015-04-22得票数 14

1回答

Apache Spark在带有固定分配的YARN上运行

、、

现在发生的事情是，YARN只是从一个spark任务中获得了一些executor，并将其提供给另一个spark任务。因此，此spark作业遇到错误并终止。有没有一种方法或现有的配置，在YARN上运行的某个spark作业具有固定的资源分配？

浏览 0提问于2018-09-25得票数 0

1回答

火花查询性能差:如何提高星火查询性能？

、、、

对于处理大量数据来说，火花有多好，多快，有很多炒作。因此，我们想研究spark的查询性能。机器配置： 4个工作节点，r3.2x大型实例数据我们的输入数据存储在S3中12个分裂的gzip文件中。我们所做的我们使用Spark为上述输入数据集创建了一个表。然后我们把桌子缓存起来。我们从Spark中发现，Spark并没有将所有数据加载到内存中，而是将一些数据加载到内存中，而有些则加载到磁盘中。更新：我们也测试了拼花文件。在这种情况下，所有数据都加载到内存中。然后我们执行如下相同的查询。表现还不够好。查询性能让我们假设表名是Fact_da

浏览 1提问于2016-03-08得票数 2

1回答

使用cassandra的spark的正确设置是什么？

、、

在使用并使用了spark连接器之后，我想以最有效的方式利用它，用于我们的批处理。在Cassandra节点所在的同一主机上设置spark worker是正确的方法吗？spark连接器是否确保数据的局部性？我有点担心内存密集型的spark worker会导致整个机器停止，然后我会失去一个Cassandra节点，所以我有点困惑是应该将worker放在Cassandra节点上，还是应该分开(这意味着没有数据局部性)。常见的方式是什么?为什么？

浏览 0提问于2018-02-06得票数 0

2回答

火花的性能瓶颈

、、、

在NSDI 2015上发表的“在数据分析框架中提高性能的意义”的论文得出结论，CPU(而不是IO或网络)是Spark的性能瓶颈。凯在Spark上做了一些实验，包括BDbench、TPC和处理工作负载(只使用Spark？)在这篇论文里。我不知道这个结论对于建立在Spark上的一些框架是否正确(比如流，通过网络接收连续数据流，网络IO和磁盘都会承受很大的压力)。

浏览 1提问于2015-05-15得票数 1

回答已采纳

1回答

如何测量Apache Spark和Flink的能耗

、、、

如何测量Apache Spark和Flink的能耗有没有什么工具或技术可以测量Spark和Flink的能耗

浏览 1提问于2020-09-01得票数 0

1回答

为什么start-slave.sh需要主URL？

、

我想知道为什么使用apache-spark/sbin/start-slave.sh <master's URL>的客户端必须指示这个master's URL，因为主程序已经在：apache-spark/sbin/start-master.sh --master spark://my-master:7077e.g.中指定了它？是因为客户端必须等待主服务器接收主服务器发送的submit吗？如果是:那么为什么主程序必须在其--master spark://....中指定submit？

浏览 0提问于2017-05-22得票数 0