在Apache Spark中查找每台计算机计算的分区数_我在计算apache spark中的平均好友数时遇到语法错误_如何使用spark中的Python查找DataFrame中的分区数量以及如何使用spark中的Python在DataFrame中创建分区 - 腾讯云开发者社区

目前，我正在调查我的Apache Spark集群中工作负载不平衡的可能性。是否可以在Apache Spark UI或历史服务器中查看每台机器分配的分区数量？

浏览 25提问于2019-06-28得票数 0

1回答

星火如何利用每台机器中的多核并行性？

、

我在集群中以独立模式运行Spark (100台机器，每台计算机16个CPU核，每台机器32 GB RAM )。我在运行任何应用程序时都会指定SPARK_WORKER_MEMORY和SPARK_WORKER_CORES。在星火程序设计中，我把它当作一个串行程序来编程，然后星火框架会自动并行任务，对吗？当然，通过数据并行来开发多线程需要更大的内存，但我不知道我的Spark</

浏览 2提问于2017-01-23得票数 0

回答已采纳

1回答

使用JDBC将数据格式写入Postgresql时的java.lang.StackoverflowError

、、

我正在尝试将多个操作的结果写入AWS Aurora PostgreSQL集群中。.jdbc. at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.:256) atorg.<

浏览 2提问于2019-09-29得票数 0

2回答

Spark无效的检查点目录

、

我在我的程序中有一个长时间的迭代，我想每隔几次迭代就缓存和检查点(这个技术被建议用来减少web上的长历史)，所以我不会有StackOverflowError，通过这样做}val sc = new SparkContext(conf)然而，当我最终运行我的程序时，我得到了一个异常 Exception in

浏览 2提问于2015-09-05得票数 2

回答已采纳

2回答

通过AWS [EMR]提交星火申请

、、、、

你好，我是云计算的新手，所以我为这个愚蠢的问题道歉。我需要帮助知道我所做的到底是在集群上计算，还是仅仅在主(无用的东西)上计算。我能做的是:好的，我可以使用控制台在所有节点上安装一个包含一定数量的节点的集群。我可以通过SSH连接到主节点。那么，在集群上运行我的jar时，需要做什么呢？假设我想数一个巨大的文本文件

浏览 4提问于2017-04-15得票数 1

回答已采纳

1回答

如何为HadoopPartitions计算Spark的默认分区？

、

我正在阅读，关于分区，他说

浏览 1提问于2018-12-01得票数 1

回答已采纳

3回答

Apache :每台计算机的TaskManagers数

每台机器的CPU核数是4个。在flink独立模式下，我应该如何设置每台机器上的TaskManagers数量？ 1 TaskManager，每个TaskManager有4个插槽。

浏览 0提问于2018-12-27得票数 1

1回答

SPARK_WORKER_CORES设置对火花单机并发性的影响

、、、

我使用的是以独立模式配置的Spark2.2.0集群。集群有2台八位数核心机器。此群集只用于火花作业，没有其他进程使用它们。我有大约8个星火流应用程序运行在这个集群上。我显式地将SPARK_WORKER_CORES (在Spark-env.sh中)设置为8，并使用全执行器核心设置为每个应用分配一个核心。此配置减少了并行处理多个任务的能力。如果一个阶段在有200个分区的分区RDD上工作

浏览 0提问于2018-01-29得票数 1

回答已采纳

1回答

在这种情况下，火花是如何内部工作的？

、、

我有一个带有四核的单机processor.Here是我的理解火花如何在这里实现并行根据步骤2中的分区大小，它将生成线程。

浏览 3提问于2017-06-13得票数 0

1回答

星火RDD中的分区数

、、

我通过指定分区数来从文本文件创建一个RDD (Spark1.6)。但是它给出了与指定分区不同的分区数。案例1people: org.apache.spark.rdd.RDD将用于rdd分区。基于上

浏览 0提问于2020-05-31得票数 0

1回答

从spark中的sql server并行读取

、、

我正在使用com.microsoft.sqlserver.jdbc.SQLServerDriver在spark作业中从sql server读取数据。为了提高性能，需要并行读取数据。spark job建立的连接数是否等于spark-submit命令中的核心数？

浏览 0提问于2019-06-28得票数 1

2回答

为什么行计数作业在火花壳中运行速度比mapreduce作业慢

我做了一个测试，以比较火花和mapreduce的性能。我有三个节点集群，每个节点具有128内存。下面是启动火花壳的命令和火花作业的代码。/l

浏览 3提问于2016-09-23得票数 2

回答已采纳

1回答

理解驱动程序和执行器配置的术语

、、、、

我在每个分布式计算开放源码项目中都经常看到以下术语，特别是在Apache中，并希望通过一个简单的例子得到解释。spark.driver.cores -用于驱动进程的核数，仅在群集模式下使用。spark.driver.memory -驱动程序进程要使用的内存量 spark.executor.cores -在每个执行器上使用的核数</em

浏览 8提问于2022-06-24得票数 0

1回答

如何在星火中计算内部连接的分区数？

、、

df_B.createOrReplaceTempView('table_B')""")df_C.rdd.getPartitionsNumber() df_C=spark.sql(“”从table_A inner table_B on (.)table_A# => 160中选择*) 星火如何计算和使用这两个分区为两个连接的数据文件？连接的dataframe的

浏览 1提问于2021-05-23得票数 2

1回答

如何确定从节点同步线程的数量？

、

在我看来，这两个相关的参数是spark.default.parallelism和spark.cores.max。spark.default.parallelism设置内存中数据的分区数，spark.cores.max设置可用的CPU核心数。然而，在传统的并行计算中，我会专门启动一些线程。无论可用内核的数量如何，每个分区<

浏览 0提问于2018-02-09得票数 1

回答已采纳

1回答

星火中的蜂箱分区和桶形支持不像预期的那样工作

、

在使用S3中的分区时，Spark逐个列出所有分区，这将消耗time.Rather &它应该在元存储表中查找分区&应该立即进入分区。我尝试以125个partitions.When为例，通过附加分区列值来计算S3的确切位置&尝试访问它，它在5sec.But中执行，如果我试图让Spark计算出分区</e

浏览 1提问于2017-10-22得票数 0

回答已采纳

3回答

如何加快excel的读写速度

、、、

作为实习生，我正在使用Apache为我的公司读取/写入excel文件。我的程序通过excel文件，它是一个大方格，上面有行、计算机名和左列用户名。240台计算机和342个用户。单张计算机在所有空格中为0，程序为每台计算机调用PSLoggedon，并使用当前登录的用户名并增加它们的0，因此在运行一个月后，它将显示谁对每台计算机登录最多。到目前为止，

浏览 16提问于2015-07-06得票数 1

1回答

我可以用SQL语句指定并行度吗？

、

我很喜欢使用Spark，但就在此之前我遇到了一个问题。由于RDD的每个分区的大小限制，Spark会产生以下错误消息；(INT_MAX)。$$anonfun$getBytes$2.apply(DiskStore.scala:125) at org.apache.s

浏览 5提问于2016-03-03得票数 1

回答已采纳

1回答

在Apache中RDD分区的数量是如何确定的？

、

问题我是否需要显式地指定可用CPU核心的数量，这样分区的数量将是相同的(例如并行化方法的numPartition arg，但是当内核的数量发生变化时需要更新程序)吗？背景对于node程序，分区数为2

浏览 0提问于2016-09-26得票数 1

回答已采纳

1回答

无分区和分区大小的RDD

我很好奇地想知道没有分割者的RDD和它的分区大小的关系。以map()转换为例。它返回一个没有分区的RDD (不出所料)。scala> val input = sc.parallelize(List(1, 2, 2, 3)) scala>

浏览 0提问于2015-07-14得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云