为什么spark中的并行聚合速度不快？_spark中循环的并行化_Scala/Spark中的并行多或运算 - 腾讯云开发者社区

scala、apache-spark

正如上面提到的最后一个问题与我2011年的问题有关，我再次询问.. 我试图证明，在并行Spark阵列上聚合比在普通阵列上聚合(全部在4核Dell XPS上)更快。import org.apache.spark.{SparkConf, SparkContext} versi

浏览 20提问于2020-07-17得票数 0

1回答

Scala聚合函数与Spark聚合函数

scala、apache-spark、aggregate-functions、lazy-evaluation

以下是函数的定义：aggregate[B](z: => B)(seqop: (B, A) => B, combop: (B, B) => B): Baggregate[B](z: B)(seqop: (B, A) => B, combop: (B, B) => B): B 我知道Scala聚合函数是为并行集合设计的，Spark聚合函数设计用于处理分布式集合。但是，为什么Scala中的

浏览 1提问于2020-12-31得票数 3

1回答

提高读取拼图文件的并行度- Spark优化自连接

apache-spark、optimization、apache-spark-sql、self-join

我已经注意到我需要生成更多的并行性： --conf spark.sql.shuffle.partitions=4000 \ --conf spark.default.parallelism=4000 \我还能做些什么来加快这个查询的计算速度呢？我是不是漏掉了什么？下面，您将看到在读取自连接数据时尝试增加并行度的各种失败尝试。即使没有手动重新分区，它也太慢了，而且我担心没有创建足够的分区： ? 甚至更少的任务

浏览 21提问于2020-04-07得票数 2

回答已采纳

1回答

如何通过并行计算使Python程序更快？

python、multithreading、parallel-processing、multiprocessing、sample-data

我想从人群中抽取样本，然后对样本做一些操作。我想用Python编程。我需要使用多线程，多线程还是地图还原之类的东西？我怎样才能测试它是否真的更快？在我的Macbook-Air上，当我使用线程进行简单的打印时，它不会更快，如果我做了一个正常的循环。

浏览 2提问于2016-05-11得票数 0

回答已采纳

1回答

Scala中的Spark分组贴图UDF

scala、dataframe、apache-spark

我正在尝试编写一些代码，使我能够在数据帧的一组行上计算一些操作。在PySpark中，这可以通过定义类型为GROUPED_MAP的Pandas UDF来实现。然而，在Scala中，我只找到了一种创建自定义聚合器(UDAF)或传统UDF的方法。我的临时解决方案是生成一个关键字列表，该列表将对我的组进行编码，这将允许我过滤数据帧并对数据帧的每个子集执行操作。然而，这种方法并不是最优的，而且速度非常慢。执

浏览 2提问于2020-04-08得票数 2

1回答

在S3中对外部配置单元表的Pyspark写入不是并行的

apache-spark、amazon-s3、hive、pyspark、emr

我有一个在s3中定义了位置的外部配置单元表当在聚合大量数据的pyspark作业结束时写入此表时，写入Hive的速度非常慢，因为只有一个执行器当写入HDFS支持的表时，写入是并行进行的，并且速度要快得多。我尝试使用s3a路径定义表，但是由于一些模糊的错误，我的作

浏览 6提问于2016-08-18得票数 3

2回答

当使用cassandra spark连接器进行数据聚合时，如何并行化RDD工作？

apache-spark、cassandra、spark-cassandra-connector

这里是示例senario，我们在cassandra中有实时数据记录，我们想要聚合不同时间范围内的数据。我写的代码如下： timeRanges.foreach { timeRange => val (timestampStart代码的问题是，对于每个时间范围，聚合工作都不是以并行方式运行的。我的问题是，我如何并行化聚合</

浏览 5提问于2016-01-12得票数 1

2回答

哪种类型的数据库适合对数百万行进行实时聚合操作

database、cassandra、nosql、teradata、rdbms

大多数查询将按操作(聚合)进行分组。我目前使用Teradata作为数据库后端。但是响应时间不是实时的(有些查询大约需要30秒)。我正在研究Cassandra作为替代，但在一些文档中，我发现如果有group by操作，那么Cassandra不是最佳选择。假设最多有100个用户同时使用应用程序(以及并行发生的数据更新)，哪种数据库最适合我的用例？任何传统的RDBMS都可以处理这种需求吗？任何帮助都将不胜感激。提前谢谢。

浏览 2提问于2017-12-04得票数 0

1回答

并行火花收集功能

python、apache-spark、pyspark

我注意到spark的函数，collect在大数据集上速度非常慢，所以我尝试使用并行化来修复这个问题。 spark = SparkSession.builder.appName('app_name').getOrCreate()这里是我尝试并行化我的收集函数的</e

浏览 4提问于2019-09-19得票数 0

1回答

为什么使用并行集合不能更快呢？

scala、scala-2.9、parallel-collections

我只是想测试一下并行集合，我使用了下面这行代码(在REPL中)：反对：但并行版本的速度并不快。编辑1:是的，我确实有一个多核处理器编辑2:好的，我自己“解决”了这个问题。isProbablePrime的实现似乎是问题所在，而不是<

浏览 3提问于2011-05-27得票数 7

1回答

Apache spark和Map reduce之间的关系是什么？

shell、mapreduce、apache-spark

我有些关于星火框架的问题。首先，如果我想编写一些运行在星星团上的应用程序，那么遵循地图减少过程是不可避免的吗？由于要遵循map-还原过程，许多代码必须更改为并行化表单，所以我正在寻找一些简单的方法来将当前的项目移动到代码很少变化的集群中。第二是关于火花壳.我尝试使用以下代码在集群上启动星火壳：MASTER=spark://IP:PORT ./bin/spark-shell。M

浏览 2提问于2014-06-11得票数 0

回答已采纳

1回答

是否有可能在单个数据文件上并行运行多个聚合作业？

apache-spark、parallel-processing、pyspark、etl

有没有任何方法可以并行地在单个RDD上运行多个独立的聚合作业？第一个首选是Python，然后是Scala和Java。按优先次序排列的行动方案如下：使用卡夫卡-运行不同的<

浏览 2提问于2016-06-25得票数 0

1回答

你用Spark* (用R或Python)查询Cassandra的方法是什么？*

apache-spark、apache-spark-sql、spark-cassandra-connector、sparklyr

我正在处理存储在Cassandra中的大约1TB的数据，并尝试使用Spark和R(可能是Python)来查询它。查询数据时，我更喜欢将要查询的Cassandra表抽象为Spark RDD (使用sparklyr和带有spark-sql的spark-cassandra-connector )，并简单地对感兴趣的列(与我共事的公司说，这种方法是一个坏主意，因为它会转化为CQL中

浏览 0提问于2018-03-14得票数 1

1回答

spark-elasticsearch连接器是否支持以多个并行方式读取es索引数据

elasticsearch

我在https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html#spark-read上阅读我想读取属于某个索引的所有数据我想问一下这个spark-elasticsearch连接器是否支持多个并行的读取，以便我可以加快读取速度。

浏览 64提问于2021-08-04得票数 0

1回答

为什么PermGen的填充速度不快？

java、memory-leaks、permgen

} throw new RuntimeException(e);} 下面是由这个类加载器加载的Leak然后，我修改了Leak类，向它添加了20个名称很长的方法：} 由于方法名称驻留在PermGen中，这样的修改将加快PermGen的填充速度。但是，动态分析(使用JVisualV

浏览 0提问于2014-12-29得票数 1

回答已采纳

1回答

星火流作业运行非常慢

apache-spark、pyspark、spark-streaming

 StructField("time", StringType(), True) .builder.master("local[8]") \

浏览 0提问于2019-04-17得票数 2

回答已采纳

1回答

在Apache星火库中使用Reduce

hadoop、apache-spark、reduce

我试图使用Apache加载一个文件，并将该文件分发到集群中的几个节点，然后聚合结果并获得它们。我不太明白该怎么做。据我所知，reduce操作使Spark能够将来自不同节点的结果组合起来，并将它们聚合在一起。我理解得对吗？ reduce应该包含两个元素和一个用于组合它们的函数。这两个元素应该是星火上

浏览 0提问于2015-03-05得票数 0

回答已采纳

3回答

独立模式下的火花并行

apache-spark、pyspark、databricks

我正试图在我的系统中以独立模式运行火花。我的系统目前的规格是8核32 Gb内存。基于，我计算火花配置如下：spark.executor.cores 3spark.executor.memory20g我在我的jupyter笔记本中创建了这样的<

浏览 8提问于2017-07-22得票数 7

回答已采纳

2回答

为什么使用Java线程的速度不快？

java、multithreading

我有下面的程序从字符串向量中删除偶数，当向量变大时，可能需要很长时间，所以我想到了线程，但使用10个线程并不比1个线程快，我的PC有6个核心和12个线程，为什么？e) { e.printStackTrace(); } } Remover_Thread.start();} 在我的程序中，你可以尝试“方法1:使用10个线程”或“方法2:只使用一个线程”在速度方面没有太大差异，我解释它要快几倍，为什么

浏览 0提问于2011-07-21得票数 3

回答已采纳

1回答

我们是在dataframe上使用groupBy还是使用reduceBy

apache-spark、group-by、spark-dataframe

而在groupBy中，apache中的dataframe会触发并在以后使用聚合，并在dataframe中使用另一列。有什么性能问题吗？reduceBy是一个更好的选择吗？

浏览 0提问于2018-03-27得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云