spark中循环的并行化_这个方法会强制spark中的"for“循环并行化吗？_CUDA并行化嵌套的for循环 - 腾讯云开发者社区

、、

_brand = brand spark = SparkSession.getOrCreate() first_col = spark.sql(query1) first_brand = spark.sql(query2) resul

浏览 17提问于2019-03-21得票数 0

1回答

星火中的准等位基因收藏

、、

星火中的“平行集合”的概念是什么，以及这个概念如何能够提高工作的整体性能？此外，应该如何配置分区呢？

浏览 3提问于2018-05-05得票数 1

回答已采纳

3回答

并行化/避免spark中的foreach循环

、、、

// writes the Results into another Dataframe that is saved to HDFS我认为在Scala列表中的DataFrames的计算可以并行进行，因为计算结果不是下一个DataFrame的输入-我如何实现这一点？1)当我在spark-shell中执行此命令时，一切工作正常/

浏览 1提问于2016-06-28得票数 12

1回答

并行火花收集功能

、、

我注意到spark的函数，collect在大数据集上速度非常慢，所以我尝试使用并行化来修复这个问题。 spark = SparkSession.builder.appName('app_name').getOrCreate()这里是我尝试并行化我的收集函

浏览 4提问于2019-09-19得票数 0

1回答

这是在pyspark上做乘法的正确方法吗？

、、、

下面是我的代码： spark = SparkSession \ .appName("Python Sparkspark.executor.memory", "4g") \ .config("spark</e

浏览 1提问于2018-03-03得票数 0

1回答

是否将文件存储在hdfs中，将其并行化为Spark？

、、

对于Spark的RDD操作，数据必须是RDD形状的，或者使用以下方法并行化：我的问题是，如果我将数据存储在HDFS中，它是自动并行化的，还是应该使用上面的代码来使用Spark中的数据？在HDFS中存储数据是否使其成为RDD的形状？

浏览 0提问于2018-04-28得票数 2

回答已采纳

1回答

火花驱动程序上的并行文件操作

、、、

我正在尝试删除blob上的大量文件，安装到我的火花驱动程序中。当我试图使用spark并行化这个程序时，我会得到以下错误： .foreach(lambda r: dbutils.fs.

浏览 12提问于2022-04-27得票数 1

回答已采纳

1回答

将顺序代码转换为并行代码

、、、

当做一些简单的练习时，我没有问题，以顺序的方式做，但是当我要并行化我的代码时，我遇到了困难。使用Spark将其“转换”成并行代码的正确方法是什么？我只需要理解整个概念。PS:我已经读过文档了，我知道什么是RDDs等等，我只是不知道如何将顺序代码“转换”成并行代码。

浏览 1提问于2014-11-16得票数 2

1回答

星火如何利用每台机器中的多核并行性？

、

我在集群中以独立模式运行Spark (100台机器，每台计算机16个CPU核，每台机器32 GB RAM )。我在运行任何应用程序时都会指定SPARK_WORKER_MEMORY和SPARK_WORKER_CORES。在星火程序设计中，我把它当作一个串行程序来编程，然后星火框架会自动并行任务，对吗？当然，通过数据并行来开发多线程需要更大的内存，但我不知道我的Spark程序中的哪个

浏览 2提问于2017-01-23得票数 0

回答已采纳

2回答

如何使用scala并行化spark中的for循环？

、、、

例如，我们有一个拼图文件，其中包含2000个股票代码在过去3年的收盘价，我们想要计算每个股票代码的5日移动平均值。所以我创建了一个spark SQLContext然后 marketData.filter(symbol).rdd.sliding(5).map(...calculating the avg...).save()显然，在spark<

浏览 5提问于2016-05-03得票数 4

回答已采纳

1回答

Spark performance -如何并行化大型循环？

、、、

我有一个总共包含8000个循环的Spark应用程序，它在5个节点的集群上运行。每个节点具有125 32内存和32个核心。关注的代码如下所示： var id = deviceArray(m)每个循环大约需要50秒才能使用完集群。我的数据大小是2到3 GB (从表中读取)。如果有8000个循环

浏览 2提问于2015-12-08得票数 2

1回答

我可以测量ML.api在Spark中的并行性能吗？

、、、

一般来说，我想用相同的学习算法在Spark中比较大型数据集和拆分数据集之间的计算时间。另一个原因是我想得到分区模型的结果。如何调整参数才能得到想要的结果？或者我可以停下来使用Spark中的原始方法来使用分区吗？

浏览 3提问于2016-08-25得票数 0

2回答

如何在火花放电中进行并行处理

、、

我想做并行处理在for循环中使用吡火花。from pyspark.sql import SparkSessionspark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false") data = [a(&

浏览 8提问于2020-01-10得票数 0

1回答

是否有方法检查星火中的变量是否可并行？

、

所以我在spark中使用了groupByKey函数，但是它没有被并行化，因为我可以看到在它的执行过程中，只使用了一个核心。我正在处理的数据似乎不允许并行化。是否有一种方式可以知道输入数据是友好的并行化，还是不合适的RDD？

浏览 2提问于2014-11-08得票数 1

回答已采纳

1回答

Apache Spark如何处理非Spark代码？

、、

假设我创建了一个Spark作业(在Java中)，其中包含Spark代码(使用Dataset API)和非Spark代码。看起来Spark代码将被自动并行化并在多台机器上运行。Spark知道只在一台机器上运行regular-Java/non-Spark吗？

浏览 3提问于2017-12-08得票数 1

1回答

用于并行RDD的spark.default.parallelism默认为2，用于火花提交。

、

每个工作人员上有一个主节点和2个工作节点、4个cpu核心的火花独立集群。所有工人共有8个核心。运行以下通过火花提交(spark.default.parallelism未设置)println("Partititon" + myRDD.partitions.size)println("Sum - " + totl) 它返回分区大小的值当

浏览 2提问于2016-02-13得票数 8

1回答

在数据帧上并行PySpark精化的最好方法？

、、、

我是Spark的新手，我正在尝试学习如何并行执行以下代码： # init of results dataframe, empty StructFieldStringType()), StructField('std_dev', FloatType())df_result = spark.createDataFramedataframe wit

浏览 12提问于2020-09-11得票数 0

回答已采纳

1回答

Apache Spark和不可序列化的应用程序上下文

、、、

我是新来的。我想使用Spark和map-reduce方法来并行我的计算。但是，这个计算需要初始化一些上下文，我将其放入映射阶段的PairFunction实现中。这个上下文包括来自第三方jar的几个单例对象，并且这个对象是不可序列化的，所以我不能在工作节点上传播它们，也不能在我的PairFunction中使用它们。所以我的问题是:我能使用Apache Spark以

浏览 1提问于2016-01-25得票数 3

3回答

为什么SparkContext.parallelize使用驱动程序的内存？

、

现在，我必须使用sc.parallelize()来创建一个并行化集合(Spark2.1.0)。# my python code s

浏览 7提问于2017-09-17得票数 3

回答已采纳

2回答

在PySpark SQL中并行执行读写API调用

、、、、

我需要以Parquet格式将增量记录从MySQL中的一组表加载到Amazon格式。这些表在AWS MySQL托管实例中的几个数据库/模式中很常见。代码应该并行地从每个模式(其中有一组公共表)复制数据。def load_

浏览 4提问于2020-08-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云