如何在Spark中通过并行集合组合两个数组？

在Spark中，可以通过并行集合来组合两个数组。并行集合是指将一个集合分成多个分区，每个分区可以在不同的计算节点上并行处理。下面是在Spark中通过并行集合组合两个数组的步骤：

创建SparkSession对象：val spark = SparkSession.builder() .appName("Array Combination") .master("local[*]") // 使用本地模式，[*]表示使用所有可用的CPU核心 .getOrCreate()
创建两个数组：val array1 = Array(1, 2, 3, 4, 5) val array2 = Array(6, 7, 8, 9, 10)
将两个数组转换为并行集合：val rdd1 = spark.sparkContext.parallelize(array1) val rdd2 = spark.sparkContext.parallelize(array2)
使用zip方法将两个并行集合组合：val combinedRDD = rdd1.zip(rdd2)
可以对combinedRDD进行进一步的操作，例如打印结果：combinedRDD.foreach(println)

在这个例子中，通过并行集合将array1和array2组合成了一个新的RDD，其中每个元素是一个包含两个数组对应位置元素的元组。输出结果如下：

(1, 6)
(2, 7)
(3, 8)
(4, 9)
(5, 10)

这样，我们就通过并行集合在Spark中成功地组合了两个数组。

推荐的腾讯云相关产品：腾讯云弹性MapReduce（EMR）是一种大数据处理和分析的云服务，可以在云端快速部署和运行Spark集群，提供高性能的计算和存储能力。您可以通过腾讯云EMR来处理和分析大规模的数据集。

腾讯云EMR产品介绍链接地址：腾讯云弹性MapReduce（EMR）

如何在Spark中通过并行集合组合两个数组？

、

假设我们有两个数组Array1(1，2，3)和Array2(4，5，6)。我想把它们组合成一个新的Array3((1,4)，(2,5)，(3,6))，而当我在Spark中尝试它时，它就变成了。sc.parallelize(data2) distData3.foreach(println)135我怎样才能正确地组合它们//更新* 在我的程序中(与示

浏览 1提问于2016-07-08得票数 0

回答已采纳

1回答

给定一个项目，我需要查询外部数据源的相关数据，通过一些ML库调用进行机器学习，并转储结果。我需要在大约500个项目上进行学习。请注意，我并没有调用Spark的ML。但是我想看看我是否可以只使用spark进行分布式并行计算，看看我可以多快地学习。另一种选择是加载Spark DataFrame中的所有500项，并让Spark来决定如何在分区的DataFrame上运行ML。但这是一个单独的努力和研究，以比较与多个，并行和分布式运行的mini

浏览 3提问于2017-04-07得票数 1

1回答

火花-蒙戈连接器SparkR从两个集合中读取

、、

在Spark.mongo连接器中，可以在mongo中查询服务器长度，java和scala提供了有关查询不同集合的更多信息，如下所示：然后，在代码中可以指定另一个集合，设置配置ReadConfig(Map("uri"

浏览 3提问于2016-08-23得票数 0

回答已采纳

1回答

scala中的Builder、Combiner和Splitter是什么？

、、

在EPFL的并行编程过程中，提出了数据并行的四种抽象：Iterator、Builder、Combiner和Splitter。谢谢!

浏览 5提问于2016-10-18得票数 8

回答已采纳

1回答

Spark将Array[string]与标记结合起来

、

我在Array[string]集合中有两个MongoDB列，现在通过Scala UDF函数组合它，如下所示： { }spark.sql(("select concat_array(arr1,arr2)

浏览 0提问于2018-10-03得票数 1

回答已采纳

1回答

正在使用星火中鼓励使用的并行集合

、、

在星火上使用并行集合有意义吗？测试我和当地经理一起跑了。._1 + " " +Thread.currentThread.getName); x / 2})) 在本例中，当我使用parArr

浏览 0提问于2017-01-02得票数 4

1回答

SPARK_WORKER_INSTANCES设置在火花独立窗口中不起作用

我正在尝试设置一个独立的Spark2.0服务器，以并行处理分析功能。要做到这一点，我想运行8个工人，每个工人一个核心。但是，Spark /Worker UI似乎没有反映我的配置。SPARK_WORKER_CORES = 1火花-defaults.conf配置如下：我开始当主人： spark-classorg.apache.spark.deploy.m

浏览 4提问于2016-10-18得票数 1

2回答

在apache星火中跨多个工人运行单个作业

、

我试图了解Spark如何在多个工作人员之间拆分单个作业(使用sbt包构建的scala文件，以及jar是如何使用火花提交命令运行的)。例如:我有两个工作人员(每个内存512 For )。如果驱动程序内存大于工作内存，则不会分配给任何工作人员(即使两个工作人员的组合内存高于驱动程序内存)，并进入提交的状态。只有当具有所需内存的工作人员在集群中可用时，此作业才会进入运行状态。我想知道一个任务是否可以被分成多个工人，是否可以并行运行。如果是的话，有人能帮我做具体的步骤吗？注意

浏览 2提问于2014-07-10得票数 1

3回答

在Spark之后使用scala对象

、、、

我的假设是，我需要实现一个新的dataframe (即通过一个连接操作)，以便在Spark中执行这个操作。到目前为止，这个假设是正确的吗？我的最后一个问题case class PostsParquetReader(spark: SparkSession) { /** default m

浏览 2提问于2019-12-23得票数 1

回答已采纳

2回答

将星火数据分割成分区，并并行地将这些分区写入磁盘。

、、、

问题概要:假设我在AWS中的EMR集群上使用spark处理了300+ GB的数据。该数据有三个属性，用于在Hive中对文件系统进行分区:日期、时间和(比方说) anotherAttr。我想把这些数据写到fs中，这样才能减少写入的文件数量。我现在要做的是得到日期、小时、anotherAttr的不同组合，并计算出组合的行数。例如，如果我使用整个300 GB的DataFrame，使用1000个分区(在spark中)和相关的列进行重新分区，并将其转储到磁盘，

浏览 0提问于2020-05-09得票数 0

回答已采纳

3回答

为什么在星火中聚合和折叠两个不同的API？

、、、、

scalaList: List[Int] = List(1, 2, 3) res0: Int = 6scala> val rdd = sc.parallelize(List(1,2,3)) rdd: org.apache.spark.rdd.RDD那么，为

浏览 2提问于2014-10-29得票数 8

回答已采纳

1回答

在Apache星火库中使用Reduce

、、

我试图使用Apache加载一个文件，并将该文件分发到集群中的几个节点，然后聚合结果并获得它们。我不太明白该怎么做。据我所知，reduce操作使Spark能够将来自不同节点的结果组合起来，并将它们聚合在一起。我理解得对吗？ reduce应该包含两个元素和一个用于组合它们的函数。这两个元素应该是星火上下文中的RDDs，

浏览 0提问于2015-03-05得票数 0

回答已采纳

1回答

并发并行流

、、、

假设我有两个int[]数组input1和input2。我只想从第一个取正数，从第二个取不同的数字，将它们合并在一起，排序并存储到结果数组中。实际上，我错了:如果我将.parallel()添加到结果流中，则输入流似乎保持顺序。(至少在我的测试中是这样)。因此，我有以下问题：对于如何更好地使用串连流的并行化，是否有任何正式的指导方针？测试所有可能的组合并不总是可行的(特别是当连接两个以上的流时)，所以有一些“经验规则”会更好。如果我

浏览 0提问于2015-05-26得票数 14

回答已采纳

2回答

如何将双倍数组转换为RDD[String]

、、

testDensities: Array[Array[Double]] = Array(Array(1.1, 1.2), Array(2.1, 2.2), Array(3.1, 3.2)) .map { x => x.toArray }这段代码甚至觉得不正确，第二个map调用应该映射数组中的每个元素

浏览 6提问于2017-03-24得票数 3

回答已采纳

5回答

Scala ParArray排序

、、

如何按ParArray集合的升序排序，如否则，哪个并行集合可能更适合用于此目的？更新如何在ParArray上实现一种并行算法，该算法可能比向非并行集合进行顺序排序更有效？

浏览 4提问于2014-05-16得票数 2

回答已采纳

2回答

如何让spark作业使用Google Cloud DataProc集群上的所有可用资源？

、、

我已经尝试在主节点上编辑spark-defaults.conf文件，并尝试使用参数--executor-cores 4 --executor-memory 20g --num-executors 4运行我的spark-submit命令，但都没有任何效果。

浏览 25提问于2019-03-20得票数 4

回答已采纳

1回答

使用非列类型变量星火withColumn -添加列

、

"myList") 此编译错误位于myArray调用的.withColumn中。

浏览 0提问于2018-04-06得票数 3

2回答

如何在列表中创建值及其频率的列表？

、、、

我每天运行一个报告，其中列出了基于特定标识符的各种文件，该标识符指示了文件中的内容。为了加快我的工作流程，我想按标识符在一个简单的报表中设置这些文件，以及每个标识符发生的频率，并将这个列表从最常见到最少。我是一个新手，自学的程序员，特别害怕数组(我知道这将归结为数组.)。因此，我不一定知道在编码中有哪些命令和选项可用。我宁愿避免创建多个数组，并在可能的情况下创建多个For循环。它似乎是一个二维动态数组SortList(类别，频率)的路线，但是我找不到一种方法来过滤它中的

浏览 2提问于2015-08-14得票数 1

2回答