如何在RDD中合并数组

文章/答案/技术大牛

发布

3回答

如何合并RDD数组

、、

我有一个RDD数组：Array[RDD[(String, Double)]]，如何将这些RDD合并到RDD[String, Array[Double]]中。例如：RDD: [('x', [1, 3,...

浏览 5提问于2017-08-04得票数 1

回答已采纳

1回答

、、、、

我有以下RDD[Array(String，String，String)]我想要合并</

浏览 5提问于2016-08-18得票数 1

回答已采纳

1回答

Scala中的数组[(String，Set[String])]转换

、、

我有一个数组类型[ RDD [(String，SetString)]的RDD，其中每个RDD都是键和值的元组。键是字符串，值是SetString，我想用相同的键合并/合并集合。RDD["A",Set("1","2")]RDD["B",Set(

浏览 1提问于2016-03-14得票数 0

回答已采纳

1回答

星星之火中的“不平坦”

、、

我有一个N号的RDD[LabeledPoint]。val batchedRDD = rdd.mapPartitions { iter: Iterator[Int] => def next(): Array[Int] = { iter

浏览 0提问于2016-02-25得票数 1

回答已采纳

1回答

如何在自定义条件下合并星火RDD中的元素？假设有一个RDD[SeqInt]，其中一些SeqInt包含重叠元素。任务是将此区域中所有重叠的SeqInt合并，并将结果存储到一个新的RDD中。例如，假设RDD[SeqInt] = [ 1,2，3，2,4,5，1，2，2，7,8,9]，则结果应该是[1,2,3,4,5，7,8,9]。因为RDD[SeqInt]非常大，所以我不能在驱动程序中完成它。是否有可能

浏览 3提问于2014-12-01得票数 2

1回答

在pySpark中删除重复项的最佳方法

、、

我正在尝试通过对几个列使用dropDuplicates()来删除spark数据帧中的重复项。但是由于大量的混洗和数据倾斜，作业被挂起了。为此，我使用了5个内核和30 do的内存。考虑到数据倾斜和混洗，请给我建议在spark中删除重复项的最优方法。

浏览 0提问于2018-09-25得票数 0

1回答

当数据太大时如何连接星火中的组件

、、、

当处理大数据的组件连接时，我发现很难在火花中合并它们。RDD[Array(1,2,3), Array(1,4), Array(5,6), Array(5,6,7,8), Array(9), Array(1)]RDD[Array(1,2,3,4),

浏览 1提问于2016-11-09得票数 0

2回答

如何在星火RDD中通过键连接两个散列映射

、、

的格式各有两个RDD。 RDD2-> {string1,HashMap[{long c,object}]RDD->{string1,HashMap[{long a,obj

浏览 3提问于2015-03-26得票数 1

回答已采纳

1回答

如何在星火Java中使用sortby

我有两个rdd，想合并在一起，我有以下问题， List<Integer> data2 = Arrays.asList(2, 4, 6, 8); JavaRDD<Integer> rdd2 = sc.parallelize(data2);

浏览 3提问于2017-11-25得票数 2

回答已采纳

1回答

如何在php中合并to数组的数据数组

、、

如何在php?中合并to数组的数据数组$a=[1,2]; $b =[3,4];$data = [[1,3]],[2,4]]; 如何在php中编写代码，如array_merge或php或laravel中的代码？

浏览 4提问于2022-09-23得票数 -3

回答已采纳

1回答

在Spark中创建每个执行器数组并合并到RDD中

、、

但是，我希望在每个执行者中并行地创建它们。因此，我想为P火花执行器独立地创建P边缘数组。每个数组可能有不同的大小，取决于顶点，因此，我还需要从0到n-1的执行器id。接下来，我希望有一个全局的RDD阵列的边缘。在MPI中，我将使用处理器级别在每个处理器中创建一个数组。我如何在星火中做到这一点，特别是使用GraphX库？因此，我的主要目标是在每个执行器中创建一个边缘数组，并将它们合并到一个R

浏览 3提问于2015-12-15得票数 3

回答已采纳

4回答

什么是黑暗？.它与mapPartitions有何不同？

、

我在RDD上遇到了glom()方法。根据文件 glom是在分区间对数据进行洗牌，还是只将分区数据作为数组返回？我还想知道是否有任何从glom中受益的用例。

浏览 4提问于2016-03-02得票数 15

回答已采纳

1回答

在GraphX中将多个图形合并在一起

、

我希望能够将它们合并在一起形成一个图形。Graph1和Graph2可以在Song上合并，Graph2和Graph3可以在Writer上合并，Graph1和Graph3可以在Artist上合并。WriterProperty(val vertexType: String, val writerName: String) extends VertexProperty val ArtistWriter: RDDWriter" => WriterProperty(vertexType, row(2

浏览 0提问于2018-06-07得票数 0

1回答

如何查看RDD的每个部分中的数据？

、、

我只是用一个瘫痪的列表作为我的样本RDD。是否有任何方法可以检查每个分区的内容，以验证我的怀疑？哦，也许还有其他更新的API可以适应这个目标吗？提前谢谢。

浏览 2提问于2020-07-06得票数 3

回答已采纳

1回答

rdd上具有累加器的循环

、、

我想循环n次，其中n是同一rdd上的累加器val key = keyAcm.value.toIntval combined = rdd.filter(k => (k._1 == key) || (k._1 == key + 1)).reduceByKey { case (x, y) => (x ++ y) }combined.union(re

浏览 1提问于2018-09-12得票数 0

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表、元组或字典，会怎么样呢？它们将只存储在我的驱动程序节点的内存中，对吗？如果我把它们转换成RDD</e

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

reduceByKey:它是如何在内部工作的？

、、

我对reduceByKey函数在Spark中的工作方式感到困惑。pairs = lines.map(s => (s, 1))映射函数很清晰:s是键，它指向data.txt中的行

浏览 42提问于2015-05-10得票数 66

回答已采纳

2回答

spark中的哪个函数用于按键组合两个RDDs

、、、

rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]rdd2 = [ (key1, [value5, value6]), (key2key1, [value1, value2, value5, value6]), (key2, [value3, value4, value7]) ] 我如何使用Python或Scala在spark中做到这一点一种方法是使用join，但是join会在元组中创建一个元组。但是我希望每个键值对只有一个元组。

浏览 4提问于2014-11-13得票数 20

回答已采纳

1回答

如何使用Spark Map Reduce将一堆镶木地板文件合并在一起？

、、、、

我在代表相同数据模式的不同表的目录中有大量的拼图文件，我想将它们合并到一个大的RDD中。理想情况下，我想做一个map reduce，映射器发出小的RDD，reducer合并它们。然而，我不知道如何在映射器中发出RDD。有什么想法吗？下面的第一行生成目录中的文件列表，第二行应该生成完整的RDD。但是，它给出了一个unable to serialize错误，因为我认为您不能在map实例中创建RDD。

浏览 1提问于2017-09-06得票数 1

1回答

将Spark RDD中的元素相乘

、、、、

在运行Apache Spark作业时，我遇到的问题之一是将RDD中的每个元素彼此相乘。简单地说，我想做一些类似的事情，目前，我正在为每个'foreach‘使用2个迭代器。

浏览 0提问于2017-09-06得票数 0

点击加载更多

如何合并RDD数组