合并值key :具有公共键的value RDD_使用jq合并具有公共id的键_将key=>value合并为symfony中的值 - 腾讯云开发者社区

python、scala、apache-spark、rdd

我是使用python的新手，所以如果这个问题听起来很基本，请原谅。如果我有一个RDD： [(((1, 0), 0.0), (2, 0)), (((2, 0), -0.0), (1, 0)), (((3, 0), -0.0), (1, 0)), (((3, 0), -0.0), (2, 0))] 我想合并具有公用键的值。所以基本上我的输出应该

浏览 13提问于2019-05-29得票数 0

回答已采纳

1回答

在Spark中加入两个rdd，其中第一个rdd的值是第二个rdd的密钥

pyspark、left-join、rdd

有两个rdd_1，第一个是(键、值)对rdds第二个也是(键，值)对rdd_2 (key2, value3), (key3, value4)...我想加入rdd1和rdd2，rdd_1的value1 & value

浏览 4提问于2017-10-16得票数 0

1回答

rdd上具有累加器的循环

scala、apache-spark、spark-streaming

我想循环n次，其中n是同一rdd上的累加器val key = keyAcm.value.toIntval combined = rdd.filter(k => (k._1 == key) || (k._1 == key + 1)).map(x => (key

浏览 1提问于2018-09-12得票数 0

2回答

在Spark Scala中合并两个RDDs

scala、apache-spark

rdd1 =(字符串，字符串)key2, value12rdd2 =(字符串，字符串)key3, value23key4, value24 我需要用来自rdd1和rdd2的合并行形成另一

浏览 0提问于2015-07-28得票数 3

回答已采纳

2回答

将成对RDD中的值相减

scala、apache-spark

我是Scala和Spark的新手。有两个RDDs，比如RDD_B= (keyA,3)，(KeyB,7) 如何计算: RDD_A-RDD_B，这样我得到(keyA,2)，(KeyB,3

浏览 32提问于2020-05-18得票数 0

1回答

combineByKey在火花放电中的应用

apache-spark、pyspark

我从哈佛大学得到了一个问题:我们有这样的样本数据--数据= ("B"，2)，("A"，1)，("A"，4)，("B"，2)，("B"，3) combineByKey代码是这样的-->>> rdd2 = rdd.combineByKey >>> rdd2 = rdd

浏览 2提问于2019-12-07得票数 1

回答已采纳

3回答

如何通过键来区分火花rdd？

scala、apache-spark、transformation、rdd

现在，我有一个RDD，RDD中的记录如下：key1 value2key3 value4我希望获得具有不同密钥的RDD记录，如下所示：key2

浏览 3提问于2016-05-23得票数 0

回答已采纳

1回答

星星之火: RDD对重复键的外部连接优化

apache-spark、join、rdd

场景要将rdd</

浏览 0提问于2018-11-15得票数 3

回答已采纳

1回答

在RDDs上点燃左外接和重复键

database、scala、apache-spark、rdd

我有两个RDD (键，值)。我的第二个RDD比我的第一个RDD短。我想将我的第一个RDD的每个值与第二个RDD中的相应值关联起来，这是关于键的。val (rdd1: RDD[(key,A)]) val (rdd2: RDD

浏览 2提问于2021-03-09得票数 0

回答已采纳

0回答

如果存储在键中的值匹配，如何合并Spark中的两个RDD

java、scala、apache-spark、bigdata

假设我有2个RDDs当且仅当存储在rdd1中的key1中<e

浏览 0提问于2016-07-07得票数 1

1回答

Spark:如何按键比较两个rdd

apache-spark、pyspark

我想通过它们的公共密钥来比较两个rdd。因此，我首先使用key过滤rdd，然后比较子rdd。例如， def compare(rdd1,rdd2): pair_rdd = rdd</

浏览 36提问于2020-07-02得票数 0

3回答

谁能对火花中的“组合键”给出一个清晰的解释？

python、apache-spark

第二，我阅读了combineByKey的函数描述，但我对算法流程感到困惑。

浏览 5提问于2015-11-26得票数 10

回答已采纳

1回答

Map Reducing (Key，Value)元组，其中Value是Spark中的字典

python、apache-spark、dictionary、pyspark、mapreduce

spark思维方式的新手。我的映射器返回(key，dict)形式的元组：[('abc', {'min': 4}), ('def', {'min并需要简化为： [('abc', {'min': 6}), ('def', {'

浏览 2提问于2021-09-23得票数 0

1回答

如何在PySpark中得到两个RDDs之间的区别？

apache-spark、mapreduce、pyspark、apache-spark-sql、rdd

我正在尝试建立一个队列研究来跟踪应用程序中的用户行为，我想问你是否知道我如何从RDD 1中排除一个元素。rdd1 = sc.parallelize([("a", "xoxo"), ("b", 4)]) 例如，要在rdd1和rdd2

浏览 1提问于2016-11-17得票数 5

回答已采纳

1回答

使用联合而不是加入apache更有效，还是不重要？

python、performance、join、mapreduce、apache-spark

最近，我在一个apache星火集群上运行了一个作业，我打算在两个rdd上做一个内部连接。不过，我当时认为，对于这种计算，我可以使用union、reduceByKey和filter来避免连接。但是，这基本上就是join已经在做的事情吗？假设rdd中有具有以下结构的对象： leftRDD = rdd1.map(lambda y: (y['key</e

浏览 3提问于2015-05-30得票数 3

回答已采纳

1回答

Scala中的数组[(String，Set[String])]转换

scala、apache-spark、apache-spark-sql

我有一个数组类型[ RDD [(String，SetString)]的RDD，其中每个RDD都是键和值的元组。键是字符串，值是SetString，我想用相同的键合并/合并集合。RDD["A",Set("1","2")] RDD["A",Se

浏览 1提问于2016-03-14得票数 0

回答已采纳

1回答

如何用一个数组列来模拟pySpark数据？

python、apache-spark、pyspark

浏览 4提问于2016-04-21得票数 3

回答已采纳

1回答

在RDD中具有公共密钥的筛选(key:value)对的代码

scala、apache-spark、rdd

我有一个RDD，如下： (((1, 2), 1.0), (3, 4)), (((2, 3),中筛选出另一个RDD，它只包含那些键:具有公共键的值对。这就是我的输出RDD应该是： ((1,2),1.0), (3,4)), ((2,3),1.0), (1,2

浏览 0提问于2019-05-28得票数 1

2回答

合并同一键下的数组

json、jq

我有两个包含对象的文件。每个对象的字段都是对象数组。我想按每个键合并对象数组。我尝试通过jq -s '.[0] * .[1] | to_entries[].key ' file1.json file2.json获取所有密钥的列表。一旦你捕获了对象数组，我不确定你将如何匹配从.1到的键。

浏览 9提问于2019-11-09得票数 2

回答已采纳

1回答

选择RDD1的特定元素

scala、apache-spark、rdd

我被一个特定的scala-spark语法卡住了，我希望您能引导我朝着正确的方向前进。如果RDD1是数组类型(( Float，Float，Float)，Long)，RDD2.collect =数组(1，3，5...) 从索引出现在RDD2中的RDD1中提取值的</

浏览 0提问于2016-11-01得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云