根据第二个rdd的值过滤rdd

文章/答案/技术大牛

发布

1回答

基于RDD2的RDD1过滤

scala、apache-spark、rdd

我有2个以下格式的RDDS 156,1RDD2 178156val out = reversedl1.filter

浏览 0提问于2017-09-22得票数 0

1回答

我有两个rdd，我想根据另一个的值来过滤其中一个。每个rdd的几个实例如下： rdd1 = [((address1, date1),1), ((address5, date2),1), ((address1, date2),1), ((address2,date3),1)] rdd2 = [(address1,1), (address1,1), (address2, 1), (address1, 1)] 期望的输出将

浏览 10提问于2020-12-13得票数 0

回答已采纳

2回答

从火花中的另一个RDD返回最大N值的RDD

python、apache-spark、pyspark、rdd

我试图过滤一个元组的RDD，根据键值返回最大的N个元组。我需要返回格式是一个RDD。所以RDD：对最大的3个键进行过滤后，应该返回RDD： [(6,'p'), (12,'e'

浏览 1提问于2015-12-15得票数 3

回答已采纳

1回答

星火嵌套RDD操作

python、pyspark、apache-spark-sql、rdd

这样做的目的是使用过滤rdd1将记录从rdd2的值提取到rdd2中(从rdd1获取的记录可以在获取时重复，就像在输出中看到的那样) 过滤标准rdd1.created 1.创建<= ts <rdd1.createdRDD1使用键的某些条件对RDD2进行过滤。(上面描述)并返回连接<e

浏览 1提问于2015-10-21得票数 4

回答已采纳

1回答

rdd上具有累加器的循环

scala、apache-spark、spark-streaming

我想循环n次，其中n是同一rdd上的累加器val key = keyAcm.value.toIntval combined = rdd.filter(k => (k._1 == key) || (k._1 == key + 1)).reduceByKey { case (x, y) => (x ++ y) }combined

浏览 1提问于2018-09-12得票数 0

1回答

ValueError:需要2个以上的值才能解包

apache-spark、pyspark

我的数据在join之后的格式如下# (u'u'session_idu'129001032'), None)) # (u'u'session_id', ((u'2024574', u'61370212')

浏览 2提问于2015-12-23得票数 0

1回答

Spark aggregateByKey:使用密钥

apache-spark

我想从我的RDD中创建一组布卢姆过滤器。我的做法如下：其中rdd类似于RDD[(Int, Long)] 问题是，这些值不是在每个组中均匀分布的也就是说，“一刀切”在这里不起作用，我希望根据每个键的元素数量，对每个键进行不同的size过滤器初始化。所以

浏览 0提问于2017-12-07得票数 2

回答已采纳

4回答

连接后火花对RDD中的Order by值

scala、apache-spark、rdd

我有两个成对的RDD，我使用相同的键将它们连接在一起，现在我想使用其中一个值对结果进行排序。新加入的RDD类型为: RDD[((String，Int)，Iterable((String，DateTime，Int，Int)，(String，DateTime，String，String))] 其中第一部分是成对的RDD键，可迭代部分是我连接的两个RDD的值。我现在想要

浏览 0提问于2015-04-14得票数 1

1回答

为什么将RDD持久化到磁盘并不能提高性能？

apache-spark

我有下面的DAG 磁盘上RDD</em

浏览 4提问于2017-03-09得票数 0

回答已采纳

2回答

Scala:使用集合中的元组指定的不同条件进行过滤

scala、apache-spark、rdd

我有一个RDD，它的field1包含一个药物名称，field2包含该药物的相应剂量。我正在尝试根据保存在一组元组中的多个条件来过滤这个RDD，例如：我想我能做

浏览 23提问于2020-02-10得票数 0

回答已采纳

2回答

当在缓存的RDD上执行时，筛选的RDD是否仍在缓存中？

scala、apache-spark

我想知道我们是否执行以下指令：val size = rdd.countval sizeF = filter.count 在过滤器RDD上执行的操作是否在缓存中执行？尽管我们从第一个RDD中创建了第二个RDD，但是信息来自同一个地方，

浏览 3提问于2017-05-04得票数 0

回答已采纳

2回答

收集具有列值列表的多个RDD* -星点*

scala、apache-spark、apache-spark-sql

我有一个RDD和一个值列表。如何根据值列表对它们进行筛选，并将它们作为单独的RDD收集？例如：如何传递一个值列表来收集列表中所有筛选的RDD？

浏览 0提问于2019-09-05得票数 0

回答已采纳

1回答

Pyspark -如何在键和值上使用广播字典过滤RDD

python、apache-spark、pyspark、rdd

我正在尝试根据一个广播变量过滤一个大的RDD。我能够执行以下操作，即过滤在广播变量中作为键存在的元组。nested_filter = {"india":'ind',"usa":'us'} rdd_set = sc.parallelizeindia','ind'),('i

浏览 19提问于2019-04-22得票数 2

回答已采纳

1回答

如何仅在rdd的第二个字段中存在一个字段rdd时才选择它的值

scala、apache-spark、rdd

我有一个有3个字段的rdd，如下所述。2,4,63,4,7现在，从上面的rdd，我想得到后续的rdd。2,4,62,3,8 结果的rdd没有以1开头的行，因为输入rdd中的第二个字段中没有1。

浏览 3提问于2016-04-19得票数 0

回答已采纳

1回答

检查value是否为另一对pyspark的key

python、pyspark、rdd

我想这个问题的答案可能太明显了。keys = pairs.keys().distinct()filteredValuesor reference an RDD from an action or tran

浏览 12提问于2020-05-24得票数 2

回答已采纳

1回答

如何使用LabeledPoint过滤RDD？

python、pyspark

我的初始RDD如下所示：我尝试这个操作：RDD.colle

浏览 0提问于2021-05-01得票数 1

1回答

在RDDs上点燃左外接和重复键

database、scala、apache-spark、rdd

我有两个RDD (键，值)。我的第二个RDD比我的第一个RDD短。我想将我的第一个RDD的每个值与第二个RDD中的相应值关联起来，这是关于键的。的多个元素具有相同的键。现在，当在rdd2中找不到相应的键时，我知道我想为b使用一个常量值。我认

浏览 2提问于2021-03-09得票数 0

回答已采纳

2回答

Spark 1.6.2的RDD缓存在某些情况下似乎用过滤器做了一些奇怪的事情

apache-spark

我有一个RDD：然后，我过滤RDD中的单个匹配值：我现在计算一下我为SiteId获得了多少不同的值。给定过滤器，它应该是&

浏览 3提问于2016-09-13得票数 0

1回答

火花-如何将rdd的顶部N作为一个新的rdd* (而不是在驱动程序中收集)*

scala、apache-spark、rdd

我想知道如何过滤具有最高N值之一的RDD。通常，我会对RDD进行排序，并将top N项作为驱动程序中的数组来查找可以广播的Nth值，以便像这样过滤rdd：val threshold = topNvalues.last val rddWi

浏览 2提问于2017-11-29得票数 8

回答已采纳

1回答

PySpark，按键相交

pyspark、rdd

例如，在PySpark中有两个RDD：((0,1), 2)((1,1), 4)((0,1), 3)我想要从第一个RDD到第二个RDD的交集。实际上，第二个RDDs必须为第一个RDDs扮演面具的角色。产出应是：((1,1), 4) 它意味着来自第一个RDD的值，但仅用于第二个RDD</em

浏览 2提问于2016-06-08得票数 1

回答已采纳

点击加载更多

基于RDD2的RDD1过滤

从火花中的另一个RDD返回最大N值的RDD

星火嵌套RDD操作

rdd上具有累加器的循环

ValueError:需要2个以上的值才能解包

Spark aggregateByKey:使用密钥

连接后火花对RDD中的Order by值

为什么将RDD持久化到磁盘并不能提高性能？

Scala:使用集合中的元组指定的不同条件进行过滤

当在缓存的RDD上执行时，筛选的RDD是否仍在缓存中？

收集具有列值列表的多个RDD* -星点*

Pyspark -如何在键和值上使用广播字典过滤RDD

如何仅在rdd的第二个字段中存在一个字段rdd时才选择它的值

检查value是否为另一对pyspark的key

如何使用LabeledPoint过滤RDD？

在RDDs上点燃左外接和重复键

Spark 1.6.2的RDD缓存在某些情况下似乎用过滤器做了一些奇怪的事情

火花-如何将rdd的顶部N作为一个新的rdd* (而不是在驱动程序中收集)*

PySpark，按键相交

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐