如何通过过滤掉给定的一组密钥来减少一对RDD？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

3回答

、、、

我有一对RDD，格式为：RDD[(String, String)]和一个文件中的密钥列表。我想要一个RDD，它只包含那些与列表中的键匹配的键-值对。我如何实现这一点(最好是在Scala中)？谢谢。

浏览 0提问于2017-01-12得票数 1

回答已采纳

1回答

根据火花中的第二个rdd值减去rdd的线

、

1)+" "+p(2)+" "+p(3)我想过滤ranoms1第二元素DestIP在相关结果中包含的行

浏览 3提问于2015-11-17得票数 0

回答已采纳

2回答

如何在DataFrame中获得唯一的值对

、、、

给定一个pySpark DataFrame，如何获得列col1和col2的所有可能的唯一组合。我试过了，但似乎行不通： df.select(['col1','col2']).distin

浏览 0提问于2017-10-03得票数 2

回答已采纳

1回答

在PairRDD上的Join结果会导致通过键来共同定位数据吗？

我想了解两对rdd上的连接是如何工作的？这是否会导致将具有相同密钥的两个RDD的数据混洗到同一分区中？如果是这样的话，在创建时使用partitionBy函数对RDD进行分区(通过连接属性)是否会更好，以便减少混洗？感谢Ankur

浏览 0提问于2015-01-22得票数 2

1回答

为什么我不能在约简逻辑中引用键？

、、

我希望在我的combineByKey/reduceByKey/foldByKey中有依赖于当前正在操作的密钥的逻辑。从方法签名可以看出，传递给这些方法的唯一参数是合并/还原/折叠的值。使用一个简单的示例，其中我只有一个RDD，它是(int, int)元组，我想要的结果是tuple[0]键控的rdd，其中值是最接近键的int。：()只取3个参数

浏览 0提问于2016-10-11得票数 0

回答已采纳

3回答

从读取查找方法的定义：lookup(key: K): Seq[V] Return the list of values in the RDD for key key.This operation is done efficiently if the RDD has a known partitioner by only searching the partition如何确保RDD有一个已知的分区程序？我知道RDD是跨集群中的节点进行分区<em

浏览 1提问于2015-05-07得票数 2

2回答

如何更新RDD？

、、

我们正在开发Spark框架，其中我们正在将历史数据移动到RDD集合中。现在有一个用例，其中RDD中的数据子集被更新，我们必须重新计算值。Approach1:广播变化：对于每个更改请

浏览 45提问于2014-12-16得票数 20

1回答

后继查找的最优二进制搜索树？

、、、

在给定一组密钥和所选密钥的相关概率的情况下，有许多查找的算法。以这种方式生成的二进制搜索树将具有查找这些元素的最低期望时间。但是，对于其他度量，这种二进位搜索树可能不是最优的。例如，如果试图查找不包含在树中的键，查找时间可能非常长，因为为了优化某些元素的查找，树可能是不平衡的。我目前感兴趣的是如何从一组键构建

浏览 2提问于2011-12-28得票数 0

回答已采纳

1回答

查询执行过程中超出的资源

、

我正在尝试运行一个连接两个大型数据集的查询，但我遇到了查询执行期间超出的资源错误。我读到过在使用Join Each和Group Each时有一些变通方法，但不知道这些变通方法是什么。

浏览 0提问于2013-05-16得票数 13

回答已采纳

1回答

如果在中间阶段发生故障，MapReduce如何从错误中恢复？

、、、

在星火中，我知道错误是通过重新计算RDDs来恢复的，除非缓存了RDD。在这种情况下，计算可以从缓存的RDD开始。我的问题是，如何在MapReduce框架(例如Apache )中恢复错误。让我们说，在洗牌阶段(地图之后和减少之前)发生了故障，它将如何恢复。会不会再次执行映射步骤。MapReduce中是否有将输出存储在HDFS中的阶段，以便只能从那里重新启动计算？那么地图减少之后<e

浏览 0提问于2016-10-23得票数 5

回答已采纳

3回答

Scala循环转换为函数方法

、、、

for (i <- 15 to 25){ count_table_rdd = count_table_rdd.union(training_data.map(line => (i+"_"+line(

浏览 1提问于2015-04-10得票数 1

回答已采纳

1回答

获得JPQL中另一个表的分组最大结果

、、、

从ImportRun到帐户有一对多(双向)关系。有可能有几个具有相同accountId的帐户，这些帐户引用不同的ImportRuns和不同的runIds (例如，每天一个)。我希望为给定的一组accountIds (这是一种业务密钥，而不是hibernate实体密钥)获取最新的accountIds，或者更好的是，它们每个帐户都引用现有的最新ImportRun (因此，该ImportRun<

浏览 2提问于2013-04-29得票数 0

回答已采纳

1回答

为什么它只在JSONiq中返回最后一个元素？

、、、

read for entertainment" }查询代码：return $x("book")/name 正如您从链接中看到的，

浏览 1提问于2016-03-12得票数 1

1回答

关于指定值元素的ReduceByKey

、

新的火花，并试图理解reduceByKey，这是指定接受RDD(K，V)。我不清楚的是，当值是list/tuple时，如何应用这个函数.在各种映射和筛选操作之后，我的RDD以(Cluster:String, (Unique_ID:String, Count:Int))的形式结束，其中我可以有许多属于同一个集群的元素，例如： Array现在，我想使用reduceByKey为每个集群查找计数最高的元素(因此每个集群有一个条目)

浏览 0提问于2016-11-21得票数 2

回答已采纳

1回答

Spark/Scala -将keyBy与列表的RDD一起使用[(整数，双精度)]

、、、、

我正面临着一个问题，我不知道如何以优雅的方式解决这个问题。我有两个RDD需要加入：Second - RDD[MyObject, List[(Int, Double)]) 我需要使用Int作为密钥加入这两个对于第一个RDD，很清楚-我可以使用Int定义keyBy，但是如何在第二个RDD中定义keyBy呢？我得到的RDD必须具有以下结构RD

浏览 0提问于2016-05-03得票数 1

1回答

Spark:如何按键比较两个rdd

、

我想通过它们的公共密钥来比较两个rdd。因此，我首先使用key过滤rdd，然后比较子rdd。例如， def compare(rdd1,rdd2): rdd = sc.textFile(path1) # each Rdd is dict type) 为了方便起见，我举了一个rdd的例子。},{'f':[2,100,1

浏览 36提问于2020-07-02得票数 0

1回答

有办法为星火ReduceByKey函数提供Java比较器吗？

我有JavaPairRDD<KeyClass, ValueClass> rdd，我的KeyClass有几个字段。JavaPairRDD<String, Tuple2<KeyClass, ValueClass>> readyForReduce = rdd.MapToPair(addKey()); 我知道我可以传入一

浏览 2提问于2016-05-17得票数 0

回答已采纳

1回答

如何仅在星火流中的分区中“减少”，也许使用combineByKey？

、、、、

我已经通过Kafka将数据按键排序到我的Spark流分区中，也就是说，在一个节点上找到的密钥在任何其他节点上都找不到。我希望使用redis及其incrby (增量按)命令作为状态引擎，并减少发送给redis的请求数量，我希望通过单独对每个工作节点进行单词计数来部分减少我的数据。如何才能在每个分区器上编写一个简单的字数减少，而不触发Scala中具有星火流的洗牌步骤？

浏览 3提问于2016-09-29得票数 0

1回答

在数字海洋2 2GB 2内核上通过密钥耗费大量时间来减少火花

、、

谢谢，rdd只有17000个条目。thanks = rdd1.filter(lambda (x

浏览 0提问于2016-03-19得票数 2

3回答

算法:是否有一种通过删除所有子集来合并一组集合的映射缩减方法？

、

(因为Set(1,2,3)和Set(1,2,3,4)都是Set(1,2,3,4,6)的子集，所以两者都被删除。)能用地图缩小的方式来做吗？这样做的原因是，有时一组集合有很大的大小，这使得无法在一台机器的内存中这样做。所以我们希望用一种地图减少的方式，它可能不是很有效，但只是工作。我的问题是：我不知道如何为映射-还原过

浏览 4提问于2015-12-24得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云