在Pyspark中使用reduceByKey减少元组值_在pyspark中对具有多个字段的值使用reduceByKey_在VBA中减少值 - 腾讯云开发者社区

、、

我开始使用Pyspark的MapReduce范型，我遇到了一个问题，我不知道这是编程错误还是我不应该这样做。(id, (date, length, counter))，我这样做是为了从原始数据文件中提取我需要的所有信息，并过滤那些嘈杂的行，这样我就不必再使用原始数据文件了。顺便说一句: Counter最初是1，打算在未来的reduceByKey中添加。如果a和b应该得到这对的值，元素2应该有它的计数器，我无法理解它。将原始数据文件映射多次，每次提取一个不同的所需值是不是

浏览 14提问于2020-01-21得票数 0

1回答

Pyspark:按键聚合RDD，然后也按键对元组值列表求和

、

我使用的是pyspark，并且有这样的对： (GroupKey , [(userKey, count),...,(userKey, count)]) 其中值是元组列表，如下例所示： (Group1, [ (userA, 1), (userA, 1), (userB, 1), (userA, 1) ] )(Group2, [ (userA, 1), (userC, 1), (userC, 1), (userC, 1) ] ) 我必须使用R

浏览 18提问于2020-07-04得票数 2

回答已采纳

1回答

在Spark中使用reduceByKey的正确方法是什么

、、、、

我使用spark-1.4.1-bin-hadoop1构建，因为spark-1.4.1-bin-hadoop2中的python Cassandra接口有问题。reduceByKey(lambda x，y: y)返回最后一个元组的第一个值，但是reduceByKey(lambda x，y: x)抛出异常。尝试使用reduceByKey(lambda x，y: x+y)通过键对值求和，但该语句抛出与x相同的异常。代码片段： import s

浏览 4提问于2015-09-24得票数 0

1回答

减少星火中元组的列表

、

我有一个元组列表：val re = List((2,3), (3,5), (2,4))变成了我一直在研究Scala星火的例子：，例如单词计数： .map(word => (word, 1))

浏览 1提问于2014-10-09得票数 0

回答已采纳

1回答

如何使用pyspark.rdd组合数据格式("word"，(1，2))？

、、

当使用pyspark处理数据时，我想要计算一个单词的两个属性。(2, 3))("word2", (5, 6))("word1", (3, 5))这意味着用单词组合元组值我试过用但不起作用。如何使用<

浏览 2提问于2022-04-12得票数 0

回答已采纳

1回答

PySpark -聚合还是按多个键缩减？

、

我有一个具有以下元组格式的RDD：我只想按(a, (b,c))和d进行分组，如下所示：在pySpark中如何按多个键分组?在这种情况下，reduceByKey和aggregateByKey哪个函数更优？

浏览 6提问于2017-12-19得票数 0

1回答

为什么reduceByKey是“错误:简单表达式的非法开始”？

我是scala和spark的新手，在实现reduceByKey时，我遇到了下面的错误。var redRdd = filterRdd.reduceByKey((acc , val) => if (acc > val ) acc else val)var redRdd = filterRdd.reduceByKey((acc , val) => if (acc > val ) acc

浏览 5提问于2016-08-14得票数 1

回答已采纳

1回答

IndexError:超出范围的字符串索引

、

我正在尝试将地图和reduceByKey实现到以下15个字段的数据集。("West", "Apple", 3.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0, 10,2.0]) 这是我的map函数，在这里我试图创建一个包含多个键和值的元组(在上面的元组中的值上实现类似于聚合的sql )。rdd2 = rdd1.reduceByKey(lambda x,y: (x[1]+',

浏览 1提问于2015-08-27得票数 1

2回答

获取RDD中每个键的最大值和最小值

、、、、

0.02704600', '3.90800000'], ['0.02704700', '7.44600000'] 我想要得到每个键的最大值和最小值

浏览 6提问于2021-01-02得票数 1

1回答

在reduceByKey() api spark中获取密钥

、

有没有一种方法可以在reduceByKey()函数的pyspark中获得键的名称，这样我就可以获得传递给reduceByKey()函数的两个值之间的公共键？例如：//can i get the key value common

浏览 3提问于2017-03-03得票数 0

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

使用Python在文件中使用单词的频率

、、

我正在尝试使用python程序来计算单词数。from pyspark import SparkContext lines = sc.textFile(sys.argv[1],

浏览 1提问于2018-02-27得票数 0

1回答

Spark中groupBy的替代方案

、、、、

, b: "2"},{a: "1", b: "3"},{a: "1", b: "4"}]我尝试了两种不同的方法，分别使用窗口函数和使用这两种方法，我都得到了想要的结果。where("rank = 1")val df2 = df.groupBy(df("id

浏览 0提问于2018-06-05得票数 3

4回答

何时使用countByValue，何时使用map().reduceByKey()

、、、

因此，我正在使用countByValue，如下所示：val wordCounts = words.map(x => (x, 1)).reduceByKey现在，我的问题是什么时候使用哪种方法？哪一种优先于

浏览 0提问于2018-10-21得票数 5

回答已采纳

1回答

如何将火花放电数据1x9转换为3x3

、、

我有一个df，是1x9temp = spark.read.option("sep","\n").csv("temp.txt")萨姆11岁约翰13波士顿埃里克22得克萨斯州如果不使用

浏览 3提问于2019-11-04得票数 0

回答已采纳

1回答

在PySpark中使用reduceByKey()无法获得正确的平均值

、、

我正在学习PySpark。我一直试图通过“性别”(男性('M')，女性(‘F’))在键/值RDD中使用reduceByKey()转换来获得平均体重。我使用的代码是：def get_mean(*args): .filter(lambda x: not x[0].st

浏览 0提问于2021-08-04得票数 0

1回答

整理PySpark中嵌套字典的列表

、、、、

我需要使用PySpark来扁平以下包含嵌套dicts的RDD，示例如下：在我所拥有的实际数据中，每个嵌套的dict可能有不同的长度和项数。我需要输出为一个字典，其中键和值在必要时被合并：我怎样才能做到这一点？我知道我必须以同样的方式使用<

浏览 3提问于2017-10-11得票数 1

回答已采纳

1回答

在不使用PySpark函数的SQL中获取每月最大值

、、、、

我想要找到这个查询的每月最大值，以获得每月最繁忙的机场。在不使用SQL命令的情况下，是否有一个pyspark函数可以获得最大值并将RDD减少到只有12行(每月一行)？from pyspark import SparkContextfrom operator import add .map(

浏览 36提问于2020-06-17得票数 0

回答已采纳

1回答

PySpark -对(元组，整型)值执行reducyByKey

、、、

我想把它减少到每个键，以及它在元组中每个点的平均值。(0,19,15,39),1)),(1,((0,64,19,3),1))] 我将得到： [(1,(0,83,34,41),2))] 然后(或直接) [(1,(0,41.5,17,21)] 我试过了： reduceByKey(lambda a,b: a+b) reduceByKey(lambda a,b: (a[0]+b[0],a[1]+b[1])) 以及其他没有帮助或导致RDD错误的东西。

浏览 11提问于2021-01-28得票数 1

回答已采纳

1回答

为什么我不能在约简逻辑中引用键？

、、

我希望在我的combineByKey/reduceByKey/foldByKey中有依赖于当前正在操作的密钥的逻辑。从方法签名可以看出，传递给这些方法的唯一参数是合并/还原/折叠的值。使用一个简单的示例，其中我只有一个RDD，它是(int, int)元组，我想要的结果是tuple[0]键控的rdd，其中值是最接近键的int。例如：(1, 3)(2, 4)(2, 2)(3, 4) 应减少</em

浏览 0提问于2016-10-11得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云