为什么我不能在Spark中使用combineByKey？

文章/答案/技术大牛

发布

1回答

、、

我用Spark 2.4.5写了这段代码： df_join is a dataframe.x(1).toString, x(3).toString), (x(9).toString.toDouble, x(1).toString.toInt))) 当我尝试编写comByKeyResult.combineByKey,时，combineByKey方法不可用。为什么？我导入以下库:导入org.apache.spark.rdd._。我应该添加其他库或包吗？

浏览 12提问于2020-10-23得票数 0

回答已采纳

1回答

为什么星火不允许地图端和数组键结合？

、、、

我正在使用Spark1.3.1，我很好奇为什么Spark不允许在地图端组合中使用数组键。combineByKey function片 if (mapSideCombine) { throw new SparkException("

浏览 3提问于2015-09-21得票数 7

回答已采纳

1回答

火花隐式RDD转换不起作用

、、

对于，我有一个类似的问题，但是接受的解决方案并不能为我解决这个问题。我试图在一个简单的RDD上应用combineByKey： import org.apache.spark._ result.collectAsMap().map(println(_)) }编译

浏览 1提问于2015-06-19得票数 0

回答已采纳

1回答

Spark Countbykey() -为什么作为动作实现

、、

在Spark中，为什么CountbyKey()是作为动作而不是转换来实现的。我认为它的功能类似于Reducebykey或combinebykey。有没有什么特别的原因让它实现为Action..

浏览 1提问于2019-04-12得票数 2

2回答

Python星火combineByKey平均值

、、

我正试图学习Python中的Spark，并且一直使用combineByKey来平均键值对中的值。事实上，我的困惑不是combineByKey语法，而是随后发生的事情。使用spark 2.0.1和iPython 3.5.2，这会引发语法错误异常。有人能告诉我这个功能的示例吗?它实际上适用于最近版本的Spark & Python？为了完整起见，我已经包含了<e

浏览 3提问于2016-10-23得票数 1

回答已采纳

1回答

火花CombineByKey

、

我有以下格式的SparkArray[(String, (String, Double))] = Array( (2013-10-19 00:00:00.0,) 我试图使用combineByKey从R

浏览 1提问于2017-07-17得票数 1

1回答

为什么我在Spark中使用combineByKey的字数计数是这些值总和的两倍？

、

我正在尝试使用Spark的combineByKey来计算单词数。我不确定，但我猜merge和combiner的功能可能是相同的，因为合并器和reducer上的计数操作可以是相同的。如果我取平均值，这种情况就不会发生。如何对合并和合并使用相同的函数来实现此字数统计？另一件事是，为什么我的结果显示的值是我计算的值的两倍？如何实现只显示键和值的和一次的combineByKey？import org.ap

浏览 13提问于2020-07-03得票数 0

回答已采纳

1回答

Spark aggregateByKey reduceByKey -聚合(例如集合)必须是线程安全的？

、、

如果我使用aggregateByKey或reduceByKey，并且我聚合了一个集合的特定实现。在此聚合过程中，我是否需要使用线程安全集合？这样可以吗？

浏览 0提问于2017-09-11得票数 1

3回答

Spark:运行时reduce元素的技术术语？

、、、

在下面的字数统计示例中：(Hello,1)(Hello,1)Hadoop的reducer函数将使用键"Hello“收集所有5个元素，然后在然而，在Spark中，它实际上是每次减少2个元素。那么，有没有专门的术语来描述Spark中使用的这种计算方法呢？谢谢!

浏览 0提问于2016-01-07得票数 0

1回答

如何仅在星火流中的分区中“减少”，也许使用combineByKey？

、、、、

我已经通过Kafka将数据按键排序到我的Spark流分区中，也就是说，在一个节点上找到的密钥在任何其他节点上都找不到。我希望使用redis及其incrby (增量按)命令作为状态引擎，并减少发送给redis的请求数量，我希望通过单独对每个工作节点进行单词计数来部分减少我的数据。如何才能在每个分区器上编写一个简单的字数减少，而不触发Scala中具有星火流的洗牌步骤？注DStream对象缺少一些RDD方法，这些方法只能

浏览 3提问于2016-09-29得票数 0

1回答

DStream应按顺序处理所有相同的密钥

、、

我有(Key，Value)类型的数据流。mapped2.foreachRDD(rdd => { p.foreach(x => { )})我需要确保具有相同键的所有项都在一个分区中处理我可以使用低效的GroupBykey吗？

浏览 1提问于2016-12-08得票数 0

2回答

组合键和聚合键的区别

、

我是Apache spark的新手，所以这个问题可能不适合问，但我不明白combinebykey和aggregatebykey之间的区别以及何时使用哪个操作。

浏览 0提问于2017-04-19得票数 7

1回答

如何知道分区是在哪个worker上执行的？

、、

我只是想找到一种方法来获取RDD分区在Spark中的位置。在调用RDD或PairRDD.combineByKey()之后，返回的RDD被分区。我想知道分区位于哪些工作实例(用于检查分区行为)？！

浏览 5提问于2015-06-09得票数 2

1回答

类型不匹配，找到SortedSet，需要任意

、

使用combinebyKey时，得到类型不匹配错误如下所示 .combineByKey( (x: Int) =>SortedSet[Int], x: Int) => (acc += x), (acc1: SortedSet[Int], acc2: SortedSet[Int]) => (acc1 ++= acc2)) 为什么scala不能将scala.collection.mutable.

浏览 2提问于2019-04-01得票数 0

回答已采纳

1回答

与combineByKey相关的查询

、

对于下面的输入=> [('B', 1), ('B', 2), ('A', 3), ('A', 4), ('A', 5)]，在使用combineByKey进行处理后，我期待下面的输出scala> val x = sc.parallelize(Array(('B',1),('B',2),('A',3),('A&#

浏览 2提问于2019-07-17得票数 0

回答已采纳

1回答

比较数据对，有时合并

、、、

现在，我有几个重叠的短语(即“be或”在“既或不存在”中)，我想删除这些包含在较大短语中的较短的短语。我对星火有点陌生，所以我不知道如何在星火中做到这一点。我知道，如果我收集()元素，我可以做一个双嵌套循环，但我想知道是否有一种方法可以通过还原或聚合在Spark中完成。基本上，我想要一个函数，将检查每一对短语，或者返回两个短语，如果一个不包含在另一个，或者只是一个短语，如果一个是

浏览 0提问于2015-03-14得票数 0

1回答

为了对元素进行分组，可以在Spark中实现CombineByKey()而不是GroupByKey()吗？

我正在尝试对我创建的RDD的元素进行分组。一种简单但昂贵的方法是使用GroupByKey()。但最近我了解到CombineByKey()可以更有效地完成这项工作。我的RDD非常简单。grouped_elements=first_RDD.groupByKey()..mapValues(x => x.toList) 结果是： (1,List(5,8,40)) (2,List(9,20,6)) 我想根据第一个元素有没有人可以帮我用CombineByKey</em

浏览 4提问于2020-03-26得票数 1

回答已采纳

1回答

使用scala的API基于spark中的多列对数据进行分组

、

我有一个RDD，想要根据多列分组数据。对于大型数据集spark无法使用combineByKey、groupByKey、reduceByKey和aggregateByKey工作，这些都会产生堆空间错误。你能给出另一种使用Scala的API解决这个问题的方法吗？

浏览 0提问于2015-12-07得票数 0

1回答

如何使用combineByKey？

、

我正试图在countByKey和combineByKey中获得相同的结果。，我想使用combineByKey获得countByKey的输出。combineByKey但是我得到了意想不到的结果，我不知道<e

浏览 3提问于2016-12-21得票数 3

回答已采纳

3回答

谁能对火花中的“组合键”给出一个清晰的解释？

、

我正在学习火花，但我不能理解这个函数combineByKey。>>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] )产出如下： [('A&#

浏览 5提问于2015-11-26得票数 10

回答已采纳

点击加载更多