火花或闪烁中的reduce、reduceByKey、reduceGroups

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

reduce：函数采用累加值和下一个值来查找一些聚合。 reduceByKey：也是与指定键相同的操作。 reduceGroups：对分组后的数据进行指定的操作。我不知道这些操作的内存是如何管理的。例如，在使用reduce函数时如何获取数据(例如加载到内存中的所有数据？)？我想知道reduce操作是如何管理数据的。我还想知道这些操作在数据管理方面有什么不同。

浏览 113提问于2019-09-29得票数 0

1回答

为什么spark的数据集中没有reduceBykey

、、

在此中，大多数答案都介绍了groupByKey + reduceGroups策略。然而，我没有发现任何关于为什么spark删除reduceByKey接口的评论。有评论说，Spark的Catalyst Optimizer可以降低一些计算，这可能解释了为什么。然而，根据作者和我的测试，Dataset的groupByKey + reduceGroups策略比reduceByKey慢得多。那么为什么要删除reduceByKey</em

浏览 45提问于2019-08-05得票数 0

回答已采纳

3回答

在火花上找不到reduceByKey方法

、

我在我的Java月食上使用的是火花核心2.10 jar。我在里面找不到任何reduceBykey方法！我对reduce的建议只有reduce和treeReduce。知道这是怎么回事吗？

浏览 5提问于2016-09-08得票数 0

回答已采纳

1回答

星火中的treeReduce与reduceByKey

我看到了下面的帖子：当treeReduce是更好的选择时，是否有特殊的情况或规则？同样，这可以在以上基于reduceByKey的

浏览 0提问于2015-12-03得票数 3

回答已采纳

2回答

将groupByKey转换为reduceByKey

、、、

我读到，在大型数据集上，reducebyKey是一个更好的选择，可以减少数据的混乱，并以这种方式提高性能。 .flatMap(bidirRelationship)val lin

浏览 3提问于2017-10-18得票数 0

回答已采纳

2回答

Apache星星图-减少解释

、

我想知道这个小片段是如何工作的： // Load input data.String, Integer> call(String x) { } }).

浏览 1提问于2015-06-04得票数 0

回答已采纳

1回答

火花"CodeGenerator:未能用Dataset.groupByKey编译“

、、、

我有一个三列数据集(id，name，年份)，我想为每个名称找到最近的一年。| 2015 || id_4 | name_2 | 2015 |我以为groupByKey和reduceGroups会完成任务： .groupByKey(_.name) .reduceGroups((left, right) => if (left.year > right.year，如果我创建一个只有

浏览 1提问于2016-10-14得票数 7

2回答

减少(K，V)对，按V排序

、、、

= '')(124, u'"OO""N908SW"')其中第一个是上面提到的x[33]之和，当按x8和x9组合分组时))[(-10.0, [u'OO', u'N908SW']),(62, [u'DL', u'N810NW]), (-6.0, [u'WN&#x

浏览 1提问于2018-12-01得票数 1

回答已采纳

1回答

火花-减少操作时间太长

、、、

为此，首先我需要做一些预处理，在结束前提取文档项矩阵.我可以这样做，但是对于一个(不是那么多)大量的文档集合(只有2000，5MB)，这个过程需要花费很长时间。在代码的这一部分中，我要做的是计算每个术语在集合中发生了多少次，所以首先我做了一个"map"，为每个rdd查找它，而他们则“减少”它，将结果保存在一个hashmap中。代码： "filesIn“是一个JavaPairRDD，其中键是文件路径，值是文件的内容。所以，首先是映射，我取这个"fil

浏览 2提问于2015-11-06得票数 2

回答已采纳

3回答

Apache Spark中reduce与reduceByKey的区别

就功能而言，Apache Spark中的reduce和reduceByKey有什么不同？为什么reduceByKey是一种转换而reduce是一种操作？

浏览 3提问于2017-12-22得票数 16

1回答

如何检索火花中最小值的记录？

、

假设我有一个像这个-> (String，Date，Int)这样的RDD我想把它转换成像->这样的列表其中值是记录每个键的日期最

浏览 3提问于2016-02-23得票数 2

回答已采纳

1回答

如何找到键值对中的公共值，并将其作为所有对的值？

、、

如何在键值对中求值的交集？, n3)) 有办法解决吗？还是我应该从一开始就想点别的？._2)).reduceByKey<

浏览 1提问于2018-04-26得票数 0

回答已采纳

1回答

星星之火RDD:多个还原键或仅一次

、、、

. // loading from hdfsval rst1 = idList.map(id => makeRDD(id, data)).reduce(_ union _).reduceByKey(_+_) val rst2 = idList.map(id => makeRDD(id, data)).reduce((l,r) => (l union r我认为rst1需要更多的内存(100次)，但只需要一个reduceByKey<

浏览 4提问于2016-06-08得票数 2

回答已采纳

2回答

这个Spark/Scala代码的性能瓶颈在哪里？

、

首先，让我指出，我对火花和Scala都很陌生。我一直试图通过迁移Hadoop /Reduce(我过去做过的)之一来调查承诺的火花性能。outputPath) { tuples.map(l => l._1 + "\u200e" + l._2).reduce花了一个多小时才通过同样的输入..。我不确定问题是在Scala还是Spark配置

浏览 5提问于2015-01-03得票数 8

回答已采纳

1回答

火花流- reduceByKey用于DStream内部的映射

、

如何在星火/星火流中利用reduceByKey来处理驻留在DStream中的普通Scala？我有一个DStream[(String, Array[(String, List)])]，其中我想将reduceByKey函数应用到内部Array[(String, List)] (将所有列表连接在一起) 我可以通过将外部RDD转换为普通数组(以避免SparkContext对象上的序列化错误)在普通星火库中完成此操作。sc.parallelize()应用于内部Array

浏览 5提问于2014-10-26得票数 0

回答已采纳

2回答

获取大输入文件时触发OutOfMemoryError

我有一个spark应用程序，它读取一个包含1亿行的文件(每行都有一个代码，如US1.234.567B1)，并从中获取一些模式，如下所示： val codes = sc.textFile("/data我认为只要有足够的硬盘空间，火花就可以处理任何大小的输入。

浏览 4提问于2016-09-30得票数 0

回答已采纳

1回答

我们是在dataframe上使用groupBy还是使用reduceBy

、、

而在groupBy中，apache中的dataframe会触发并在以后使用聚合，并在dataframe中使用另一列。有什么性能问题吗？reduceBy是一个更好的选择吗？

浏览 0提问于2018-03-27得票数 3

回答已采纳

1回答

使用联合而不是加入apache更有效，还是不重要？

、、、、

不过，我当时认为，对于这种计算，我可以使用union、reduceByKey和filter来避免连接。但是，这基本上就是join已经在做的事情吗？假设rdd中有具有以下结构的对象： leftRDD = rdd1.map(lambda y: (y['key'], (1, y['rightRDD = rdd2.map(lambda y: (y['key'], (0, -1, y['value'])) jo

浏览 3提问于2015-05-30得票数 3

回答已采纳

2回答

星火中的ReduceByKey和parititionBy

在学习火花书中，他们写：对于reduceByKey()，首先在每个执行器上使用提供的关联约简函数本地聚合相同键的元素，然后最终跨执行器聚合。那么，为什么

浏览 0提问于2018-09-30得票数 2

回答已采纳

1回答

为什么这个PageRank作业使用数据集要比使用RDD慢得多？

、、、

我使用较新的Dataset API在Java语言中实现了PageRank的。当我将我的代码与使用较旧的RDD API的示例进行基准测试时，我发现我的代码需要186秒，而基线只需要109秒。造成这种差异的原因是什么？(旁注:即使数据库只包含少数几个条目，Spark也要花费数百秒的时间，这正常吗？)我的代码： Dataset<Row> outLinks = spark.read().jdbc("jdbc:postgr

浏览 1提问于2017-12-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云