腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
火花
或
闪烁
中
的
reduce
、
reduceByKey
、
reduceGroups
、
、
、
reduce
:函数采用累加值和下一个值来查找一些聚合。
reduceByKey
:也是与指定键相同
的
操作。
reduceGroups
:对分组后
的
数据进行指定
的
操作。我不知道这些操作
的
内存是如何管理
的
。例如,在使用
reduce
函数时如何获取数据(例如加载到内存
中
的
所有数据?)?我想知道
reduce
操作是如何管理数据
的
。我还想知道这些操作在数据管理方面有什么不同。
浏览 113
提问于2019-09-29
得票数 0
1
回答
为什么spark
的
数据集中没有
reduceBykey
、
、
在此
中
,大多数答案都介绍了groupByKey +
reduceGroups
策略。然而,我没有发现任何关于为什么spark删除
reduceByKey
接口
的
评论。有评论说,Spark
的
Catalyst Optimizer可以降低一些计算,这可能解释了为什么。然而,根据作者和我
的
测试,Dataset
的
groupByKey +
reduceGroups
策略比
reduceByKey
慢得多。那么为什么要删除
reduceByKey</em
浏览 45
提问于2019-08-05
得票数 0
回答已采纳
3
回答
在
火花
上找不到
reduceByKey
方法
、
我在我
的
Java月食上使用
的
是
火花
核心2.10 jar。我在里面找不到任何
reduceBykey
方法!我对
reduce
的
建议只有
reduce
和treeReduce。知道这是怎么回事吗?
浏览 5
提问于2016-09-08
得票数 0
回答已采纳
1
回答
星火中
的
treeReduce与
reduceByKey
我看到了下面的帖子: 当treeReduce是更好
的
选择时,是否有特殊
的
情况
或
规则?同样,这可以在以上基于
reduceByKey
的
浏览 0
提问于2015-12-03
得票数 3
回答已采纳
2
回答
将groupByKey转换为
reduceByKey
、
、
、
我读到,在大型数据集上,
reducebyKey
是一个更好
的
选择,可以减少数据
的
混乱,并以这种方式提高性能。 .flatMap(bidirRelationship)val lin
浏览 3
提问于2017-10-18
得票数 0
回答已采纳
2
回答
Apache星星图-减少解释
、
我想知道这个小片段是如何工作
的
: // Load input data.String, Integer> call(String x) { } }).
浏览 1
提问于2015-06-04
得票数 0
回答已采纳
1
回答
火花
"CodeGenerator:未能用Dataset.groupByKey编译“
、
、
、
我有一个三列数据集(id,name,年份),我想为每个名称找到最近
的
一年。| 2015 || id_4 | name_2 | 2015 |我以为groupByKey和
reduceGroups
会完成任务: .groupByKey(_.name) .
reduceGroups
((left, right) => if (left.year > right.year,如果我创建一个只有
浏览 1
提问于2016-10-14
得票数 7
2
回答
减少(K,V)对,按V排序
、
、
、
= '')(124, u'"OO""N908SW"')其中第一个是上面提到
的
x[33]之和,当按x8和x9组合分组时))[(-10.0, [u'OO', u'N908SW']),(62, [u'DL', u'N810NW]), (-6.0, [u'WN
浏览 1
提问于2018-12-01
得票数 1
回答已采纳
1
回答
火花
-减少操作时间太长
、
、
、
为此,首先我需要做一些预处理,在结束前提取文档项矩阵.我可以这样做,但是对于一个(不是那么多)大量
的
文档集合(只有2000,5MB),这个过程需要花费很长时间。在代码
的
这一部分
中
,我要做
的
是计算每个术语在集合中发生了多少次,所以首先我做了一个"map",为每个rdd查找它,而他们则“减少”它,将结果保存在一个hashmap
中
。代码: "filesIn“是一个JavaPairRDD,其中键是文件路径,值是文件
的
内容。所以,首先是映射,我取这个"fil
浏览 2
提问于2015-11-06
得票数 2
回答已采纳
3
回答
Apache Spark
中
reduce
与
reduceByKey
的
区别
就功能而言,Apache Spark
中
的
reduce
和
reduceByKey
有什么不同?为什么
reduceByKey
是一种转换而
reduce
是一种操作?
浏览 3
提问于2017-12-22
得票数 16
1
回答
如何检索
火花
中最小值
的
记录?
、
假设我有一个像这个-> (String,Date,Int)这样
的
RDD我想把它转换成像->这样
的
列表其中值是记录每个键
的
日期最
浏览 3
提问于2016-02-23
得票数 2
回答已采纳
1
回答
如何找到键值对
中
的
公共值,并将其作为所有对
的
值?
、
、
如何在键值对
中
求值
的
交集?, n3)) 有办法解决吗?还是我应该从一开始就想点别的?._2)).
reduceByKey<
浏览 1
提问于2018-04-26
得票数 0
回答已采纳
1
回答
星星之火RDD:多个还原键
或
仅一次
、
、
、
. // loading from hdfsval rst1 = idList.map(id => makeRDD(id, data)).
reduce
(_ union _).
reduceByKey
(_+_) val rst2 = idList.map(id => makeRDD(id, data)).
reduce
((l,r) => (l union r我认为rst1需要更多
的
内存(100次),但只需要一个
reduceByKey<
浏览 4
提问于2016-06-08
得票数 2
回答已采纳
2
回答
这个Spark/Scala代码
的
性能瓶颈在哪里?
、
首先,让我指出,我对
火花
和Scala都很陌生。我一直试图通过迁移Hadoop /
Reduce
(我过去做过
的
)之一来调查承诺
的
火花
性能。outputPath) { tuples.map(l => l._1 + "\u200e" + l._2).
reduce
花了一个多小时才通过同样
的
输入..。我不确定问题是在Scala还是Spark配置
浏览 5
提问于2015-01-03
得票数 8
回答已采纳
1
回答
火花
流-
reduceByKey
用于DStream内部
的
映射
、
如何在星火/星火流
中
利用
reduceByKey
来处理驻留在DStream
中
的
普通Scala?我有一个DStream[(String, Array[(String, List)])],其中我想将
reduceByKey
函数应用到内部Array[(String, List)] (将所有列表连接在一起) 我可以通过将外部RDD转换为普通数组(以避免SparkContext对象上
的
序列化错误)在普通星火库
中
完成此操作。sc.parallelize()应用于内部Array
浏览 5
提问于2014-10-26
得票数 0
回答已采纳
2
回答
获取大输入文件时触发OutOfMemoryError
我有一个spark应用程序,它读取一个包含1亿行
的
文件(每行都有一个代码,如US1.234.567B1),并从中获取一些模式,如下所示: val codes = sc.textFile("/data我认为只要有足够
的
硬盘空间,
火花
就可以处理任何大小
的
输入。
浏览 4
提问于2016-09-30
得票数 0
回答已采纳
1
回答
我们是在dataframe上使用groupBy还是使用reduceBy
、
、
而在groupBy
中
,apache
中
的
dataframe会触发并在以后使用聚合,并在dataframe中使用另一列。有什么性能问题吗?reduceBy是一个更好
的
选择吗?
浏览 0
提问于2018-03-27
得票数 3
回答已采纳
1
回答
使用联合而不是加入apache更有效,还是不重要?
、
、
、
、
不过,我当时认为,对于这种计算,我可以使用union、
reduceByKey
和filter来避免连接。但是,这基本上就是join已经在做
的
事情吗?假设rdd中有具有以下结构
的
对象: leftRDD = rdd1.map(lambda y: (y['key'], (1, y['rightRDD = rdd2.map(lambda y: (y['key'], (0, -1, y['value'])) jo
浏览 3
提问于2015-05-30
得票数 3
回答已采纳
2
回答
星火中
的
ReduceByKey
和parititionBy
在学习
火花
书中,他们写: 对于
reduceByKey
(),首先在每个执行器上使用提供
的
关联约简函数本地聚合相同键
的
元素,然后最终跨执行器聚合。那么,为什么
浏览 0
提问于2018-09-30
得票数 2
回答已采纳
1
回答
为什么这个PageRank作业使用数据集要比使用RDD慢得多?
、
、
、
我使用较新
的
Dataset API在Java语言中实现了PageRank
的
。当我将我
的
代码与使用较旧
的
RDD API
的
示例进行基准测试时,我发现我
的
代码需要186秒,而基线只需要109秒。造成这种差异
的
原因是什么?(旁注:即使数据库只包含少数几个条目,Spark也要花费数百秒
的
时间,这正常吗?)我
的
代码: Dataset<Row> outLinks = spark.read().jdbc("jdbc:postgr
浏览 1
提问于2017-12-01
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券