腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
星火
数据
集中
的
groupByKey
、
、
当
数据
集
上
使用
groupByKey
时,请帮助我理解传递给它
的
参数data: org.apache.
spark
.sql.Dataset[String] = [value: string] scala> data.flatMap(_.split(" ")).
groupByKey
(l=&
浏览 1
提问于2017-02-16
得票数 2
0
回答
spark
数据
集
上
的
GroupbyKey
、
当我们在sparkSQL中执行group by操作时,
groupByKey
是否会导致网络中所有值
的
混洗,即使它们已经位于同一分区中,它是使用
groupbykey
还是使用aggregateByKey来提高性能
浏览 9
提问于2017-06-08
得票数 1
回答已采纳
1
回答
星星之火groupBy OutOfMemory灾难
我正在一个相当小
的
数据
集
上
做一个简单
的
groupBy ( HDFS中
的
80个文件,总共很少有)。我在一个纱线集群中
的
8台低内存机器
上
运行星火,即类似于:
数据
集
由长度为500-2000
的
字
浏览 2
提问于2014-08-05
得票数 7
回答已采纳
1
回答
Spark
-
groupByKey
其他选项
、
、
我们需要使用
Spark
来控制巨大
的
数据
集
。该控件包括按键对
数据
进行分组(我们使用
的
是:
groupByKey
()),然后对每个分组
的
数据
进行循环,以检查它们之间
的
一致性。例如,我们有以下csv文件包含要检查
的
列:1;12/02/2015;30/05/2015;active;05/
浏览 4
提问于2018-10-10
得票数 0
3
回答
Spark
中
的
低性能reduceByKey()
、
、
我正在写一个关于
Spark
的
程序,我只是根据键进行聚合。这个程序非常简单。我
的
输入
数据
只有2 2GB,运行在多核服务器(8核,32GBRAM)
上
,设置为local2。这就是使用两个内核进行并行化。我猜这可能是由序列化程序引起
的
。如何解决这个问题?
浏览 0
提问于2014-03-11
得票数 2
回答已采纳
1
回答
影响preservesPartitioning RDD真/假给出了相同
的
mapPartitions结果
、
、
不错
的
散文,但它真正意味着什么呢?这里是一个人为
的
琐碎例子,不管我是否将true或false传递给mapPartitions,对于新
的
RDD,每个分区
的
数据
分区仍然是相同
的
,即使我改变了K,V
的
K值,那么,意义是什么呢?一定是我错过了一些基本
的
东西。import org.apache.
spark
.HashPartitionerdef myfunc(iter:
浏览 0
提问于2020-01-02
得票数 2
回答已采纳
1
回答
Spark
错误:找不到存储在
数据
集中
的
类型
的
编码器
、
、
、
我在齐柏林飞艇笔记本
上
使用
Spark
,但
groupByKey
()似乎不起作用。这段代码: .mapGroups((key, iterable) => println(key))error: Unable to find encoder for type stored in a Dataset.我尝试
浏览 8
提问于2016-09-16
得票数 4
回答已采纳
2
回答
星星之火:单流水线scala命令比单独
的
命令好吗?
、
它在速度方面是否获得更高
的
效率?为什么?例如:反对var b = a.map(f => (f(2),f(5).toInt)) var c = b.
groupByKey
浏览 3
提问于2013-10-13
得票数 1
回答已采纳
1
回答
在
Spark
中,如果没有指定分区器,那么在开始聚合
数据
之前,ReduceByKey操作是否会通过散列重新划分
数据
?
、
、
、
如果我们没有提到reduceByKey操作
的
任何分区程序,那么在还原之前它是否在内部执行hashPartitioning呢?例如,我
的
测试代码如下:val newRdd = rdd.reduceByKey((a,b) => (a+b)) 在这里,reduceByKey操作是否将所有具有相同密钥
的
记录带到同一个分区并执行还原(对于上面的代码由于我
浏览 0
提问于2018-08-13
得票数 0
回答已采纳
2
回答
Apache
Spark
Java 8中
的
自连接示例
、
我有一个如下
的
数据
集
Delhi,23Lucknow,36Kolkata,34Kolkata,23JavaPairRDD<String, Iterable<Integer>> temp2 = words.
groupByKey
(); Jav
浏览 1
提问于2015-08-27
得票数 1
1
回答
理解星火结构流并行性
、
、
我是星火世界
的
新手,在一些概念
上
苦苦挣扎。 当使用由Kafka提供
的
Spark
结构化流源时,并行性是如何发生
的
?gDataset = ds.
groupByKey
(...),
数据
集
的
分区数是基于
spark
.sql.shuffle.partitions参数
的
。对于每一批(从卡夫卡拉),被拉
的
项目会被分配到
spark
.sql.shuffle.partitions
浏览 3
提问于2018-01-13
得票数 8
回答已采纳
1
回答
从星火中读取蜂巢表为
数据
集
、
、
、
、
我正在尝试将
spark
中
的
一个hive表读取为一个强类型
的
Dataset,并且我注意到分区并没有被修剪,而不是从同一个hive表中对dataframe执行
Spark
。case class States(state: String, country: String)//no partition pruning hiveDS.
groupByKey
(x=
浏览 0
提问于2018-04-09
得票数 3
回答已采纳
1
回答
使用scala
的
API基于
spark
中
的
多列对
数据
进行分组
、
我有一个RDD,想要根据多列分组
数据
。对于大型
数据
集
spark
无法使用combineByKey、
groupByKey
、reduceByKey和aggregateByKey工作,这些都会产生堆空间错误。你能给出另一种使用Scala
的
API解决这个问题
的
方法吗?
浏览 0
提问于2015-12-07
得票数 0
1
回答
在
数据
流中缓存
数据
集
、
我想知道我是否可以在Google Dataflow平台上直接缓存
数据
集
(就像在
Spark
中缓存RDDs一样)。如果没有这样
的
功能,Dataflow如何在应用程序中挑选热门
数据
集
,特别是当您有多个热门
数据
集
,并且您希望根据
数据
集
的
重要性来确定缓存
的
优先级时?
浏览 1
提问于2017-09-02
得票数 2
1
回答
我如何显示一个` org.apache.
spark
.sql.Dataset`?
我有这个
数据
集
,我想打印出这些值。我试着对这个物体做了个计数,结果它给了我res96: org.apache.
spark
.sql.Dataset[(Boolean, Long)] = [value: boolean, count(1):<console>:83: error: value show is not a member of org.apache.
spark
.sql.KeyValueGroupedDataset[Boolean.show如何显示这些
数据
<
浏览 1
提问于2020-05-16
得票数 0
回答已采纳
1
回答
Spark
SQL中Group By子句
的
底层实现
、
Spark
SQL中Group By子句
的
底层实现是什么?我知道
Spark
支持下面两种类型
的
Group by操作,即
GroupByKey
和ReduceByKey。ReduceByKey是一种map side reduce,它提供了比
GroupByKey
更好
的
性能。在我们
的
应用程序代码中,我们在
Spark
Dataframe
上
使用
Spark
SQL,而不是直接创建RDDs。所以,我想到了这个问题,<e
浏览 0
提问于2019-08-30
得票数 1
1
回答
为什么
spark
的
数据
集中没有reduceBykey
、
、
在此中,大多数答案都介绍了
groupByKey
+ reduceGroups策略。然而,我没有发现任何关于为什么
spark
删除reduceByKey接口
的
评论。有评论说,
Spark
的
Catalyst Optimizer可以降低一些计算,这可能解释了为什么。然而,根据作者和我
的
测试,Dataset
的
groupByKey
+ reduceGroups策略比reduceByKey慢得多。那么为什么要删除reduceByKey,我如何才能找到替代它
的<
浏览 45
提问于2019-08-05
得票数 0
回答已采纳
1
回答
在分区
数据
上
运行
groupByKey
/ reduceBuKey,但使用不同
的
键
、
、
我有一个((id, ts), some value)类型
的
排序RDD。仅在id字段
上
使用自定义分区器对此进行分区。math.abs(id.hashCode % numPartitions)我想知道
的
是,flatRDD.
groupByKey
()和flatRDD.reduceByKey()是否将具有与partitionedRDD或
S
浏览 0
提问于2017-01-13
得票数 3
回答已采纳
2
回答
对rdd int数组执行sum
在以下rdd
的
Int
上
是否有任何内置
的
转换string是键,Int数组是Value,我需要
的
是将所有Int
的
和作为RDD[(String, Int)]。我尝试了
groupByKey
,但没有成功...提前感谢
浏览 0
提问于2015-04-08
得票数 4
回答已采纳
1
回答
Spark
(大
数据
集
) groupBy,排序,然后映射
使用
Spark
rdd有一种方法来
groupByKey
,然后在每个组中排序,然后映射到大型
数据
集
。天真的方法是在每个组上映射,并为每个组创建一个列表并对其进行排序。但是,这种列表
的
创建可能会导致具有许多条目的组出现内存不足问题。有没有办法让
Spark
进行排序,以避免内存不足
的
问题。
浏览 0
提问于2021-09-07
得票数 0
点击加载更多
相关
资讯
Spark如何读取一些大数据集到本地机器上
如何在万亿级别规模的数据量上使用 Spark?
如何在万亿级别规模的数据量上使用Spark
Spark机器学习入门实例:大数据集二分类
心血来潮系列之一——利用spark将数据集转化为Tensorflow的tfrecords格式
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券