腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
我
不
能在
Spark
中
使用
combineByKey
?
、
、
我
用
Spark
2.4.5写了这段代码: df_join is a dataframe.x(1).toString, x(3).toString), (x(9).toString.toDouble, x(1).toString.toInt))) 当我尝试编写comByKeyResult.
combineByKey
,时,
combineByKey
方法不可用。
为什么
?
我
导入以下库:导入org.apache.
spark
.rdd._。
我
应该添加其他库或包吗?
浏览 12
提问于2020-10-23
得票数 0
回答已采纳
1
回答
为什么
星火不允许地图端和数组键结合?
、
、
、
我
正在
使用
Spark
1.3.1,
我
很好奇
为什么
Spark
不允许在地图端组合中
使用
数组键。
combineByKey
function片 if (mapSideCombine) { throw new SparkException("
浏览 3
提问于2015-09-21
得票数 7
回答已采纳
1
回答
火花隐式RDD转换不起作用
、
、
对于,
我
有一个类似的问题,但是接受的解决方案并不能为
我
解决这个问题。
我
试图在一个简单的RDD上应用
combineByKey
: import org.apache.
spark
._ result.collectAsMap().map(println(_)) }编译
浏览 1
提问于2015-06-19
得票数 0
回答已采纳
1
回答
Spark
Countbykey() -
为什么
作为动作实现
、
、
在
Spark
中
,
为什么
CountbyKey()是作为动作而不是转换来实现的。
我
认为它的功能类似于Reducebykey或
combinebykey
。有没有什么特别的原因让它实现为Action..
浏览 1
提问于2019-04-12
得票数 2
2
回答
Python星火
combineByKey
平均值
、
、
我
正试图学习Python
中
的
Spark
,并且一直
使用
combineByKey
来平均键值对
中
的值。事实上,
我
的困惑不是
combineByKey
语法,而是随后发生的事情。
使用
spark
2.0.1和iPython 3.5.2,这会引发语法错误异常。有人能告诉
我
这个功能的示例吗?它实际上适用于最近版本的
Spark
& Python?为了完整起见,
我
已经包含了<e
浏览 3
提问于2016-10-23
得票数 1
回答已采纳
1
回答
火花
CombineByKey
、
我
有以下格式的
Spark
Array[(String, (String, Double))] = Array( (2013-10-19 00:00:00.0,)
我
试图
使用
combineByKey
从R
浏览 1
提问于2017-07-17
得票数 1
1
回答
为什么
我
在
Spark
中
使用
combineByKey
的字数计数是这些值总和的两倍?
、
我
正在尝试
使用
Spark
的
combineByKey
来计算单词数。
我
不确定,但我猜merge和combiner的功能可能是相同的,因为合并器和reducer上的计数操作可以是相同的。如果
我
取平均值,这种情况就不会发生。如何对合并和合并
使用
相同的函数来实现此字数统计? 另一件事是,
为什么
我
的结果显示的值是
我
计算的值的两倍?如何实现只显示键和值的和一次的
combineByKey
?import org.ap
浏览 13
提问于2020-07-03
得票数 0
回答已采纳
1
回答
Spark
aggregateByKey reduceByKey -聚合(例如集合)必须是线程安全的?
、
、
如果
我
使用
aggregateByKey或reduceByKey,并且
我
聚合了一个集合的特定实现。在此聚合过程
中
,
我
是否需要
使用
线程安全集合?这样可以吗?
浏览 0
提问于2017-09-11
得票数 1
3
回答
Spark
:运行时reduce元素的技术术语?
、
、
、
在下面的字数统计示例
中
:(Hello,1)(Hello,1)Hadoop的reducer函数将
使用
键"Hello“收集所有5个元素,然后在然而,在
Spark
中
,它实际上是每次减少2个元素。那么,有没有专门的术语来描述
Spark
中
使用
的这种计算方法呢?谢谢!
浏览 0
提问于2016-01-07
得票数 0
1
回答
如何仅在星火流
中
的分区
中
“减少”,也许
使用
combineByKey
?
、
、
、
、
我
已经通过Kafka将数据按键排序到我的
Spark
流分区
中
,也就是说,在一个节点上找到的密钥在任何其他节点上都找不到。
我
希望
使用
redis及其incrby (增量按)命令作为状态引擎,并减少发送给redis的请求数量,
我
希望通过单独对每个工作节点进行单词计数来部分减少
我
的数据。如何才
能在
每个分区器上编写一个简单的字数减少,而
不
触发Scala
中
具有星火流的洗牌步骤? 注DStream对象缺少一些RDD方法,这些方法只能
浏览 3
提问于2016-09-29
得票数 0
1
回答
DStream应按顺序处理所有相同的密钥
、
、
我
有(Key,Value)类型的数据流。mapped2.foreachRDD(rdd => { p.foreach(x => { )})
我
需要确保具有相同键的所有项都在一个分区
中
处理
我
可以
使用
低效的GroupBykey吗?
浏览 1
提问于2016-12-08
得票数 0
2
回答
组合键和聚合键的区别
、
我
是Apache
spark
的新手,所以这个问题可能不适合问,但我不明白
combinebykey
和aggregatebykey之间的区别以及何时
使用
哪个操作。
浏览 0
提问于2017-04-19
得票数 7
1
回答
如何知道分区是在哪个worker上执行的?
、
、
我
只是想找到一种方法来获取RDD分区在
Spark
中
的位置。 在调用RDD或PairRDD.
combineByKey
()之后,返回的RDD被分区。
我
想知道分区位于哪些工作实例(用于检查分区行为)?!
浏览 5
提问于2015-06-09
得票数 2
1
回答
类型
不
匹配,找到SortedSet,需要任意
、
使用
combinebyKey
时,得到类型
不
匹配错误如下所示 .
combineByKey
( (x: Int) =>SortedSet[Int], x: Int) => (acc += x), (acc1: SortedSet[Int], acc2: SortedSet[Int]) => (acc1 ++= acc2))
为什么
scala不能将scala.collection.mutable.
浏览 2
提问于2019-04-01
得票数 0
回答已采纳
1
回答
与
combineByKey
相关的查询
、
对于下面的输入=> [('B', 1), ('B', 2), ('A', 3), ('A', 4), ('A', 5)],在
使用
combineByKey
进行处理后,
我
期待下面的输出scala> val x = sc.parallelize(Array(('B',1),('B',2),('A',3),('A
浏览 2
提问于2019-07-17
得票数 0
回答已采纳
1
回答
比较数据对,有时合并
、
、
、
现在,
我
有几个重叠的短语(即“be或”在“既或不存在”
中
),
我
想删除这些包含在较大短语
中
的较短的短语。
我
对星火有点陌生,所以我不知道如何在星火中做到这一点。
我
知道,如果
我
收集()元素,
我
可以做一个双嵌套循环,但我想知道是否有一种方法可以通过还原或聚合在
Spark
中
完成。基本上,
我
想要一个函数,将检查每一对短语,或者返回两个短语,如果一个
不
包含在另一个,或者只是一个短语,如果一个是
浏览 0
提问于2015-03-14
得票数 0
1
回答
为了对元素进行分组,可以在
Spark
中
实现
CombineByKey
()而不是GroupByKey()吗?
我
正在尝试对
我
创建的RDD的元素进行分组。一种简单但昂贵的方法是
使用
GroupByKey()。但最近
我
了解到
CombineByKey
()可以更有效地完成这项工作。
我
的RDD非常简单。grouped_elements=first_RDD.groupByKey()..mapValues(x => x.toList) 结果是: (1,List(5,8,40)) (2,List(9,20,6))
我
想根据第一个元素有没有人可以帮我用
CombineByKey</em
浏览 4
提问于2020-03-26
得票数 1
回答已采纳
1
回答
使用
scala的API基于
spark
中
的多列对数据进行分组
、
我
有一个RDD,想要根据多列分组数据。对于大型数据集
spark
无法
使用
combineByKey
、groupByKey、reduceByKey和aggregateByKey工作,这些都会产生堆空间错误。你能给出另一种
使用
Scala的API解决这个问题的方法吗?
浏览 0
提问于2015-12-07
得票数 0
1
回答
如何
使用
combineByKey
?
、
我
正试图在countByKey和
combineByKey
中
获得相同的结果。,
我
想
使用
combineByKey
获得countByKey的输出。
combineByKey
但是
我
得到了意想不到的结果,
我
不知道<e
浏览 3
提问于2016-12-21
得票数 3
回答已采纳
3
回答
谁能对火花中的“组合键”给出一个清晰的解释?
、
我
正在学习火花,但我不能理解这个函数
combineByKey
。>>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] )产出如下: [('A
浏览 5
提问于2015-11-26
得票数 10
回答已采纳
点击加载更多
相关
资讯
为什么我不能在 ProjectWise 中创建文件夹或文档?
数据库中为什么不推荐使用外键约束
Python 中为什么不建议使用 time.sleep 实现定时功能?
Spark应用数据分片介绍
我用Rust徒手重写了一个Spark,并把它开源了
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券