腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
如何
通过
过滤掉
给定
的
一组
密钥
来
减少
一对
RDD
?
、
、
、
我有
一对
RDD
,格式为:
RDD
[(String, String)]和一个文件中
的
密钥
列表。我想要一个
RDD
,它只包含那些与列表中
的
键匹配
的
键-值对。我
如何
实现这一点(最好是在Scala中)?谢谢。
浏览 0
提问于2017-01-12
得票数 1
回答已采纳
1
回答
根据火花中
的
第二个
rdd
值减去
rdd
的
线
、
1)+" "+p(2)+" "+p(3)我想过滤ranoms1第二元素DestIP在相关结果中包含
的
行
浏览 3
提问于2015-11-17
得票数 0
回答已采纳
2
回答
如何
在DataFrame中获得唯一
的
值对
、
、
、
给定
一个pySpark DataFrame,
如何
获得列col1和col2
的
所有可能
的
唯
一组
合。我试过了,但似乎行不通: df.select(['col1','col2']).distin
浏览 0
提问于2017-10-03
得票数 2
回答已采纳
1
回答
在PairRDD上
的
Join结果会导致
通过
键
来
共同定位数据吗?
我想了解两对
rdd
上
的
连接是
如何
工作
的
?这是否会导致将具有相同
密钥
的
两个
RDD
的
数据混洗到同一分区中?如果是这样的话,在创建时使用partitionBy函数对
RDD
进行分区(
通过
连接属性)是否会更好,以便
减少
混洗? 感谢Ankur
浏览 0
提问于2015-01-22
得票数 2
1
回答
为什么我不能在约简逻辑中引用键?
、
、
我希望在我
的
combineByKey/reduceByKey/foldByKey中有依赖于当前正在操作
的
密钥
的
逻辑。从方法签名可以看出,传递给这些方法
的
唯一参数是合并/还原/折叠
的
值。使用一个简单
的
示例,其中我只有一个
RDD
,它是(int, int)元组,我想要
的
结果是tuple[0]键控
的
rdd
,其中值是最接近键
的
int。:()只取3个参数
浏览 0
提问于2016-10-11
得票数 0
回答已采纳
3
回答
Apache Spark查找函数
、
从读取查找方法
的
定义:lookup(key: K): Seq[V] Return the list of values in the
RDD
for key key.This operation is done efficiently if the
RDD
has a known partitioner by only searching the partition
如何
确保
RDD
有一个已知
的
分区程序?我知道
RDD
是跨集群中
的
节点进行分区<em
浏览 1
提问于2015-05-07
得票数 2
2
回答
如何
更新
RDD
?
、
、
我们正在开发Spark框架,其中我们正在将历史数据移动到
RDD
集合中。现在有一个用例,其中
RDD
中
的
数据子集被更新,我们必须重新计算值。Approach1:广播变化: 对于每个更改请
浏览 45
提问于2014-12-16
得票数 20
1
回答
后继查找
的
最优二进制搜索树?
、
、
、
在
给定
一组
密钥
和所选
密钥
的
相关概率
的
情况下,有许多查找
的
算法。以这种方式生成
的
二进制搜索树将具有查找这些元素
的
最低期望时间。但是,对于其他度量,这种二进位搜索树可能不是最优
的
。例如,如果试图查找不包含在树中
的
键,查找时间可能非常长,因为为了优化某些元素
的
查找,树可能是不平衡
的
。 我目前感兴趣
的
是
如何
从
一组
键构建
浏览 2
提问于2011-12-28
得票数 0
回答已采纳
1
回答
查询执行过程中超出
的
资源
、
我正在尝试运行一个连接两个大型数据集
的
查询,但我遇到了查询执行期间超出
的
资源错误。我读到过在使用Join Each和Group Each时有一些变通方法,但不知道这些变通方法是什么。
浏览 0
提问于2013-05-16
得票数 13
回答已采纳
1
回答
如果在中间阶段发生故障,MapReduce
如何
从错误中恢复?
、
、
、
在星火中,我知道错误是
通过
重新计算RDDs
来
恢复
的
,除非缓存了
RDD
。在这种情况下,计算可以从缓存
的
RDD
开始。 我
的
问题是,
如何
在MapReduce框架(例如Apache )中恢复错误。让我们说,在洗牌阶段(地图之后和
减少
之前)发生了故障,它将
如何
恢复。会不会再次执行映射步骤。MapReduce中是否有将输出存储在HDFS中
的
阶段,以便只能从那里重新启动计算?那么地图
减少
之后<e
浏览 0
提问于2016-10-23
得票数 5
回答已采纳
3
回答
Scala循环转换为函数方法
、
、
、
for (i <- 15 to 25){ count_table_
rdd
= count_table_
rdd
.union(training_data.map(line => (i+"_"+line(
浏览 1
提问于2015-04-10
得票数 1
回答已采纳
1
回答
获得JPQL中另一个表
的
分组最大结果
、
、
、
从ImportRun到帐户有
一对
多(双向)关系。 有可能有几个具有相同accountId
的
帐户,这些帐户引用不同
的
ImportRuns和不同
的
runIds (例如,每天一个)。我希望为
给定
的
一组
accountIds (这是一种业务
密钥
,而不是hibernate实体
密钥
)获取最新
的
accountIds,或者更好
的
是,它们每个帐户都引用现有的最新ImportRun (因此,该ImportRun<
浏览 2
提问于2013-04-29
得票数 0
回答已采纳
1
回答
为什么它只在JSONiq中返回最后一个元素?
、
、
、
read for entertainment" }查询代码:return $x("book")/name 正如您从链接中看到
的
,
浏览 1
提问于2016-03-12
得票数 1
1
回答
关于指定值元素
的
ReduceByKey
、
新
的
火花,并试图理解reduceByKey,这是指定接受
RDD
(K,V)。我不清楚
的
是,当值是list/tuple时,
如何
应用这个函数.在各种映射和筛选操作之后,我
的
RDD
以(Cluster:String, (Unique_ID:String, Count:Int))
的
形式结束,其中我可以有许多属于同一个集群
的
元素,例如: Array现在,我想使用reduceByKey为每个集群查找计数最高
的
元素(因此每个集群有一个条目)
浏览 0
提问于2016-11-21
得票数 2
回答已采纳
1
回答
Spark/Scala -将keyBy与列表
的
RDD
一起使用[(整数,双精度)]
、
、
、
、
我正面临着一个问题,我不知道
如何
以优雅
的
方式解决这个问题。我有两个
RDD
需要加入:Second -
RDD
[MyObject, List[(Int, Double)]) 我需要使用Int作为
密钥
加入这两个对于第一个
RDD
,很清楚-我可以使用Int定义keyBy,但是
如何
在第二个
RDD
中定义keyBy呢?我得到
的
RDD
必须具有以下结构
RD
浏览 0
提问于2016-05-03
得票数 1
1
回答
Spark:
如何
按键比较两个
rdd
、
我想
通过
它们
的
公共
密钥
来比较两个
rdd
。因此,我首先使用key过滤
rdd
,然后比较子
rdd
。例如, def compare(
rdd
1,
rdd
2):
rdd
= sc.textFile(path1) # each
Rdd
is dict type) 为了方便起见,我举了一个
rdd
的
例子。},{'f':[2,100,1
浏览 36
提问于2020-07-02
得票数 0
1
回答
有办法为星火ReduceByKey函数提供Java比较器吗?
我有JavaPairRDD<KeyClass, ValueClass>
rdd
,我
的
KeyClass有几个字段。JavaPairRDD<String, Tuple2<KeyClass, ValueClass>> readyForReduce =
rdd
.MapToPair(addKey()); 我知道我可以传入一
浏览 2
提问于2016-05-17
得票数 0
回答已采纳
1
回答
如何
仅在星火流中
的
分区中“
减少
”,也许使用combineByKey?
、
、
、
、
我已经
通过
Kafka将数据按键排序到我
的
Spark流分区中,也就是说,在一个节点上找到
的
密钥
在任何其他节点上都找不到。我希望使用redis及其incrby (增量按)命令作为状态引擎,并
减少
发送给redis
的
请求数量,我希望
通过
单独对每个工作节点进行单词计数来部分
减少
我
的
数据。
如何
才能在每个分区器上编写一个简单
的
字数
减少
,而不触发Scala中具有星火流
的
洗牌步骤?
浏览 3
提问于2016-09-29
得票数 0
1
回答
在数字海洋2 2GB 2内核上
通过
密钥
耗费大量时间
来
减少
火花
、
、
谢谢,
rdd
只有17000个条目。thanks =
rdd
1.filter(lambda (x
浏览 0
提问于2016-03-19
得票数 2
3
回答
算法:是否有一种
通过
删除所有子集
来
合并
一组
集合
的
映射缩减方法?
、
(因为Set(1,2,3)和Set(1,2,3,4)都是Set(1,2,3,4,6)
的
子集,所以两者都被删除。)能用地图缩小
的
方式
来
做吗?这样做
的
原因是,有时
一组
集合有很大
的
大小,这使得无法在一台机器
的
内存中这样做。所以我们希望用一种地图
减少
的
方式,它可能不是很有效,但只是工作。我
的
问题是: 我不知道
如何
为映射-还原过
浏览 4
提问于2015-12-24
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark地基之RDD
大数据之谜Spark基础篇,Spark RDD内幕详解
Spark性能优化:开发调优篇
Spark实战(5)_Spark Core核心编程
详解direct Dstream
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券