腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
基于
RDD
2
的
RDD
1
过滤
scala
、
apache-spark
、
rdd
我有2个以下格式
的
RDDS 156,1
RDD
2 178156val out = reversedl1.filter
浏览 0
提问于2017-09-22
得票数 0
1
回答
根据
第二个
rdd
的
值
过滤
rdd
python
、
apache-spark
、
pyspark
、
rdd
我有两个
rdd
,我想
根据
另一个
的
值
来
过滤
其中一个。每个
rdd
的
几个实例如下:
rdd
1 = [((address1, date1),1), ((address5, date2),1), ((address1, date2),1), ((address2,date3),1)]
rdd
2 = [(address1,1), (address1,1), (address2, 1), (address1, 1)] 期望
的
输出将
浏览 10
提问于2020-12-13
得票数 0
回答已采纳
2
回答
从火花中
的
另一个
RDD
返回最大N
值
的
RDD
python
、
apache-spark
、
pyspark
、
rdd
我试图
过滤
一个元组
的
RDD
,
根据
键值返回最大
的
N个元组。我需要返回格式是一个
RDD
。所以
RDD
:对最大
的
3个键进行
过滤
后,应该返回
RDD
: [(6,'p'), (12,'e'
浏览 1
提问于2015-12-15
得票数 3
回答已采纳
1
回答
星火嵌套
RDD
操作
python
、
pyspark
、
apache-spark-sql
、
rdd
这样做
的
目的是使用
过滤
rdd
1将记录从
rdd
2
的
值
提取到
rdd
2中(从
rdd
1获取
的
记录可以在获取时重复,就像在输出中看到
的
那样)
过滤
标准
rdd
1.created 1.创建<= ts <
rdd
1.created
RDD
1使用键
的
某些条件对
RDD
2进行
过滤
。(上面描述)并返回连接<e
浏览 1
提问于2015-10-21
得票数 4
回答已采纳
1
回答
rdd
上具有累加器
的
循环
scala
、
apache-spark
、
spark-streaming
我想循环n次,其中n是同一
rdd
上
的
累加器val key = keyAcm.value.toIntval combined =
rdd
.filter(k => (k._1 == key) || (k._1 == key + 1)).reduceByKey { case (x, y) => (x ++ y) }combined
浏览 1
提问于2018-09-12
得票数 0
1
回答
ValueError:需要2个以上
的
值
才能解包
apache-spark
、
pyspark
我
的
数据在join之后
的
格式如下# (u'u'session_idu'129001032'), None)) # (u'u'session_id', ((u'2024574', u'61370212')
浏览 2
提问于2015-12-23
得票数 0
1
回答
Spark aggregateByKey:使用密钥
apache-spark
我想从我
的
RDD
中创建一组布卢姆
过滤
器。我
的
做法如下:其中
rdd
类似于
RDD
[(Int, Long)] 问题是,这些
值
不是在每个组中均匀分布
的
也就是说,“一刀切”在这里不起作用,我希望
根据
每个键
的
元素数量,对每个键进行不同
的
size
过滤
器初始化。所以
浏览 0
提问于2017-12-07
得票数 2
回答已采纳
4
回答
连接后火花对
RDD
中
的
Order by
值
scala
、
apache-spark
、
rdd
我有两个成对
的
RDD
,我使用相同
的
键将它们连接在一起,现在我想使用其中一个
值
对结果进行排序。新加入
的
RDD
类型为:
RDD
[((String,Int),Iterable((String,DateTime,Int,Int),(String,DateTime,String,String))] 其中第一部分是成对
的
RDD
键,可迭代部分是我连接
的
两个
RDD
的
值
。我现在想要
浏览 0
提问于2015-04-14
得票数 1
1
回答
为什么将
RDD
持久化到磁盘并不能提高性能?
apache-spark
我有下面的DAG 磁盘上
RDD</em
浏览 4
提问于2017-03-09
得票数 0
回答已采纳
2
回答
Scala:使用集合中
的
元组指定
的
不同条件进行
过滤
scala
、
apache-spark
、
rdd
我有一个
RDD
,它
的
field1包含一个药物名称,field2包含该药物
的
相应剂量。我正在尝试
根据
保存在一组元组中
的
多个条件来
过滤
这个
RDD
,例如:我想我能做
浏览 23
提问于2020-02-10
得票数 0
回答已采纳
2
回答
当在缓存
的
RDD
上执行时,筛选
的
RDD
是否仍在缓存中?
scala
、
apache-spark
我想知道我们是否执行以下指令:val size =
rdd
.countval sizeF = filter.count 在
过滤
器
RDD
上执行
的
操作是否在缓存中执行?尽管我们从第一个
RDD
中创建了
第二个
RDD
,但是信息来自同一个地方,
浏览 3
提问于2017-05-04
得票数 0
回答已采纳
2
回答
收集具有列
值
列表
的
多个
RDD
-星点
scala
、
apache-spark
、
apache-spark-sql
我有一个
RDD
和一个
值
列表。如何
根据
值
列表对它们进行筛选,并将它们作为单独
的
RDD
收集?例如:如何传递一个
值
列表来收集列表中所有筛选
的
RDD
?
浏览 0
提问于2019-09-05
得票数 0
回答已采纳
1
回答
Pyspark -如何在键和
值
上使用广播字典
过滤
RDD
python
、
apache-spark
、
pyspark
、
rdd
我正在尝试
根据
一个广播变量
过滤
一个大
的
RDD
。 我能够执行以下操作,即
过滤
在广播变量中作为键存在
的
元组。nested_filter = {"india":'ind',"usa":'us'}
rdd
_set = sc.parallelizeindia','ind'),('i
浏览 19
提问于2019-04-22
得票数 2
回答已采纳
1
回答
如何仅在
rdd
的
第二个
字段中存在一个字段
rdd
时才选择它
的
值
scala
、
apache-spark
、
rdd
我有一个有3个字段
的
rdd
,如下所述。2,4,63,4,7现在,从上面的
rdd
,我想得到后续
的
rdd
。2,4,62,3,8 结果
的
rdd
没有以1开头
的
行,因为输入
rdd
中
的
第二个
字段中没有1。
浏览 3
提问于2016-04-19
得票数 0
回答已采纳
1
回答
检查value是否为另一对pyspark
的
key
python
、
pyspark
、
rdd
我想这个问题
的
答案可能太明显了。keys = pairs.keys().distinct()filteredValuesor reference an
RDD
from an action or tran
浏览 12
提问于2020-05-24
得票数 2
回答已采纳
1
回答
如何使用LabeledPoint
过滤
RDD
?
python
、
pyspark
我
的
初始
RDD
如下所示:我尝试这个操作:
RDD
.colle
浏览 0
提问于2021-05-01
得票数 1
1
回答
在RDDs上点燃左外接和重复键
database
、
scala
、
apache-spark
、
rdd
我有两个
RDD
(键,
值
)。我
的
第二个
RDD
比我
的
第一个
RDD
短。我想将我
的
第一个
RDD
的
每个
值
与
第二个
RDD
中
的
相应
值
关联起来,这是关于键
的
。
的
多个元素具有相同
的
键。现在,当在
rdd
2中找不到相应
的
键时,我知道我想为b使用一个常量值。我认
浏览 2
提问于2021-03-09
得票数 0
回答已采纳
2
回答
Spark 1.6.2
的
RDD
缓存在某些情况下似乎用
过滤
器做了一些奇怪
的
事情
apache-spark
我有一个
RDD
:然后,我
过滤
RDD
中
的
单个匹配
值
:我现在计算一下我为SiteId获得了多少不同
的
值
。给定
过滤
器,它应该是&
浏览 3
提问于2016-09-13
得票数 0
1
回答
火花-如何将
rdd
的
顶部N作为一个新
的
rdd
(而不是在驱动程序中收集)
scala
、
apache-spark
、
rdd
我想知道如何
过滤
具有最高N
值
之一
的
RDD
。通常,我会对
RDD
进行排序,并将top N项作为驱动程序中
的
数组来查找可以广播
的
Nth
值
,以便像这样
过滤
rdd
:val threshold = topNvalues.last val rddWi
浏览 2
提问于2017-11-29
得票数 8
回答已采纳
1
回答
PySpark,按键相交
pyspark
、
rdd
例如,在PySpark中有两个
RDD
:((0,1), 2)((1,1), 4)((0,1), 3)我想要从第一个
RDD
到
第二个
RDD
的
交集。实际上,
第二个
RDDs必须为第一个RDDs扮演面具
的
角色。产出应是:((1,1), 4) 它意味着来自第一个
RDD
的
值
,但仅用于
第二个
RDD</em
浏览 2
提问于2016-06-08
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券