腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspaek
中
组合
两个
rdd
、
、
、
我
在
pyspark有
两个
rdd
rdd
2=sc.parallelize(['c','d'])
rdd
3=
rdd
1.map(lambda x:x)+
rdd
2.map(lambd
浏览 13
提问于2019-11-17
得票数 0
回答已采纳
1
回答
在过滤操作中导致崩溃的带有类标签均值的数据集
、
这个avgrdd是使用
组合
器计算的,我看到它计算结果是正确的。带有筛选器的行正在崩溃,并出现空指针异常。
浏览 2
提问于2015-03-13
得票数 1
2
回答
用火花放电交叉
组合
两个
RDDs
、
、
、
我如何交叉
组合
(这是正确的描述方式吗?)
两个
RDDS?投入:
rdd
2 = [c, d]
rdd
3 = [(a, c), (a, d), (b, c), (b, d)] 我试过
rdd
3 =
rdd
1.flatMap(lambdax:
rdd
2.map(lambda y: (x, y)),它抱怨It appears that you are attempting to broadcast an
RDD
浏览 2
提问于2015-06-25
得票数 2
回答已采纳
1
回答
Apache火花;图X;如何
组合
两个
边缘
RDD
、
、
、
我正在尝试将边缘
RDD
和
RDD
(长、长、字符串)结合起来。我的边缘
RDD
看起来像:我想要
组合
的是名为tuple3的edgeList,如下所示:(2,3,Brother)val newEdges=myEdges ++ edgeList val newEdges
浏览 1
提问于2018-10-16
得票数 0
回答已采纳
2
回答
Spark
中
的多个联合- Spark如何生成计划
、
、
、
、
我
在
不同的RDDs中有多个联合,如下所示:Spark会串行地生成联合( O(n)),还是会生成并行的计划也就是说,它会与
rdd
3 union
rdd
4并行执行
rdd
1 union
rdd
2,然后合并这两者的结果吗?
浏览 0
提问于2015-09-24
得票数 0
3
回答
联合
两个
RDDs Spark scala,保持右侧
、
、
、
我有
两个
spark数据帧,结构如下。
在
使用sqlContext之前已经阅读过了。itens.columns (scala command) [1,1,item A,10] [1,3,item c,12] [1,2,item b,50] [1,5,item c,12] 我想要以下基于
组合
键
浏览 6
提问于2015-10-22
得票数 1
2
回答
将
RDD
与缺少的某些值相结合
、
、
嗨,我有
两个
RDD
,我想合并成1。第一个
RDD
的格式是val predictions = ((user, mov), rate)我有另一个
RDD
val user_mov_rat=user_mov.map(x=>(x,&
浏览 0
提问于2017-03-10
得票数 0
1
回答
使用Scala Apache Spark合并
RDD
、
、
我有
两个
RDDs。
RDD
1: ((String, String), Int)例如: ((B, X), 2) ((C, Y), 3) (B, 7) ((B, X), 14) ((C
浏览 1
提问于2015-04-26
得票数 3
回答已采纳
1
回答
如何将
两个
Spark
RDD
列表
组合
成一个元组列表
我有
两个
RDDs,我想用pyspark把它们
组合
在一起。first_
rdd
= ['Mike', 'Kate', 'Robert'] result_
rdd
= [('Mike', 23), ('Kate
浏览 43
提问于2020-12-10
得票数 0
2
回答
如何让Apache Spark
在
完成map之前减少内存使用量?
在
将额外的映射对象添加到内存之前,我如何让它从内存
中
减少和删除映射? 我基本上是在做myrdd.map(f).reduce(r)。但是,f返回了一个非常大的对象,所以我需要运行缩减程序,然后
在
堆积太多对象之前从内存
中
删除映射的对象。我能以某种方式做到这一点吗?
浏览 0
提问于2018-04-27
得票数 0
1
回答
Pyspark:使用map函数而不是collect来迭代RDDs
、
、
在
PySpark
中
,我有
两个
RDD
,它们的结构是(key,list of list):[(u'100', (u'200', ou
浏览 0
提问于2017-10-12
得票数 0
1
回答
Spark Streaming
两个
动作ned将在彼此之后运行
我有一个spark流媒体应用程序,whichI正在处理一个FileStream..the流,它有
两个
主要操作,我需要在第一个操作完成时调用第二个操作动作1将一些信息更新到hbase...while Acton2
中
,从这些信息
中
读取,因此
在
每个批处理
中
,动作2都在action1之后运行 我想知道如何实现此功能
浏览 3
提问于2016-11-21
得票数 0
1
回答
RDDs
组合
上的火花放电联合
、
、
、
、
我有多个
RDD
,每个
RDD
由用户列表组成。如何才能以分布式的方式将这些
RDD
的每个
组合
统一起来呢?编辑sc.union(
RDD</em
浏览 0
提问于2018-08-27
得票数 0
2
回答
使用scala
在
Apache spark
中
连接不同RDDs的数据集
、
、
、
、
有没有办法
在
spark
中
连接
两个
不同
RDD
的数据集? 需求是-我使用scala创建了
两个
具有相同列名的中间RDDs,需要
组合
这
两个
RDDs的结果并缓存结果以访问UI。我如何在这里
组合
数据集?
浏览 2
提问于2014-12-10
得票数 35
回答已采纳
1
回答
如何使用
RDD
连接
两个
表?
、
、
我有
两个
文本文件:color.txt和shades.txtcolor.txt2 | GREENshades.txt3 | 2 | dark green5 | 3 | sky blue 如何使用
RDD
连接这
两个
表。
浏览 0
提问于2017-09-11
得票数 1
回答已采纳
2
回答
如何在星火
RDD
中
通过键连接
两个
散列映射
、
、
的格式各有
两个
RDD
。
RDD
2-> {string1,HashMap[{long c,object}]
RDD
->{string1,H
浏览 3
提问于2015-03-26
得票数 1
回答已采纳
2
回答
如何在Scala中使用DataFrame进行成对字数统计
、
、
、
away),1)我将df转换为
RDD
浏览 64
提问于2018-08-15
得票数 0
1
回答
在
执行器上动态创建累加器
、
、
我想使用累加器来计算
RDD
中
几个对象参数的
组合
。例如,我有Obj的
RDD
,字段为a和b。这
两个
字段都是枚举,可能具有少数几个值之一。我不想为所有spark作业
中
的值的所有
组合
声明很多计数器,在这些作业
中
,我将具有相同的逻辑。是否有任何机制,允许
在
执行器上动态创建累加器或以另一种方式解决此问题?我搜索类似这样的东西:
rdd
.foreach{ getAccumulator("${obj.a} - ${obj.
浏览 15
提问于2021-03-02
得票数 1
回答已采纳
1
回答
python火花中
两个
RDDs的
组合
、
、
、
、
我有
两个
RDDs。假设
rdd
1 = {'a','b','c','a','c','a'}和
rdd
2是具有集群赋值的KMeans的输出,如下所示的->
rdd
2={0,0,1,1,1,0}。我想找出簇0和1
中
有多少个a和b,例如0有2a,所以类似于{0,a,2}等等,我有没有办法将这2 RDDS
组合
起来进行这样的操作? 谢谢你的帮助。
浏览 3
提问于2017-02-04
得票数 0
回答已采纳
1
回答
pyspark如何在具有相同密钥匹配的
两个
RDDs之间加法
、
、
假设我有
两个
RDDs和
RDD
2 has (key1, value)
RDD
1 has [1,1,3],[1,2,2],[2,2,5] 我想要结果
RDD
3 to [1,1,4],[1,2,
浏览 0
提问于2016-03-07
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券