腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(3216)
视频
沙龙
1
回答
在
成对
的
RDDs
上
按
密钥
和
组
对
rdd
进行
Spark
streaming
分组
,
并从
每个
组
中
选取
最新
的
、
、
spark
和
scala新手。尝试实现以下目标。我
的
消息如下(key,id,version,dataObject) message.isProcessedmessage.key, message.id, message.version, message) }我希望
在
每条消息
上
<e
浏览 25
提问于2017-12-18
得票数 0
回答已采纳
1
回答
在
星火中加入和合作
、
有迹象表明,
Spark
中
的
联接是使用/基于协
组
函数/基元/转换来实现
的
。因此,让我首先集中讨论cogroup -它返回一个结果,它是
RDD
,基本
上
由所有的代码
分组
RDD
组成。以另一种方式说-对于
每个
编码
分组
RDD
中
的
每个
键,至少有一个来自于所述编码
分组
RDD
<em
浏览 1
提问于2015-04-15
得票数 7
4
回答
RDD
和
Pair
RDD
的
区别
和
用例
我刚开始接触
spark
,并试图理解普通
RDD
和
配对
RDD
之间
的
区别。使用
成对
RDD
而不是普通
RDD
的
用例有哪些?如果可能,我想通过一个例子来了解pair
RDD
的
内部结构。谢谢
浏览 1
提问于2016-05-06
得票数 15
1
回答
Rdd
lambda函数与行
和
列之间
的
混淆
、
、
、
、
我有一个火花
RDD
(完整
的
代码),我有点困惑。385 | 1如果我有下面的lambda函数,为什么
在
reduceByKey中有x+y = 385+291?X
和
Y是否与
RDD
的
不同列有关?还是我认为这意味着他们指的是
浏览 1
提问于2019-10-20
得票数 1
回答已采纳
1
回答
Apache火花K-均值聚类-用于输入
的
RDD
、
、
我试图
在
分组
数据
上
运行
Spark
的
k-意思聚类,但是当我试图
对
每个
组
进行
聚类时,我会遇到各种各样
的
错误。输入
RDD
看起来类似于(userID:长,同弦:向量),即: org.apache.
spark
.
rdd
.
RDD
[(Long, Seq[org.apache.
spark
.mllib.linalg.Vector我想为
每个<
浏览 0
提问于2014-11-04
得票数 2
回答已采纳
1
回答
Spark
嵌套foreach
、
、
":"1461768452","IP":"10.10.144.209","ID":"KA4aIkFB","DEVICE":"Tablet","HOST":"krxd.net“}
按
(id,device)
对
所有记录
进行
分组
,并为
每个
组
获取
最新
的
时间戳。然后
浏览 6
提问于2016-09-01
得票数 2
回答已采纳
10
回答
什么是
spark
中
的
RDD
、
、
、
定义是:用户以两种方式创建
RDDs
:通过加载外部数据集,或者通过在其驱动程序中分发对象集合(例如,列表或集合 我
对
RDD
的
理解以及与
spark
和
hadoop
浏览 91
提问于2015-12-23
得票数 46
回答已采纳
1
回答
从理论
上
讲,
Spark
会丢失失败作业
的
数据吗?
、
因此,我们使用
RDD
并
对
一
组
数据执行flatMap。然后,我们使用map操作对
每个
元素
进行
转换。
在
一
组
固定
的
元素
上
,我们看到
在
每次运行时,如果一些执行器
在
map操作期间死亡,
spark
会旋转新
的
执
浏览 0
提问于2018-09-25
得票数 2
1
回答
我如何有效地将一个大
的
rdd
加入到一个非常大
的
rdd
中
呢?
、
、
我有两个
RDDs
。一个
RDD
在
5-1000万个条目之间,另一个
RDD
在
5亿到7.5亿个条目之间。
在
某种程度上,我必须使用公共
密钥
连接这两个
rdd
。这导致rddB
中
的
许多项在网络
上
被洗牌。同样,一些rddA也在网络
上
被洗牌。在这种情况下,rddA太“大”,不能用作广播变量,但似乎BroadcastHashJoin会更有效。更新7/14 我
的
性能问题似乎根植
浏览 4
提问于2015-07-13
得票数 11
回答已采纳
2
回答
为什么预分割会因为减少洗牌而引发工作?
、
、
、
、
许多教程提到,
RDD
的
预分区将优化火花作业
的
数据洗牌。我感到困惑
的
是,对于我
的
理解,预分区也会导致洗牌,为什么在这里提前洗牌会对一些操作有好处?特别是
spark
,self将对一
组
转换
进行
优化。例如: 国家= country.partitionBy(10).persist()收
浏览 3
提问于2017-08-10
得票数 1
回答已采纳
2
回答
如何实现
RDD
的
并行化?
、
要将文件读入内存,我使用以下命令:它
的
类型是:阅读Scala文档:“并行集合是通过
在
现有的Scala集合(序列对象)上调用SparkContext
的
parallelize方法创建
的
。”这似乎不适用于
RD
浏览 0
提问于2014-04-26
得票数 6
回答已采纳
1
回答
Spark
RDD
的
分区号是否可以
在
不重新分区
的
情况下手动更改
、
、
在
Spark
中
,我有两个PairRDD(让我们称它们为A
和
B),
每个
PairRDD由n个分区组成。我想根据它们
的
密钥
加入这些
RDDs
。两个
RDD
都是一致分区
的
,也就是说,如果键x
和
y
在
RDD
A
中
的
相同分区
中
,它们也
在
RDD
B
中
的
相同分区
浏览 2
提问于2015-08-31
得票数 1
2
回答
将自定义函数应用于星火数据访问
组
、
、
、
、
我有一个非常大
的
时间序列数据表,其中包含以下列: 我计划在dataframe中使用
spark
,但我
对
如何
对
spark
分组
数据执行自定义
浏览 2
提问于2016-09-20
得票数 10
回答已采纳
1
回答
星星之火:将键元组对连接到键列表值
中
。
、
、
、
我有许多这种类型
的
RDDs
(假设4):K,(v1,v2,..,vN),我必须加入它们,所以我只需运行结果是K,((v1,v2,..基本
上
,我将得到一个嵌套
的
元组结构,
每个
联接操作都有一个。K, [ v1,
浏览 5
提问于2015-11-23
得票数 0
回答已采纳
1
回答
如何分发地图(.)集群操作?
、
、
、
、
我
在
Databricks 10.2、
Spark
3.2.0、Python3.8
中
运行一个分布式操作,它查询底层
的
Delta表。
在
查询、
按
列
分组
并收集
每个
组
中
的
行之后,我需要对
每个
组
的
elemenet执行一个复杂
的
算法并保存结果。这个复杂
的
算法是用Python代码编写
的
,并通过
rdd</e
浏览 3
提问于2022-01-26
得票数 0
1
回答
rdd
与火花放电
中
的
数据
、
、
我刚刚读到,dataframe有类似于二维数组
的
存储,其中
rdd
对
存储没有任何这样
的
约束。另外,如果我将
rdd
定义为
rdd
1,当我使用toDf方法将
rdd
1转换为数据帧时,是否
在
节点
上
消耗了更多
的
内
浏览 4
提问于2022-02-25
得票数 -1
1
回答
星火
组
和
聚合仅几个最小
的
项目。
、
给定两
组
数据,
每个
数据具有一些id
和
值:val
rdd
1 = sc.parallelize(Seq(("a", 31),("b", 41),("c",", "val1") val df2 =
spark
.createDataFrame(
rdd
2).toDF("id2", "val2
浏览 2
提问于2019-06-27
得票数 1
回答已采纳
1
回答
如何在星火中
的
groupby之后运行
RDD
操作?
、
、
我有一大
组
数据要对其执行聚类。问题是,我不想
对
整个集合
进行
一次集群,而是
对
每个
用户
进行
一次集群。本质
上
,我会先做一个groupby,然后运行KMeans。问题是,一旦您执行了groupby,任何映射都将在星火控制器上下文之外,因此任何创建
RDDs
的
尝试都将失败。
Spark
的
mllib
中
的
KMeans库需要一个
RDD
(这样它就可以并行化)。我看到
浏览 4
提问于2016-05-09
得票数 1
回答已采纳
4
回答
星星之火:
对
记录
进行
分组
排序?
、
、
我有一套我需要
的
记录:2)将每一
组
按
“奖品”排序import org.apache.
spark
.SparkConf val conf = new SparkConf() .setAppNa
浏览 3
提问于2015-02-16
得票数 10
回答已采纳
1
回答
如何在Dataframe火花中添加按ID
分组
的
索引
、
、
、
----------------+--------------+---------------+-----------+----+--------+----+----------+我已经尝试过使用posexplode了,但是它改变了我
的
dataframe模式,添加了col
和
pos列,我像这样修改了我
的
函数。testDF.schema): _*)
浏览 1
提问于2019-06-25
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券