腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(611)
视频
沙龙
1
回答
如何将
每个
RDD
分区
限
制为
只有
'
n
‘
个
记录
?
java
、
apache-spark
有没有办法让我指定
每个
JavRDD
分区
只有
'
n
‘
个
记录
?JavaRDD<String> res =
rdd
.mapPartitions((Iterator<String> iter) -> { Iterable<String> iterable
浏览 7
提问于2019-09-20
得票数 0
1
回答
如何根据键值将密钥
RDD
划分为2
个
分区
python
、
apache-spark
、
pyspark
有一
个
包含车辆数据的
RDD
。我能够获得RD键-值对,将LIC_state作为
每个
记录
的键。
如何将
键控
RDD
划分为2
个
分区
,将键值为SA的
记录
放在一
个
分区
中,将其余的
记录
放在另一
个
分区
中
浏览 17
提问于2020-09-08
得票数 0
回答已采纳
1
回答
PySpark - JSON到
RDD
/coalesce
json
、
apache-spark
、
pyspark
根据对的建议,我能够以我想要的格式将
RDD
转换成JSON。为了将它保存到HDFS中,我想将其转换回
RDD
,并使用coalesce将其保存到10
个
分区
文件中。我目前所做的是: 使用my_rddcoalesce(10).saveAsTextFile进行合并和保存在我的测试中,这是成功执行的,但是10
个
分区
文件中
只有
一
个
有数据。进
浏览 2
提问于2018-06-26
得票数 0
1
回答
限制火花上下文中的
记录
数量
python
、
hadoop
、
apache-spark
、
pyspark
、
rdd
我希望减少
每个
减速器的
记录
数,并将结果变量保持为
rdd
。
rdd
=
rdd
.zipWithIndex().filter(lambda x:x[1]<limit).map(lambda x:x[0]) 然而,这种方法非常缓慢,效率不高。是否有更明智的方法来获取一
个
小样本,并将数据结构保持为
rdd</em
浏览 2
提问于2016-03-08
得票数 1
回答已采纳
1
回答
每个
键只保留有限数量的元素
scala
、
apache-spark
目前,我试图为以下问题找到解决方案: 经过一些处理后,我尝试将键的键值
RDD
中的值限
制为
某个数字(例如200)。我的最初解决方案是执行一
个
groupByKey,将所有具有相同密钥的元素放到一
个
分区
中,然后是一
个
flatMapValues,在该
分区
中,我只需要使用可迭代的前200
个
元素。
浏览 4
提问于2017-09-12
得票数 2
1
回答
RDD
管道每行一
个
外部进程
scala
、
apache-spark
我的上下文是我有一
个
csv文件,其中每一行都描述了我的模拟的一
个
实例的参数。null, false, Codec.defaultCharsetCodec.name) 我已经能够使用
RDD
.pipe但就目前而言,我不得不使用一
个
包装器脚本来循环/dev/stdin,并为每一行调用我的包装器。这是因为管道函数将来自一
个
分区
的所有行应用于我的程序的相同子进程,而不是
每个
浏览 5
提问于2018-02-24
得票数 1
2
回答
星火流中的有序处理
apache-spark
、
spark-streaming
我们的用例是从Kafka读取事件,
每个
主题都需要按顺序处理。 据我所知,这是不可能的-每一
个
流被打破成RDDs,和RDDS是并行处理,所以没有办法保证订单。
浏览 1
提问于2015-06-04
得票数 7
回答已采纳
1
回答
如何在dataFram中对列值执行基于行计数的动态
分区
scala
、
apache-spark
、
spark-streaming
、
apache-spark-1.6
我试图基于accountId对输入文件进行
分区
,但
只有
当dataFrames包含超过1000
个
记录
时,才能完成此
分区
。accountId是一
个
无法知道的动态整数。StreamingContext(sc, Seconds(2))lines.print() val count =
rdd
.cou
浏览 0
提问于2016-07-29
得票数 0
2
回答
一
个
RDD
记录
能有多大?
scala
、
apache-spark
、
iterable
我有一
个
这样的
RDD
:节点由长类型整数表示,并将存储在Iterable[Long在这个Iterable中可以包含多少
个
元素?对于单个
RDD
记录
的大小有什么限制(如果有的话)?
浏览 5
提问于2016-03-09
得票数 3
1
回答
为什么UDF不在可用的执行器上并行运行?
apache-spark
、
pyspark
我有一
个
小小的火花Dataframe,本质上是将一
个
字符串推入一
个
UDF。由于.repartition(3)的长度与targets相同,我期望在可用的执行器上应用run_sequential内部的处理--即应用于3
个
不同的执行程序。 问题是只使用了一
个
执行者。我如何并行处理,以迫使我的target脚本将
每个
元素分配给不同的执行器?
浏览 4
提问于2022-04-25
得票数 0
回答已采纳
1
回答
宽依赖关系的火花容错
apache-spark
、
distributed-computing
、
fault-tolerance
但是,如果节点在一
个
广泛的依赖项(如排序操作)之后崩溃,则它们没有说明它们要做什么。我唯一能找到的就是: 这还不足以理解正在发生的事情。
浏览 5
提问于2017-04-18
得票数 3
回答已采纳
1
回答
Apache是如何实现其topK() API的?
apache-spark
在Apache中有一
个
,它可以从
RDD
返回顶部的k元素。我想知道这个操作是如何实现的。它是否先对
RDD
进行排序,然后返回顶部的k值?还是使用其他更有效的实现?
浏览 2
提问于2015-07-31
得票数 4
回答已采纳
3
回答
用自定义除法器划分电火花中的数据帧
apache-spark
、
pyspark
、
apache-spark-sql
寻找一些信息使用自定义
分区
在火花公子。我有一
个
数据存储不同国家的国家数据。因此,如果我对country列进行重新
分区
,它将将我的数据分发到
n
个
分区
中,并将类似的国家数据保存到特定的
分区
中。当我看到使用glom()方法时,这将创建一
个
倾斜的
分区
数据。 一些国家,如美国和中国,有大量的数据,特别是数据。我想重新划分我的数据,如果国家是美国和CHN,那么它将进一步分裂为大约10
个
分区
,其他保持相同的其他国
浏览 3
提问于2018-10-13
得票数 6
回答已采纳
1
回答
只能使用具有相同
分区
数错误的
RDD
进行压缩
python
、
apache-spark
、
ipython
、
pyspark
、
rdd
我有一台ipython笔记本,上面有pyspark代码,它在我的机器上运行得很好,但当我试图在另一台机器上运行它时,它在下面这一行(
rdd
3行)抛出错误:
rdd
3 =
rdd
1.zip(
rdd
2).map(lambda ((x1,x2,x3,x4), y): (y,x2, x3, x4))我得到的错误是=
rdd
1.zip(
rdd
2).map(l
浏览 1
提问于2015-08-19
得票数 1
1
回答
使用comitAsync将结果发送到另一
个
主题的spark streaming
apache-spark
、
apache-kafka
、
spark-streaming
OffsetRange[] offsetRanges = ((HasOffsetRanges)
rdd
).offsetRanges();
rdd
.foreachPartition从主题A获得10
个
事件,在处理
每个
事件时,我向主题B发送了一
个
新事件。现在假设其中一
个
响应失败。现在,我不想将这个特定的偏移量提交给主题A。主题A和主题B具有相同数量的
分区
N
。因此,
每个
RDD
都应该使用来自相同
浏览 2
提问于2018-02-09
得票数 0
5
回答
Spark textFile对wholeTextFiles
scala
、
apache-spark
、
file-io
我理解textFile为
每个
文件生成
分区
的基本原理,而wholeTextFiles则生成一对值的
RDD
,其中键是
每个
文件的路径,值是
每个
文件的内容。textFile.getNumPartitionsval textFile = sc.wholeTextFiles("my/path/*.csv",8)在这两种方法中,我都生成了8
个
分区
浏览 6
提问于2017-11-06
得票数 16
回答已采纳
3
回答
DStream的
RDD
是否一次性提取为批处理间隔创建的整个数据?
apache-spark
、
apache-kafka
、
spark-streaming
、
dstream
我已经讨论了堆栈溢出问题,根据答案,它为批处理间隔创建了一
个
只有
一
个
RDD
的
RDD
。我的批处理间隔为1分钟,而火花流作业正在消耗来自Kafka主题的数据。我的问题是,在DStream中可用的
RDD
是否在最后一分钟包含整个数据?我们是否需要设置任何标准或选项来提取最后一分钟创建的所有数据?如果我有一
个
有3
个
分区
的Kafka主题,而所有3
个
分区
都包含最后一分钟的数据,那么DStream会在所
浏览 2
提问于2016-11-13
得票数 3
回答已采纳
2
回答
星星之火-它们是如何工作的?
scala
、
apache-spark
、
bigdata
、
distributed-computing
、
rdd
假设我创建了一
个
RDD
:val
rdd
= sc.textFile(file)
rdd
.map(x => x /
rdd
.size) 假设
rdd
中有100
个
对象,假设有10
浏览 6
提问于2014-12-12
得票数 21
回答已采纳
1
回答
如何在spark中合并两
个
预先排序的
rdd
?
sorting
、
apache-spark
、
rdd
我有两
个
较大的csv文件,其中一列预先排序。有没有一种方法可以利用它们已经排序的事实来更快地获得新的排序
RDD
,而不需要再次完全排序?
浏览 15
提问于2016-08-26
得票数 4
1
回答
星星之火sql“创建表作为选择.”外记忆
apache-spark
、
apache-spark-sql
错误信息是: 我试着用火花放电来使用df.saveAsTable()。这在某些情
浏览 0
提问于2019-04-28
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据技术,Spark之RDD,RDD的两种算子介绍
Spark之Lineage机制
遇见YI算法之初识Pyspark(二)
Spark地基之RDD
Spark实战(5)_Spark Core核心编程
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券