腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
星火中的默认
分区
方案
、
、
当我执行以下命令时:
rdd
: org.apache.
spark
.
rdd
.
RDD
[(Int, Int)] = ShuffledRDD[10] at
partitionBy
at <consolescala>
rdd
.parti
浏览 1
提问于2015-12-28
得票数 20
回答已采纳
1
回答
阿帕奇火花:爆炸导致洗牌泄漏
在
阅读完它们之后,我需要执行一系列的转换。其中之一就是引爆一根柱子。
在
转换之后,我得到了下面描述的洗牌溢出。我明白为什么会这样。爆炸是基于一个广播变量查找,它提供了一个非常扭曲的结果集。我尝试
在
explode函数之前重新
分区
,方法是调优
spark
.sql.shuffle.partitions配置参数,以确保洗牌
分区
大小相等,但这没有帮助。
浏览 1
提问于2020-04-01
得票数 0
回答已采纳
2
回答
如何检查给定key的所有记录是否已经
在
同一个
分区
中
?
我希望尽可能避免按键对数据集进行重新
分区
,并知道给定键的所有记录是否已经
在
同一
分区
中
。
Spark
中有没有一个内置的函数可以给我答案?
浏览 2
提问于2016-12-29
得票数 7
1
回答
在
RDD
中
找不到
Spark
RDD
分区
程序
partitionBy
、
学习自定义
Spark
RDD
分区
,编写了一些逻辑,但不编译。
在
Spark
2.4.3
中
,启动
spark
shell:val transactions= sc.parallelize(transactions).
partitionBy
(new CountryPartitioner(2))error: value
浏览 20
提问于2019-08-19
得票数 0
回答已采纳
1
回答
我如何有效地将一个大的
rdd
加入到一个非常大的
rdd
中
呢?
、
、
一个
RDD
在
5-1000万个条目之间,另一个
RDD
在
5亿到7.5亿个条目之间。
在
某种程度上,我必须使用公共密钥连接这两个
rdd
。, y); } // 600-million当
spark
决定进行此连接时,它决定执行一个ShuffledHashJoin。更新7/14 我的性能问题似乎根植于重新
分区
。通常,从HDFS读取的
RDD
将按块进行
分
浏览 4
提问于2015-07-13
得票数 11
回答已采纳
1
回答
为什么
Spark
总是将相同数量的文件写入HDFS?
、
、
我有一个用Scala编写的
Spark
流媒体应用
程序
,
在
CDH
中
运行。应用
程序
从Kafka读取数据并将数据写入HDFS。
在
将数据写入HDFS之前,我执行了
partitionBy
,因此数据是
分区
写入的。每个
分区
在
写入时都会得到3个文件。我还使用coalesce来控制数据的
分区
数量。我的预期是,由coalesce命令设置的
分区
数量将设置HDFS
中
输出目录
中</e
浏览 0
提问于2018-09-18
得票数 1
1
回答
Apache行为代码分组操作
、
、
我想澄清一下DAG的行为,以及具体如何处理以下工作:.
partitionBy
(new HashPartitioner(4)) .
partitionBy
ParallelCollectionRDD[2] at parallelize at
浏览 3
提问于2017-03-23
得票数 2
回答已采纳
1
回答
在按键进行
分区
后,是否将一个键的所有数据保存在一个
分区
中
?
根据答案,密钥的所有数据都驻留在一个
分区
中
。但是,这个来自星火邮件组的回答却有所不同。 请有人确认一个
分区
的所有数据是否
在
一个任务
分区
中
结束。
浏览 4
提问于2017-03-13
得票数 1
2
回答
RDD
的片和
分区
之间有什么区别?
、
我正在使用
Spark
的Python并运行
Spark
0.8。
RDD
中
的片和
分区
之间有什么区别吗?当我创建
RDD
时,我将它作为一个参数传递给它,这将导致它将
RDD
存储为100片,并在执行计算时创建100个任务。我想知道,通过使系统能够更有效地处理数据,对数据进行
分区
是否会提高切片以外的性能(即,对
分区
执行操作与仅对切片的
RDD
<e
浏览 3
提问于2014-06-17
得票数 12
回答已采纳
1
回答
影响preservesPartitioning
RDD
真/假给出了相同的mapPartitions结果
、
、
从医生那里: // Som
浏览 0
提问于2020-01-02
得票数 2
回答已采纳
1
回答
在
Apache
Spark
中
,为什么
RDD
.union不保留
分区
程序
?
、
、
众所周知,
Spark
中
的
分区
对任何“宽”操作都有巨大的性能影响,所以它通常是
在
操作
中
定制的。我正在使用以下代码进行实验: sc.parallelize(1 to 50).keyBy(_ % 10)val
rdd
2 = val cogrouped = <em
浏览 48
提问于2015-05-01
得票数 26
回答已采纳
2
回答
Spark
RDD
-避免混洗-
分区
是否有助于处理大型文件?
、
我有一个应用
程序
,其中有大约10个平面文件,每个文件的价值都超过200MM+记录。业务逻辑涉及顺序地将它们全部连接起来。我的环境:1主-3从(为了测试,我为每个节点分配了1 1GB内存)
RDD
1 = sc.textFile(file1).mapToPair(..)
RDD
2 = sc.textFile(file2).mapToPair(..)join =
RDD
1.join(
RDD
2).map(peopleObject) 有没有关于调整的建议,比如重新
分区<
浏览 2
提问于2016-05-30
得票数 5
2
回答
在
Spark
中使用reduceByKey时,有没有有效的
分区
方法?
、
、
当我使用reduceByKey或aggregateByKey时,我会遇到
分区
问题。例如,reduceBykey(_+_).map(code)因此,作为解决方案,我使用了repartition方法。这对于
分区
分发是有好处的,但是repartition也很昂贵。 有没有办法明智地解决
分区
问题?
浏览 1
提问于2017-03-26
得票数 5
1
回答
在
Spark
中
读取文件时对数据进行
分区
、
我是
Spark
的新手。考虑以下代码: val
rdd
= sc .
partitionBy
(new HashPartitioner(sc.defaultParallelism))
rdd
.count() 从文件
中
读取的每个元组是否直接发送到散列
分区
程序
指定的
分区
?或者,整个文件首先被读取到内存
中
,而不考虑
分区</
浏览 20
提问于2020-04-25
得票数 0
1
回答
如何可靠地写入和恢复
分区
数据
我正在寻找一种方法来写入和恢复
分区
数据集。对于这个问题,我可以接受两个
分区
的
RDD
和Dataset[Row] / Dataframe这样做的目的是为了
在
恢复数据时避免混洗例如:
spark
.range(
浏览 0
提问于2016-10-06
得票数 2
2
回答
在
Spark
中
获取错误: Executor丢失
、
、
我有一个主
程序
和两个从
程序
,每个主
程序
和两个从
程序
都运行在32 GB的RAM上,并且我正在读取一个包含大约1800万条记录的csv文件(第一行是列的标题)。./
spark
-submit --master yarn --deploy-mode client --executor-memory 10g <path/to/.py file>
rdd
= sc.textFile("<path
浏览 0
提问于2015-10-12
得票数 2
3
回答
Spark
:如何将我的记录均匀地分布在所有
分区
中
我有一个包含30条记录的
RDD
(键/值对:键是时间戳,值是JPEG字节数组) 我管理着30个执行者。我想将这个
RDD
重新划分为30个
分区
,这样每个
分区
就可以得到一条记录,并被分配给一个executor。当我使用
rdd
.repartition(30)时,它将我的
rdd
重新划分为30个
分区
,但一些
分区
获得2条记录,一些
分区
获得1条记录,而另一些则没有任何记录。有没有办法
在
Spark
中
浏览 1
提问于2015-11-18
得票数 5
1
回答
Spark
中
的散列
分区
我正在使用
partitionBy
()
在
Spark
中进行散列
分区
。但是该应用
程序
接口
在
RDD
class.But
中
不可用,它显示无法解析
在
单机上运行的
partitionBy
() .I am,并且
Spark
核心版本为1.2。import org.apache.
spark
.SparkContext(sparkConf); val testrdd = sparkContext.parall
浏览 0
提问于2016-04-05
得票数 0
2
回答
Spark
:将2元组密钥
RDD
与单密钥
RDD
结合的最佳策略是什么?
、
我有两个我想加入的
RDD
,它们看起来像这样:val
rdd
2:
RDD
[((T,W), V)]val
rdd
_joined:
RDD
[((T,W), (U,V))]val m =
rd
浏览 0
提问于2013-07-13
得票数 49
回答已采纳
3
回答
Apache
Spark
查找函数
、
从读取查找方法的定义:lookup(key: K): Seq[V] Return the list of values in the
RDD
for key key.This operation is done efficiently if the
RDD
has a known partitioner by only searching the partition如何确保
RDD
有一个已知的
分区
程序
?我知道
RDD
是跨集群
中
的节点进行
分区
的,但
浏览 1
提问于2015-05-07
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark核心编程RDD分区器以及文件读取与保存
每天读一本:Spark快速大数据分析
大数据之谜Spark基础篇,Spark RDD内幕详解
Spark关键性能考量
Spark实战(5)_Spark Core核心编程
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券