腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
如何更改本地文件(非HDFS文件)较大
的
RDD
的
分区
数量?
、
、
我有一个8.9 in
的
文本文件,我用它创建了一个RDD,并将它导入
Spark
。textfile = sc.textFile("input.txt")
Spark
创建
的
分区
数是279,这是通过将输入文件
的
大小除以32MB
的
默认
HDFS块大小得到
的
。我可以将一个参数传递给textfile并要求更多
的
分区
数量,然而,不幸
的
是,我不能拥有比这个
默认
值更
浏览 0
提问于2015-08-07
得票数 1
2
回答
实例类型
默认
分区
差异
、
、
、
我
的
理解是,
spark
会根据文件
的
大小,或者如果它是许多拼图文件
的
并集,部分
的
数量,来选择
分区
的
“
默认
”数量。然而,在读入一组大
的
拼图文件时,我发现具有单个d2.2xlarge
的
EMR集群
的
默认
分区
数是~1200。然而,在2个r3.8xlarge
的
集群
中
,我得到了大约4700
的
默认
分区
浏览 1
提问于2017-08-08
得票数 0
1
回答
Spark
on AWS EMR -动态
分区
覆盖S3 / Glue
、
、
、
我正在使用AWS EMR笔记本
中
的
pyspark,并希望在保存表时覆盖单个
分区
。有没有办法只覆盖S3
分区
和
spark
元数据
中
的
文件? 注意:我使用Glue作为
spark
元数据
浏览 1
提问于2021-06-12
得票数 0
2
回答
spark
.sql.shuffle.partitions和
spark
.default.parallelism有什么区别?
、
、
、
spark
.sql.shuffle.partitions和
spark
.default.parallelism有什么不同 我尝试在SparkSQL
中
设置这两个任务,但第二阶段
的
任务号总是200。
浏览 1
提问于2017-08-16
得票数 95
回答已采纳
1
回答
如何为HadoopPartitions计算
Spark
的
默认
分区
?
、
我正在阅读,关于
分区
,他说 我对HDFS并不十分熟悉,但是我遇到了一些复制这条语句
的
问题。我有一个名为Reviews.csv
的
文件,它是大约330 of
的
亚马逊食品评论文本文件。给定
默认
的
64‘d块,我希望使用ceiling(330 / 64) = 6
分区
。但是,当我将文件加载到我
的
Shell
浏览 1
提问于2018-12-01
得票数 1
回答已采纳
1
回答
将数据帧从
spark
集群写入cassandra集群:
分区
和性能调优
、
、
、
、
Cloud - Cassandra集群,多个DC<code>A0</code> 在我
的
多租户
spark
集群
中
,对于具有20M记录
的
spark
批量加载,以及下面的配置,我看到了许多任务失败、资源抢占和动态失败。PS:我一开始
的
理解是:
浏览 25
提问于2020-06-08
得票数 1
回答已采纳
1
回答
spark
.default.parallelism等价于火花数据仓库
问题背景 显然,RDD和DataFrame
的
分娩控制是不同
的
。Dataframe有
spark
.sql.shuffle.partitions来控制重装
分区
(如果我正确理解的话,可以进行广泛
的
转换),而"
spark
.default.parallelism“不会产生任何影响但是洗牌与
分区
有什么关系呢?如果您正在使用RDDs…,那么实际上
浏览 6
提问于2019-11-18
得票数 2
回答已采纳
0
回答
为什么groupBy 200之后
的
分区
数是多少?为什么这个200不是另一个数字呢?
它是
Spark
2.2.0-快照。res0: Int = 200我听说过特别询问groupByKey,但问题是选择200作为
默认
分区
背后
的
“奥秘”,而不是为什么
默认
浏览 2
提问于2016-12-28
得票数 8
回答已采纳
1
回答
在
Spark
中
读取HDFS时
的
任务数
ORC格式
的
非格式化表格中有200个文件。每个文件都在170KB.The左右,总大小约为33MB。 想知道为什么
spark
阶段读表生成7个任务。该作业被分配给一个具有5个核心
的
执行器。
浏览 43
提问于2021-09-02
得票数 4
回答已采纳
6
回答
火花失效:引起: org.apache.
spark
.shuffle.FetchFailedException:太大
的
框架: 5454002341
、
、
我正在为确定父子表
的
表生成层次结构。下面是使用
的
配置,即使在收到与太大
的
帧有关
的
错误之后:--conf
spark
.yarn.executor.memoryOverhead=1024mb \import org.apache.
spark
.SparkContext; import org.apache.
spark
.sql.{DataFrame
浏览 3
提问于2018-07-11
得票数 8
3
回答
spark
.csv如何确定读取时
的
分区
数量?
在
Spark
2.2.0
中
:我正在读入一个文件,使用对于一个350MB
的
文件,我在一个系统中使用77个
分区
,在另一个系统中使用88个
分区
。对于一个28 GB
的
文件,我还获得了226个
分区
,大约为28*1024MB/128MB。问题是,
Spark
CSV数据源如何确定这个
默认
<e
浏览 13
提问于2018-05-24
得票数 1
2
回答
在
Spark
SQL中加入
分区
以获得更好
的
性能
、
我是
Spark
SQL
的
新手。我有一个关于连接期间
分区
使用
的
问题 假设有一个名为test1
的
表,它保存在10
分区
(parquet)文件
中
。还假设
spark
.sql.shuffle.partitions = 200。问:如果使用test1对另一个表进行Join,
Spark
会使用10
分区
(这是表所在
分区
的
数量)执行操作,还是会在200
分区
中
对表进行重
浏览 42
提问于2021-01-30
得票数 0
1
回答
Spark
中
的
分区
是如何工作
的
?
、
我正在尝试理解在Apache
Spark
中
分区
是如何完成
的
。你们能帮帮忙吗?一个主节点和两个节点,每个节点具有一个大小为10 MB
的
文件大小
的
文件
的
大小对
分区
的
数量有影响吗?
浏览 8
提问于2014-10-15
得票数 22
1
回答
ADLS
中
的
parquet文件
的
分区
数是否与将其作为dataframe读取后
的
分区
数相同?
、
、
我在ADLS中有3个拼花文件 2块文件有10个子块文件,当我在数据库
中
读取它时,
分区
的
数量等于10个,这是预期
的
行为。第三个文件有172个 snappy.parquet文件,当我将它作为一个数据文件读取时,
分区
的
数量等于89,原因是什么?使用此命令df.rdd.getNumPartitions()查找数据格式
的
分区
数。
浏览 1
提问于2022-07-17
得票数 1
回答已采纳
2
回答
Spark
Dataframe
分区
数
、
、
有人能解释一下为
Spark
Dataframe创建
的
分区
数量吗?但是对于
Spark
dataframe,在创建时,我们看起来没有像RDD那样指定
分区
数量
的
选项。我认为唯一
的
可能性是,在创建数据帧之后,我们可以使用重新
分区
API。 df.r
浏览 1
提问于2016-09-07
得票数 9
回答已采纳
1
回答
spark
中
的
默认
分区
、
关于RDD
中
的
默认
分区
,我有一个问题。因此,我看到创建了12个
分区
。 我
的
理解是,散列
分区
用于确定哪个对象需要转到哪个
分区
。因此,在这种情况下,公式将是: hashCode() % 12,但当我进一步检查时,我看到所有的RDD都放在最后一个
分区
中
。myRDD.foreachPartition( e => { println("----------"); e.foreach(println)
浏览 14
提问于2021-03-16
得票数 0
1
回答
Spark
Structured Streaming大型文件
、
、
、
我有两个很大
的
json文件,我们在kafka上传输。因此其中一个文件被推入Topic1
的
分区
0,另一个文件被推入Topic1
的
分区
1。我们使用使用水印
的
spark
流查询来连接这些文件并执行必要
的
计算。虽然我们正在连接这些文件并执行简单
的
计算,但在
Spark
UI
中
,我们确实发现
Spark
engine已经完成了200多个任务,它占用了超过6个mins.These是一个具有2个内核和
浏览 4
提问于2018-08-02
得票数 2
1
回答
显示目录名和文件模式
的
Json模式
、
、
、
job_type”:“生产者”,"person_id":"af7dc39bc","order":"3","entity_id":"f2323"} for(f<-fieldNamesArr){ flattenedFileSchemaList+=
浏览 4
提问于2017-02-24
得票数 3
回答已采纳
1
回答
spark
中
的
默认
混洗
分区
值
spark
中
的
默认
随机
分区
值是200个
分区
。我想澄清
的
是,这个数字是每个输入
分区
?或者在所有输入
分区
中
,输出
分区
的
数量将是200个? 我看了几份材料,但没有找到我想要
的
答案。
浏览 1
提问于2019-11-03
得票数 0
1
回答
当混洗
分区
大于200(
默认
情况下,数据帧
中
的
spark
.sql.shuffle.partitions为200)时会发生什么?
、
、
、
spark
sql聚合操作,可以对数据进行混洗,即
spark
.sql.shuffle.partitions 200(
默认
)。当混洗
分区
大于200时,会对性能产生什么影响。当
分区
数大于2000时,
Spark
使用不同
的
数据结构进行混洗记账。因此,如果
分区
数接近2000,则将其增加到2000以上。但我
的
问题是,当shuffle
分区
大于200(比方说300)时,会有什么行为。
浏览 21
提问于2020-09-06
得票数 1
回答已采纳
点击加载更多
相关
资讯
如何管理Spark的分区
关于Spark Streaming感知kafka动态分区的问题
Spark核心编程RDD分区器以及文件读取与保存
Spring中的默认beanName
python默认参数中的陷阱
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券