腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
中
几个
任务
中
的
重新
分区
数据
瓶颈
、
我有一个简单
的
spark
工作,它做以下工作 val dfIn =
spark
.read.parquet(PATH_IN)dfOut.write.mode(SaveMode.Append).partitionBy(col1, col2, col3).parquet(PATH_OUT) 我注意到这份工作
的
表现有很大
的
恶化检查
Spark
UI显示,写入
瓶颈
出现在一些
任务<
浏览 31
提问于2021-11-04
得票数 2
2
回答
由于本地级别为“任意”和缓存
的
RDD上
的
网络获取而造成
的
严重分离
任务
已完全读取
的
缓存
数据
集(已成功读取)正在
重新
处理。少数
任务
(通常为2/204个
任务
- 1%)在随后通过相同
的
(仍缓存
的
)
数据
集时可能会失败。我们在第1.3.1号火星上。下面的屏幕截图显示,在204个
任务
中
,最后两个
任务
似乎被调度程序“遗忘”了。 所有其他
任务
都是在合理
的</e
浏览 3
提问于2015-08-16
得票数 0
回答已采纳
2
回答
spark
数据
帧
中
的
高效连接
、
、
、
、
我想执行以下操作:有没有任何类型
的
重新
分区
或预处理可以加速这一过程
浏览 3
提问于2018-10-17
得票数 0
1
回答
为什么
Spark
应用程序将包含多个csv文件
的
DataFrame保存到S3存储桶
、
、
、
嗨,我是
Spark
和Amazon EMR集群
的
新手。 我试图编写一个可以在Amazon EMR集群上运行
的
演示
spark
应用程序。当代码在Zeppelin notebook上运行时,它会返回输出,我认为输出会保存为Amazon EMR集群上
的
单个文件,如下所示: %pyspark
spark
.conf.set('
spark
.sql.repl.eagerEval.enabled应用程序时,它将多个CSV文件保存到S3存储桶
中
。我想知道为什么我<
浏览 31
提问于2021-04-16
得票数 0
回答已采纳
1
回答
理解火花中
的
洗牌和rePartitioning
、
如果有人能用简化
的
术语回答这
几个
与火花混淆有关
的
问题,我将不胜感激。在
spark
中
,在加载
数据
集时,我们指定
分区
的
数量,这说明输入
数据
(RDD)应该划分多少块,并且根据
分区
数,启动相同数量
的
任务
(如果假设错误,请更正我),.for X核数在worker node.corresponding按照类似的思路,下面是
几个
问题。 因为,所有byKey操作以及合并、
浏览 0
提问于2017-01-11
得票数 2
2
回答
面向对象模型
的
Spark
内存管理
、
情况是这样
的
:我启动了一个
spark
作业,但由于OOM
的
许多
任务
失败而失败。所以我增加了
任务
的
内存分配。我仍然看到OOM
的
一些节点失败了,但作业最终可能会成功。我
的
问题是
Spark
是如何处理这个问题
的
?似乎
Spark
可以在一次失败
的
尝试后
重新
分发
数据
。附注:失败
的
任务
是在批处理作业
中
应用Win
浏览 0
提问于2018-01-31
得票数 0
1
回答
火花:连接时设置最大
分区
大小
在火花中执行联接时,或者一般情况下,对于洗牌操作,我可以设置
分区
的
最大数量,在其中,我希望
spark
执行此操作。根据文件:
spark
.sql.shuffle.partitions 200配置用于联接或聚合
的
数据
洗牌时使用
的
分区
数。如果我想降低在每个
任务
中
必须完成
的
工作量,我必须估计
数据
的
总大小并相应地调整这个参数(更多
的
分区
浏览 0
提问于2018-12-03
得票数 2
回答已采纳
2
回答
在Apache
中
,如何将缓慢
的
RDD/dataset转换为流?
、
、
、
我正在研究一个有趣
的
案例,它涉及在一个缓慢
的
RDD或dataset上
的
广泛转换(例如
重新
分区
和连接),例如由以下代码定义
的
数据
集: val ds = sqlContext.createDataset(1,因为它类似于远程
数据
源
的
视图,
分区
迭代器是从单线程网络协议(http、jdbc等)派生
的
,在本例
中
,下载速度>单线程处理速度,但<<是分布式处理速度。不幸
浏览 1
提问于2019-08-13
得票数 15
1
回答
是否可以在火花阶段
重新
排序
任务
?
、
、
、
我
的
问题是关于在星火
的
一个阶段
的
任务
顺序。我有一个星火
数据
分割成3000个
分区
。
分区
是在一个特定键上完成
的
。在我
的
dataframe上运行它
的
计算时,我在
Spark
中看到(我还做了一些测试以确保是这样
的
),
任务
index对应于
分区
id,与上面通过mapPartitionsWithIndex获得
的
id完全相同。因此,<
浏览 2
提问于2019-07-26
得票数 1
2
回答
为什么在按组操作期间我
的
洗牌
分区
不是200(默认
的
)?(火花2.4.5)
、
、
我是新
的
火花,并试图理解它
的
内在。因此,我从s3读取一个小
的
50 to
的
拼板文件,然后按组执行,然后保存回s3。当我观察
Spark
时,我可以看到为此创建
的
3个阶段,第1阶段:分组
的
洗牌阶段(12项
任务
)代码示例: df =
spark
.read.format所以,默认
的
并行性是12,我不会在运行时更改任何配置
浏览 2
提问于2020-08-06
得票数 5
回答已采纳
2
回答
为什么火花创建
的
分区
少于从S3读取
的
文件数量
、
我用
的
是火花2.3.1。当我执行一个mapPartitions和一个collect之后,只使用278
任务
(我希望使用5000)。为什么?
浏览 2
提问于2018-11-06
得票数 0
1
回答
设置用于性能优化、outOfMemoryError Gc和GC限制
的
火花参数
、
、
、
、
我有5个模式,每个模式有8个cpu核和30GB内存,我有5GB
的
dataset1和65 5GB
的
dataset2,所以我需要加入它们并保存到s3文件系统
中
,我设置了以下参数:但是,我到处搜索,尝试不同
的
参数,但我仍然在摆脱记忆错误。在Java代码
中
也使用了这种方法: conf.set("
spark
.serializer", "org.apache.
spark
.serializer.KryoSeri
浏览 1
提问于2016-11-30
得票数 0
1
回答
在
Spark
中
重新
分区
大文件
、
、
、
我是
Spark
的
新手,有一个1TB
的
文件要处理。我
的
系统规格是:节点数:2据我所知,我必须
重新
分区
数据
以获得更好
的
并行性,因为
spark
将尝试创建默认
分区
,仅通过(totalNumber of但在我
的
例子
中
,由于
数据
文件非常大,我必须将这些
数据
重新
划分为
浏览 1
提问于2020-11-02
得票数 1
1
回答
saveAsTextFile
的
最后阶段是非常慢
的
、
、
、
仔细检查后,似乎每个
任务
都在读取MapPartitionsRDD,
的
所有1000个
分区
,我认为,从直觉上讲,这些
分区
一定是性能问题
的
根源。这些
分区
分布在所有的执行器上,所以我认为每个
任务
都需要从不是它
的
直接父级
的
n-1执行器
中
请求所有的
分区
。 优化这个应用程序
的
最佳方法是什么?
分区
越少,请求
的
远程
数据
就越少?更少
的</e
浏览 3
提问于2015-11-05
得票数 1
回答已采纳
2
回答
在apache火花生产场景
中
处理倾斜
数据
、
谁能解释在Apache
的
生产中如何处理倾斜
的
数据
?我们使用"
spark
-submit"提交了
spark
作业,并且在
spark
中观察到很少有
任务
花费很长
的
时间,这表明存在偏差。问题:(2)我们是否需要终止作业,然后在jar
中
包含倾斜
的
解决方案并
重新
提交作业?(3)能否通过直接从shell运行(合并)之类<
浏览 0
提问于2018-06-25
得票数 3
1
回答
当从cassandra源读取
数据
时,
spark
中
的
重新
分区
会改变
spark
分区
的
数量吗?
、
、
我正在从
spark
的
cassandra表
中
读取一张表。我在cassandra中有很大
的
分区
,当cassandra
的
分区
大小超过64MB时,在这种情况下,cassandra
分区
将等于
spark
分区
。由于
分区
太大,我在
spark
中
遇到了内存问题。 我
的
问题是,如果我在从cassandra读取
数据
后开始
重新
分
浏览 48
提问于2021-06-07
得票数 1
2
回答
内存管理火花
、
、
1.)我理解“星火
的
操作人员如果
数据
不适合内存,就会将
数据
泄漏到磁盘上,允许它在任何大小
的
数据
上运行良好”。如果这是真的,为什么我们会得到OOM (内存
中
的
)错误?3.)与Hive相比,
Spark
更容易受到OOM
的
影响,因为它在内存
中
执行操作,Hive会重复读取、写入磁盘
浏览 4
提问于2020-07-17
得票数 0
回答已采纳
2
回答
当文件不能放入
spark
的
主内存时,
spark
如何读取大文件(‘s)
、
、
1)
Spark
从NameNode获取
数据
的
位置。
Spark
是否会在同一时间停止,因为根据来自NameNode
的
信息,
数据
大小太长?2)
Spark
根据datanode块大小对
数据
进行
分区
,但不能将所有
数据
存储到主存
中
。这里我们不使用StorageLevel。那么这里会发生什么呢?3)
Spark
做
数据
分区
,有些
数据
会存储在主存
浏览 0
提问于2017-10-09
得票数 30
回答已采纳
2
回答
在
Spark
SQL中加入
分区
以获得更好
的
性能
、
我是
Spark
SQL
的
新手。我有一个关于连接期间
分区
使用
的
问题 假设有一个名为test1
的
表,它保存在10
分区
(parquet)文件
中
。还假设
spark
.sql.shuffle.partitions = 200。问:如果使用test1对另一个表进行Join,
Spark
会使用10
分区
(这是表所在
分区
的
数量)执行操作,还是会在200
分区
中
对表进行<
浏览 42
提问于2021-01-30
得票数 0
2
回答
如何在并行
spark
中
运行转换
、
、
、
我正在尝试读取text.gz文件,对其进行
重新
分区
并进行一些转换,但是当我看到DAG时,stag1正在读取
数据
并仅在1个
任务
上执行转换,因此需要花费一些时间。 df1 =
spark
.read.text("text-04-14.log.gz")text_to_json_udf = udf(tex
浏览 2
提问于2021-04-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark关键性能考量
Spark地基之RDD
BIGO 如何做到夜间同时运行 2.4K 个工作流实例?
Spark 核心编程RDD简介与核心属性
Spark Streaming 中管理 Kafka Offsets 的几种方式
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券