前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >spark报错OutOfMemory「建议收藏」

spark报错OutOfMemory「建议收藏」

作者头像
全栈程序员站长
发布2022-07-31 16:22:59
3680
发布2022-07-31 16:22:59
举报

大家好,又见面了,我是你们的朋友全栈君。

最近在使用spark进行分析的时候 几千万的数据量感觉不多 但是跑起来非常慢

内存溢出OutOfMemory

1.然后在有使用map的地方 在map之前进行分区repartition

2.join会有shuffle产生 shuffle也会产生数据溢出

3.map也可以换成 mapPartitions 并且适当调整分区数 200 400

其他的还有很多 我用的就这些 然后任务可以跑出来。

还有什么错误 比如 reset by peer还有什么255的错误

报错信息没有记录

然后使用配置文件去调整

代码语言:javascript
复制
config.set("spark.network.timeout","100000")
    config.set("spark.executor.heartbeatInterval","100s")
    config.set("spark.executor.memory", "50g")
    config.set("spark.shuffle.blockTransferService", "nio")

没用

主要是代码问题。。。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/127866.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年4月1,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档