首页
学习
活动
专区
工具
TVP
发布

闵开慧

专栏作者
237
文章
387270
阅读量
51
订阅数
spark出现GC overhead limit exceeded和java heap space
    spark执行任务时出现java.lang.OutOfMemoryError: GC overhead limit exceeded和java.lang.OutOfMemoryError: java heap space 最直接的解决方式就是在spark-env.sh中将下面两个参数调节的尽量大     export SPARK_EXECUTOR_MEMORY=6000M     export SPARK_DRIVER_MEMORY=7000M 注意,此两个参数设置需要注意大小顺序:     SPA
闵开慧
2018-04-02
4.3K0
spark on yarn提交任务时一直显示ACCEPTED
spark on yarn提交任务时一直显示ACCEPTED,过一个小时后就会出现任务失败,但在提交时shell终端显示的日志并没有报错,logs文件夹中也没有日志产生。注:spark on yarn是不需要启动spark集群的,只需要在提交任务的机器配置spark就可以了,因为任务是由hadoop来执行的,spark只负责任务的提交。 任务提交命令为  bin/spark-submit --class org.apache.spark.examples.JavaWordCount\     --mas
闵开慧
2018-04-02
3.6K0
spark使用zipWithIndex和zipWithUniqueId为rdd中每条数据添加索引数据
spark的rdd中数据需要添加自增主键,然后将数据存入数据库,使用map来添加有的情况是可以的,有的情况是不可以的,所以需要使用以下两种中的其中一种来进行添加。 zipWithIndex def zipWithIndex(): RDD[(T, Long)] 该函数将RDD中的元素和这个元素在RDD中的ID(索引号)组合成键/值对。 scala> var rdd2 = sc.makeRDD(Seq("A","B","R","D","F"),2) rdd2: org.apache.spark.rdd.RDD[
闵开慧
2018-03-30
4.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档