专栏首页文渊之博解决spark日志清理问题

解决spark日志清理问题

背景

由于采用了sparkstreaming 任务一直再运行导致日志文件暴涨,达到了硬盘的预警,不得已必须指定策略定期删除日志已保证服务器硬盘空间。

spark的日志分类

spark的日志都有那些:

1.event(history)

2.work

3.executor

解决方法

方案1

一开始为了快速实现日志清理,选择了脚本自动清理,写了shell脚本便于清理历史文件,但是会有很多细节甚至有些文件不能删除(由于进程占用),这里不做详细介绍了。

方案2

spark配置来解决这几个问题

conf文件下面的两个文件中修改配置:

1.解决executor(work目录) 日志太大的问题,修改spark-defaut.conf

# 日志循环复写的策略(一般就是size和time)这里受限于空间选择了大小
spark.executor.logs.rolling.strategy size 
# 设定复写的大小,这里设定了1G
spark.executor.logs.rolling.maxSize 1073741824
# 设定组大保留文件
spark.executor.logs.rolling.maxRetainedFiles 100
# 设定更新周期这里选择一小时检查一次是否超过最大值
spark.executor.logs.rolling.time.interval hourly

2.解决历史日志问题spark-env.sh 文件添加 历史日志清洗参数配置

export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=/export/opt/spark/spark2.4.0/logs -Dspark.history.fs.cleaner.enabled=true -Dspark.history.fs.cleaner.interval=1d -Dspark.history.fs.cleaner.maxAge=2d -Dspark.history.retainedApplications=100"

3.woker日志清理同上文件

export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.interval=1800 -Dspark.worker.cleanup.appDataTtl=86400"

方案3

log4j 替代默认的日志记录,再shell的提交脚本中加入如下参数

--files "./log4j.properties" \
--driver-java-options "-Dlog4j.debug=true -Dlog4j.configuration=log4j.properties" \
--conf spark.driver.extraJavaOptions='-Dlog4j.configuration=file:/opt/spark/conf/log4j.properties' \

总结

  再实际应用过程中依然有很多不能日志复写或者不能文件导致日志太大的问题,需要具体问题具体解决。比如spark3.0 才支持history日志循环写。另外yarn模式和standalone 也有很多不同,需要区别处理。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 解决spark streaming长时间运行日志不断增长问题

    背景: 由于spark streaming是7*24小时不间断运行的,日志必然会越来越多到最后大的惊人,在此小二记录一下解决日志越来越大的过程,以便需要之人。

    shengjk1
  • 小明的 SQL 问题解决日志(1)

    本系列仅为小明在写SQL过程中,由浅入深遇到的一些问题、以及最后解决方案。我知道这其中有些问题,高手在12岁的时候就已经知道答案了,小明可能比你们慢了一点。 ...

    数说君
  • MongoDB日志文件过大的解决方法 清理

    MongoDB的日志文件在设置 logappend=true 的情况下,会不断向同一日志文件追加的,时间长了,自然变得非常大。

    拓荒者
  • jenkins "DNSQuestion"日志无限循环问题解决

    资料 https://wiki.jenkins.io/display/JENKINS/Features+controlled+by+system+propert...

    domain0
  • Dr.Elephant实战常见问题及解决方法

    通过之前一系列的文章叙述,想必大家都对dr.elephant有了一个较为清晰的了解。通过自己线上经验的积累,以及和一些读者的交流,我汇总了一些大家在实战中遇到的...

    一条老狗
  • 如何从零开始规划大数据学习之路!

    针对第一个问题,就是ETL技术-数据的抽取,清洗,加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据,需要抽取一些客户的基本信息。上万的文件,多种...

    用户2292346
  • POSTGRESQL AUTO_VACUUM 弄清问题,解决问题

    弄清楚POSTGRESQL 的VACUUM 对于维护好POSTGRESQL 和 理解一些在基于POSTGRESQL 设计中的"点" 是有必要性的. 虽然数据库是...

    AustinDatabases
  • POSTGRESQL AUTO_VACUUM 弄清问题,解决问题

    ​弄清楚POSTGRESQL 的VACUUM 对于维护好POSTGRESQL 和 理解一些在基于POSTGRESQL 设计中的"点" 是有必要性的. 虽然数据库...

    AustinDatabases
  • 【Spark篇】---Spark解决数据倾斜问题

    数据倾斜问题是大数据中的头号问题,所以解决数据清洗尤为重要,本文只针对几个常见的应用场景做些分析 。

    LhWorld哥陪你聊算法

扫码关注云+社区

领取腾讯云代金券