首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

如何在spark on yarn的环境中把log4j升级到log4j2

大家知道在spark on yarn中,spark的系统日志都是按照log4j的方式写到每一个node上面的container目录下的,如果要实时看一个application的日志,很麻烦!需要登录到executor所在的node上去tail一个文件,或者通过spark UI在界面上看,executor多了,这个就是麻烦事,要在不同的机器不同的目录中切换!我就在想能不能统一写到每个node的同一个地方,然后通过logstash发送到ELK里面去展示,这样在一个界面就可以看到所有application的日志了。但是这里就有1个很大的问题,log4j写的日志里面没有标明是哪个application写的日志,一大堆日志怎么知道谁是谁写的呢?所以日志里面一定要带进程号之类的标识,但是遗憾的log4j里面不支持,查了下要log4j2.9以后的版本(此时已经是log4j2了)才支持写processId,而spark3.0自带的是log4j-1.2.17.jar,所以升级的事情就来了!

03

通过ELK快速搭建集中化日志平台

在项目初期的时候,大家都是赶着上线,一般来说对日志没有过多的考虑,当然日志量也不大,所以用log4net就够了,随着应用的越来越多,日志散落在各个服务器的logs文件夹下,确实有点不大方便,这个时候就想到了,在log4net中配置 mysql的数据源,不过这里面有一个坑,熟悉log4net的同学知道写入mysql有一个batch的阈值,比如说batchcache中有100条,才写入mysql,这样的话,就有一个延迟的效果,而且如果batchcache中不满100条的话,你在mysql中是看不到最新的100条日志。而且采用中心化的mysql,涉及到tcp传输,其中的性能大家也应该明白,而且mysql没有一个好的日志界面,只能自己去写UI,所以还还得继续寻找其他的解决方案,也就是本篇的ELK。

01
领券