前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >xxl-job故障

xxl-job故障

作者头像
只喝牛奶的杀手
发布2023-03-10 15:30:35
4350
发布2023-03-10 15:30:35
举报

最近运维同学在容器化生产环境,买了一些ECS的临时机器,这些临时机器性能不如生产环境的机器。先把定时任务迁移到容器化环境,然后发生特别奇怪的问题。没有执行时间,执行时间为空的越来越多,原来是好好的,为啥迁移完环境就有问题啦呢?

慌得一笔,确实机器配置低。程序员第一板斧:加配置重启。后来尼玛,调度报警群里报警信息太多啦,直接把机器人移除了,做一次掩耳盗铃。增加完配置执行时间为空的任务少的多了,但问题还没得到解决?!

我们的调度任务:job300+。1个admin,4个executor这样的部署的。说实在话admin应该至少两个节点。

xxl-job-admin模块是调度中心,用来管理调度任务的可视化界面。调度中心支持集群部署,提升调度系统容灾和可用性。调度中心集群部署时,要求DB配置保持和集群机器时钟保持一致。

xxl-job-executor是执行器,提供默认执行器,也可以搞多个执行器,不同服务用不同执行器。

其实xxl-job会做线程池隔离:调度线程池进行隔离拆分,慢任务自动降级进入slow线程池,避免耗尽调度线程,提高系统稳定性。一旦慢任务过多,slow triggerpool 会被撑爆,导致慢任务调度无法执行。

代码语言:javascript
复制
## xxl-job, triggerpool max size
xxl.job.triggerpool.fast.max=200
xxl.job.triggerpool.slow.max=100

由于机器性能差,越来越多的慢任务被扔到slow triggerpool等待,最终triggerpool被撑爆。

我们应该怎么解决?调整triggerpool.slow 的最大值,定时任务设置超时时间。经过这两个调整,问题得到解决。


精进自省:遇到一群可爱的人,一路走来学会了很多,成长了很多,感恩遇见。一路走来,没有敌人,看见的都是朋友和师长。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 只喝牛奶的杀手 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档