前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >记录一次celery消费失败的问题排除

记录一次celery消费失败的问题排除

作者头像
Ewdager
发布2021-02-04 16:00:13
1K0
发布2021-02-04 16:00:13
举报
文章被收录于专栏:Gvoidy备份小站Gvoidy备份小站

0x00

昨天发完UAT后,今天惯例点进UAT看看服务的情况,突然发现flower监测的celery竟然有半数以上的失败!

开始排查

马上查看这个queue的日志,确实是有一堆失败的。

当前这个queue的业务是从redis里把数据取出来写入minio里落盘,但是涉及的数据均为几十k的数据,讲道理不应该会失败。

查询得到这几个失败的任务redis key的插入时间为2020-12-28 15:17:48,而消费的时间却是2020-12-29 17:17:21

这里就出现了一个问题,业务逻辑上当一个key塞入redis中后,马上会把落盘任务推到队列里,一般来说不会积攒这么久。但是此处竟然积攒到了一天以上才开始消费,而此处也因为我们设置的redis单key最大过期时间为24小时,所以导致落盘任务失败,并且数据丢失了。

发现问题

那么到底是什么任务积攒在队列里积攒了这么久。。?经过和同事分析发现,因为此次发版前还没有上线深度学习的功能,所以只分配了两个通用消费者。当启动几个深度学习任务时,这么点消费者完全没有办法应付之后的任务了,导致简单的几十k数据落盘任务都需要积攒天级以上的时间才能完成。

所以,深度学习任务单独开个queue分流不阻塞其他任务,就解决了此次问题。。(感觉好蠢,浪费了一个上午

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0x00
  • 开始排查
  • 发现问题
相关产品与服务
云数据库 Redis
腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档