根据同事反馈,问题是下午两三点左右突然就出现了,期间没有上线新代码,也没有对服务器做什么特别的操作, Airflow服务器负载也正常。...,调度器和worker也在跑,但是任务不会自动调度;
重启Airflow,手动执行任务等,都没有报错;
在界面上clear一个任务的状态时,会卡死,而通过命令来执行则耗时很长,最后也抛异常。...在关闭Airflow之后, 就沿着这个表追查下去:
# 直接查询task_instance记录数不成功
select count(1) from task_instance;
# 怀疑是长时间正在执行的...这个数据库是Airflow和业务系统共用的, 虽然Airflow停掉了且长时间在执行的sql也清理了, 不会有什么负载, 但是业务系统还一直在跑, 于是进业务系统的数据库看正在执行的sql进程:
show...小结
----
"突然"这个词很具有迷惑性, 好像问题之前不存在, 到了某个时间点突然就出现了, 其实并不是, 就像雪崩, 问题其实在之前就一直在积累了, 只是没有被观察到。