我是Ubuntu18.04用户,在和Mysql服务器上运行了3年的OVHCloud数据中心。在过去的2.5年里,一切都很好,但在过去的6个月里,我遇到了一些奇怪的问题:
当发生这种情况时,我可以通过ssh登录,我可以停止所有服务,但是没有任何东西可以修复平均负载。一旦我重新启动它,它再次工作4周,然后问题再次出现。
有人能帮我解决什么导致CPU平均负载过高的问题吗?为什么总是同时出现?
请看这张来自htop的图片:
谢谢
发布于 2023-03-06 16:07:42
如果它不是OVH的主机在做一些疯狂的事情,而是在您的机器中做一些事情,那么它很可能是一个cron
作业。
我倾向于在/etc/cron.d
中查找任何文件,这些文件的作业被配置为在那天开始。
您可能可以通过grep "^30 22" /etc/cron.d/*
查找从(^) 30 (分钟)到22 (小时)开始的任何行。或者你可以把每一个都看完。我怀疑这是个配置不好的工作。
或者,它可以是crontab crontab -l
或root的crontab sudo crontab -l
中的内容。
发布于 2023-03-06 19:02:34
诊断这一问题的一种方法是让dstat
在终端中运行,而不是htop。它擅长于在一段时间内发现最高级的过程。
ssh到服务器,在screen
、tmux
或byobu
中,用以下所有选项启动dstat:dstat --time --cpu --net --disk --sys --load --proc --top-cpu --top-mem --top-io
并让它运行。
看上去是这样的:
当问题开始发生时,您可以回滚到它开始时的时间,并查找异常进程。尤其是在cpu、内存和io的“最昂贵”最后三列中。它还允许您查看负载平均值(中间列)是立即崩溃,还是随着时间的推移而上升。可能会提供一些线索。
https://askubuntu.com/questions/1458036
复制相似问题