我很难找到我的Ubuntu服务器挂起/崩溃的原因。
我已经在我的旧计算机上安装了一个barebone UbuntuServer20.04.2LTS,尝试将它作为个人服务器来托管我的一些项目。
我的问题是在几个小时后,有时低到2至3个小时,或长达8至12小时,我的服务器最终会挂起。
我得到一个视觉输出,但它完全没有响应键盘,鼠标或ssh。有时它会记录CPU #X stuck for Xs!,但似乎永远不会来自同一个地方。有时是kworkers,有时是md-udev,有时是systemd-networkd。其他时候,我完全没有视觉输出,只需要强制重新启动。
因此,当前在我的服务器上运行的是:
最让我困惑的是,我根本没有收到日志,我检查了内核和系统日志,通常最后一行是一些垃圾邮件ip地址的不相关的UFW block命令,但没有比这更重要的了。我也尝试过查看/var/crash/,但是同样的事情,要么是空的,要么是我重新启动的日志。
我环顾了一下这个网站,人们通常认为这可能是一个硬件问题,但我从来没有遇到过在Windows 10上一夜之间运行这个系统的问题,当时它是我的主要设置。
我试过的是:
我的系统规范是:
Ryzen 1700 @stock
16 GB CORSAIR GDDR4 @2133MHz but rated for 3200Mhz
MSI B350 Gaming PLUS MOBO
Gigabyte GTX 1080
Samsung 960 EVO 512GB nVme SSD
650W corsair power supply
Plenty of cooling如果你们中的任何人对如何诊断我的设置有任何指导或建议,或者我可以尝试更多的步骤,我将非常感激。
谢谢你的帮忙
在进一步挖掘了有关ubuntu和冻结的信息之后,我在AMD论坛上看到了这个帖子。这表明C6状态在第1代存在问题。他们的建议是将BIOS中的电源状态切换到Typical Current Idle,这显然对C6状态有影响。我试试看是否有什么变化。
发布于 2021-03-04 22:54:51
好吧,我想我自己回答问题。
我的问题可能与Ryzen CPU对Linux不太好有关。根据这个AMD论坛胎面,很多人在Ryzen CPU和Linux上遇到了类似的问题,而在空闲的时候,使用OP报告类似问题的Reddit线程也遇到了类似的问题。在C6 CPU状态和挂起之间似乎有一个连接。
查看您的BIOS,并尝试找到电源闲置控制或全球C状态控制,并将该值从自动或低电流闲置到典型的电流闲置。
如果这没有修复它或者您没有这个选项,那么可以在这个github回购中找到另一种禁用它的方法。
我个人在我的MSI主板BIOS中有选择,应用正确的值,运行48小时没有任何问题,虽然可能有一个稍高的功耗。
这确实是一个令人沮丧的调试问题,但最终我学到了一些新东西,并使我的服务器再次稳定下来。
感谢大家的参与和分享我的成果,我希望这条线可能会对其他人有用。
发布于 2021-03-03 00:25:20
毫无疑问,这一定是一个非常令人沮丧的局面。在没有提供答案的情况下,排除故障的一个基本过程无疑是替换每个(或多个)组件(无论是硬件还是软件)。
我的题外话:我有一个Xigmanas系统,它可以运行几天或几个星期,直到外部数组冻结,甚至试图在文件系统上执行必要的zfs重置也不足以使系统继续工作。似乎没有理由让整个系统锁起来,但结果就是这样。移除数组,每件事都进行了几个月。
类似地,我有一个运行在大多数情况下的MacBook pro,但是当我有屏幕捕捉软件运行时,它会经常被锁定,以至于我放弃了在那台机器上使用那个软件的尝试(在其他地方都很好!)
不过,这看起来确实是一个虚幻的硬件问题,也许只有在某些软件配置下才能展示出来。
简单地说-尝试不同的设置,如果没有其他原因,只是进一步的问题隔离。尝试Debian发行版或CentOS (此处插入关于操作系统选择的其他注释)。是否有使用20.04的关键原因?
除非您有其他兼容的备用硬件(HD、内存、MB等),否则更改操作系统必须是最容易的。
对不起,这不是魔术“这是答案或显而易见的路径到日志文件与答案”答案。:)
发布于 2021-03-03 01:55:09
我也有同样的问题。我已经尝试了很多方法来解决这个问题,但是没有什么效果。Insead我确实安装了Ubuntu20.04的其他版本,即Ubuntu20.04.2.0(焦窝)或Ubuntu20.10。
https://askubuntu.com/questions/1320650
复制相似问题