文章/答案/技术大牛

发布

社区首页 >问答首页 >Proxmox系统崩溃日报

问Proxmox系统崩溃日报
EN

Unix & Linux用户

提问于 2019-04-30 16:33:35

回答 1查看 1K关注 0票数 -1

我早上一直有系统故障。在00点到08点之间。

看看日志，看起来每个核心都会减速到爬行，并最终崩溃，直到整个系统结冰。从第一个错误到系统崩溃，大约有25分钟。这些错误导致我思考内存问题，但我不确定这是否仅仅是因为其他一些失败。

该系统是超级微型X9DRW-IF与双E5-2630 V2和16X 8GB DDR3

OS是Proxmox最新版本

内核：

Linux pve1 4.15.18-10-pve #1 SMP PVE 4.15.18-32 (Sat, 19 Jan 2019)

PERF中断的时间越来越长，内存错误也开始发生。这些错误中大约有20个出现在系统冻结20分钟到一个小时之前。据我所知，PERF只是CPU节流。它以尽可能低的速度节流，此时系统会爬行。

Apr 28 07:36:05 pve1 kernel: [36497.018818] perf: interrupt took too long (6737393 > 4247631), lowering kernel.perf_event_max_sample_rate to 250
Apr 28 07:36:05 pve1 kernel: [36497.018914] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Apr 28 07:36:05 pve1 kernel: [36497.018926] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Apr 28 07:36:05 pve1 kernel: [36497.019012] {1}[Hardware Error]: event severity: corrected
Apr 28 07:36:05 pve1 kernel: [36497.019112] {1}[Hardware Error]:  Error 0, type: corrected
Apr 28 07:36:05 pve1 kernel: [36497.019115] {1}[Hardware Error]:  fru_text: CorrectedErr
Apr 28 07:36:05 pve1 kernel: [36497.019119] {1}[Hardware Error]:   section_type: memory error
Apr 28 07:36:05 pve1 kernel: [36497.019125] {1}[Hardware Error]:   node: 1 device: 0 
Apr 28 07:36:05 pve1 kernel: [36497.019128] {1}[Hardware Error]:   error_type: 2, single-bit ECC
Apr 28 07:36:05 pve1 kernel: [36497.019297] ghes_edac: Internal error: Can't find EDAC structure
Apr 28 07:36:06 pve1 pve-firewall[2311]: firewall update time (13.994 seconds)
Apr 28 07:36:10 pve1 kernel: [36502.054892] INFO: NMI handler (perf_event_nmi_handler) took too long to run: 451.489 msecs
Apr 28 07:36:17 pve1 pve-firewall[2311]: firewall update time (9.985 seconds)
Apr 28 07:36:20 pve1 pvestatd[2315]: got timeout
Apr 28 07:36:26 pve1 pvestatd[2315]: status update time (33.041 seconds)
Apr 28 07:36:28 pve1 pve-firewall[2311]: firewall update time (11.073 seconds)
Apr 28 07:36:50 pve1 kernel: [36542.038771] INFO: NMI handler (perf_event_nmi_handler) took too long to run: 451.686 msecs
Apr 28 07:36:56 pve1 pve-firewall[2311]: firewall update time (27.943 seconds)
Apr 28 07:36:56 pve1 pvestatd[2315]: status update time (30.979 seconds)
Apr 28 07:37:03 pve1 pve-firewall[2311]: firewall update time (6.031 seconds)

https://pastebin.com/9Z0A49xR

在这一点上，我只想了解一下到底发生了什么。

linux-kernel

crash

回答 1

Unix & Linux用户

回答已采纳

发布于 2019-05-03 20:43:07

我的共定位主机拉出服务器并重新分配所有的DIMM。

这种情况已经有3天没有发生了。当连接因缺少可靠连接而减慢时，似乎会有越来越多的数据损坏，直到系统崩溃，试图跳过错误的地址。一个松散的连接也可能已经开始降低内存电压，导致波动。电压保持在范围内，但当这种情况开始发生时，电压会变得不稳定。

票数 0

页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://unix.stackexchange.com/questions/516412

复制

相似问题

问Proxmox系统崩溃日报
EN

回答 1

Unix & Linux用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Proxmox系统崩溃日报EN

回答 1

Unix & Linux用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Proxmox系统崩溃日报
EN