摘要:我试图准确地理解以下错误消息的含义:
[17016.923750] {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[17016.923758] {4}[Hardware Error]: It has been corrected by h/w and requires no further action
[17016.923759] {4}[Hardware Error]: event severity: corrected
[17016.923761] {4}[Hardware Error]: Error 0, type: corrected
[17016.923762] {4}[Hardware Error]: fru_text: CorrectedErr
[17016.923764] {4}[Hardware Error]: section_type: memory error
我有一个运行Arch (3.18.6-1-ARCH #1 SMP PREEMPT Sat Feb 7 08:44:05 CET 2015 x86_64 GNU/Linux
)的带有Intel(R) Xeon(R) CPU E3-1275 v3 @ 3.50GHz
CPU的服务器。
当我运行dmesg
时,我看到了上面发布的错误。这些错误并没有那么频繁,但它们似乎一直在发生。例如,自上次重新启动以来,服务器已经运行了1天,日志中列出了该错误的9个实例。
我看到了被问到这个错误的另一个问题,并且有一个答案表明问题在于ECC内存正在失败。
我的问题是:
1)是否有任何参考来支持此错误消息与ECC内存相关联的观点?
2)如果我有一个失败的DIMM,有没有建议的方法来确定它是哪一个?我试着运行memtest86+,但是它没有报告任何内存错误。
3)如果操作系统报告ECC错误已得到纠正,这是否真的意味着DIMM正在失败?
如果唯一的问题是日志文件中的几条消息,我就不会那么担心了。但我也注意到,有时服务器会意外地挂起。这台机器正被用于研究,如果它是一个生产系统,那么它的稳定性就不那么重要了。仍然让机器挂起是有问题的。因此,我想确切地知道这个错误消息意味着什么,如果我需要替换一个组件,如果有一种方法可以确定哪个组件需要替换,那就太好了。
目前,服务器已经运行了8天,没有挂起,我在日志中看到了148个错误消息的实例。此外,我还看到以下消息的一个实例:
[671211.188084] EDAC MC0: INTERNAL ERROR: csrow value is out of range (6 >= 4)
[671211.188333] EDAC MC0: 1 CE ie31200 CE on unknown memory (channel:1 page:0x0 offset:0x0 grain:0 syndrome:0xc8)
我想其中一个DIMM可能有问题。不过,我还是很想知道,万一有人知道如何解释这些消息,尤其是为了找出哪个DIMM可能失败了,我会很感兴趣。
发布于 2017-12-05 21:08:45
FYI似乎也有类似的问题。它是在Xeon上使用的Debian最近从Wheezy升级到Jessie。
结果,解决方案是把内存拿出来,重新分配,一切都恢复正常了。
发布于 2015-12-07 14:31:05
据我所知,这个错误是正常的。与UEFI有关。需要修改内核以消除错误,但显然它是无害的。
https://unix.stackexchange.com/questions/186724
复制相似问题