文章/答案/技术大牛

发布

社区首页 >问答首页 >从APEI通用硬件错误源理解“硬件错误”错误消息

问从APEI通用硬件错误源理解“硬件错误”错误消息
EN

Unix & Linux用户

提问于 2015-02-25 02:11:47

回答 2查看 11.2K关注 0票数 3

摘要:我试图准确地理解以下错误消息的含义：

[17016.923750] {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[17016.923758] {4}[Hardware Error]: It has been corrected by h/w and requires no further action
[17016.923759] {4}[Hardware Error]: event severity: corrected
[17016.923761] {4}[Hardware Error]:  Error 0, type: corrected
[17016.923762] {4}[Hardware Error]:  fru_text: CorrectedErr
[17016.923764] {4}[Hardware Error]:   section_type: memory error

详细信息

我有一个运行Arch (3.18.6-1-ARCH #1 SMP PREEMPT Sat Feb 7 08:44:05 CET 2015 x86_64 GNU/Linux)的带有Intel(R) Xeon(R) CPU E3-1275 v3 @ 3.50GHz CPU的服务器。

当我运行dmesg时，我看到了上面发布的错误。这些错误并没有那么频繁，但它们似乎一直在发生。例如，自上次重新启动以来，服务器已经运行了1天，日志中列出了该错误的9个实例。

我看到了被问到这个错误的另一个问题，并且有一个答案表明问题在于ECC内存正在失败。

我的问题是：

1)是否有任何参考来支持此错误消息与ECC内存相关联的观点？

2)如果我有一个失败的DIMM，有没有建议的方法来确定它是哪一个？我试着运行memtest86+，但是它没有报告任何内存错误。

3)如果操作系统报告ECC错误已得到纠正，这是否真的意味着DIMM正在失败？

如果唯一的问题是日志文件中的几条消息，我就不会那么担心了。但我也注意到，有时服务器会意外地挂起。这台机器正被用于研究，如果它是一个生产系统，那么它的稳定性就不那么重要了。仍然让机器挂起是有问题的。因此，我想确切地知道这个错误消息意味着什么，如果我需要替换一个组件，如果有一种方法可以确定哪个组件需要替换，那就太好了。

编辑

目前，服务器已经运行了8天，没有挂起，我在日志中看到了148个错误消息的实例。此外，我还看到以下消息的一个实例：

[671211.188084] EDAC MC0: INTERNAL ERROR: csrow value is out of range (6 >= 4)
[671211.188333] EDAC MC0: 1 CE ie31200 CE on unknown memory (channel:1 page:0x0 offset:0x0 grain:0 syndrome:0xc8)

我想其中一个DIMM可能有问题。不过，我还是很想知道，万一有人知道如何解释这些消息，尤其是为了找出哪个DIMM可能失败了，我会很感兴趣。

logs

hardware

ecc

回答 2

Unix & Linux用户

发布于 2017-12-05 21:08:45

FYI似乎也有类似的问题。它是在Xeon上使用的Debian最近从Wheezy升级到Jessie。

结果，解决方案是把内存拿出来，重新分配，一切都恢复正常了。

票数 1

Unix & Linux用户

发布于 2015-12-07 14:31:05

据我所知，这个错误是正常的。与UEFI有关。需要修改内核以消除错误，但显然它是无害的。

票数 0

页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://unix.stackexchange.com/questions/186724

复制

相似问题

问从APEI通用硬件错误源理解“硬件错误”错误消息
EN

详细信息

编辑

回答 2

Unix & Linux用户

Unix & Linux用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从APEI通用硬件错误源理解“硬件错误”错误消息EN

详细信息

编辑

回答 2

Unix & Linux用户

Unix & Linux用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从APEI通用硬件错误源理解“硬件错误”错误消息
EN