首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从APEI通用硬件错误源理解“硬件错误”错误消息

从APEI通用硬件错误源理解“硬件错误”错误消息
EN

Unix & Linux用户
提问于 2015-02-25 02:11:47
回答 2查看 11.2K关注 0票数 3

摘要:我试图准确地理解以下错误消息的含义:

代码语言:javascript
运行
复制
[17016.923750] {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[17016.923758] {4}[Hardware Error]: It has been corrected by h/w and requires no further action
[17016.923759] {4}[Hardware Error]: event severity: corrected
[17016.923761] {4}[Hardware Error]:  Error 0, type: corrected
[17016.923762] {4}[Hardware Error]:  fru_text: CorrectedErr
[17016.923764] {4}[Hardware Error]:   section_type: memory error

详细信息

我有一个运行Arch (3.18.6-1-ARCH #1 SMP PREEMPT Sat Feb 7 08:44:05 CET 2015 x86_64 GNU/Linux)的带有Intel(R) Xeon(R) CPU E3-1275 v3 @ 3.50GHz CPU的服务器。

当我运行dmesg时,我看到了上面发布的错误。这些错误并没有那么频繁,但它们似乎一直在发生。例如,自上次重新启动以来,服务器已经运行了1天,日志中列出了该错误的9个实例。

我看到了被问到这个错误的另一个问题,并且有一个答案表明问题在于ECC内存正在失败。

我的问题是:

1)是否有任何参考来支持此错误消息与ECC内存相关联的观点?

2)如果我有一个失败的DIMM,有没有建议的方法来确定它是哪一个?我试着运行memtest86+,但是它没有报告任何内存错误。

3)如果操作系统报告ECC错误已得到纠正,这是否真的意味着DIMM正在失败?

如果唯一的问题是日志文件中的几条消息,我就不会那么担心了。但我也注意到,有时服务器会意外地挂起。这台机器正被用于研究,如果它是一个生产系统,那么它的稳定性就不那么重要了。仍然让机器挂起是有问题的。因此,我想确切地知道这个错误消息意味着什么,如果我需要替换一个组件,如果有一种方法可以确定哪个组件需要替换,那就太好了。

编辑

目前,服务器已经运行了8天,没有挂起,我在日志中看到了148个错误消息的实例。此外,我还看到以下消息的一个实例:

代码语言:javascript
运行
复制
[671211.188084] EDAC MC0: INTERNAL ERROR: csrow value is out of range (6 >= 4)
[671211.188333] EDAC MC0: 1 CE ie31200 CE on unknown memory (channel:1 page:0x0 offset:0x0 grain:0 syndrome:0xc8)

我想其中一个DIMM可能有问题。不过,我还是很想知道,万一有人知道如何解释这些消息,尤其是为了找出哪个DIMM可能失败了,我会很感兴趣。

EN

回答 2

Unix & Linux用户

发布于 2017-12-05 21:08:45

FYI似乎也有类似的问题。它是在Xeon上使用的Debian最近从Wheezy升级到Jessie。

结果,解决方案是把内存拿出来,重新分配,一切都恢复正常了。

票数 1
EN

Unix & Linux用户

发布于 2015-12-07 14:31:05

据我所知,这个错误是正常的。与UEFI有关。需要修改内核以消除错误,但显然它是无害的。

票数 0
EN
页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://unix.stackexchange.com/questions/186724

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档