我一直在BMC/IPMI事件日志中遇到问题,为CPU注册过温错误(在某些情况下至关重要)。我担心这些主要是假阳性,在BMC上设置的默认传感器阈值是错误的。
硬件: RS924A-E6/RS8和4x AMD 6376 CPUs - AMD CPU提供温度控制裕度(Tctl裕度),而不是原始温度读数。我对Tctl裕度的理解是,它与0..255
相反,0
表示CPU的最高工作温度(在本例中为69 Celsius
)。本质上,我们越接近0
,CPU物理上就越热-更多的信息这里。
数据:下面两个表格提供了有关阈值和已注册事件的信息。
传感器阈值:
ID | Name | Type | Reading | Units | Lower NR | Lower C | Lower NC | Upper NC | Upper C | Upper NR | Event
1 | CPU1 Tctl Margin | Temperature | 26.00 | unspecified | -10.00 | -5.00 | 0.00 | 127.00 | 127.00 | 127.00 | 'OK'
2 | CPU2 Tctl Margin | Temperature | 26.00 | unspecified | -10.00 | -5.00 | 0.00 | 127.00 | 127.00 | 127.00 | 'OK'
活动日志:
ID | Date | Time | Name | Type | Event
1 | Mar-28-2017 | 17:25:45 | CPU1 Tctl Margin | Temperature | Upper Non-recoverable - going low ; Sensor Reading = 31.00 unspecified ; Threshold = 127.00 unspecified
2 | Apr-09-2017 | 10:12:38 | CPU1 Tctl Margin | Temperature | Upper Non-recoverable - going low ; Sensor Reading = 24.00 unspecified ; Threshold = 127.00 unspecified
正如您在上表中所看到的,CPU1
通常会遇到一个上不可恢复的温度错误.我感到困惑的是,这个错误发生在传感器读取24
(或31
)时,但阈值是127
。是BMC误解了传感器的读数,还是阈值是错的?我能做些什么来解决这个问题?
发布于 2017-05-08 15:59:22
我相信你可能曲解了课文。“变低”表示温度高于127,但现在低于它。考虑到上面列出的阈值,这似乎是正确的。
我想也不会有“走高”的事件。很可能主板根本不报告这些事件,因为它们应该是“正常的”。
https://serverfault.com/questions/847463
复制相似问题