我有个问题。有没有可能用UBUNTU操作系统来识别哪个插槽中有一个坏掉的GPU卡?我们有一个SuperMicro GPU服务器,其中有大约8 GPU卡用于人工智能计算。在从用户/部门获得信息后,我们不时地去服务器室,在'nvidia-smi‘命令中看不到卡。这些通常是硬件故障。然后,我们会遇到这样一种情况,即7张卡正常工作,不幸的是,我们必须通过从服务器上提取错误卡来识别错误卡。这是非常繁琐和耗时的,所以我想知道是否有可能明确地识别出故障卡所在的插槽。
提前谢谢你。
发布于 2021-12-10 17:32:07
一般来说,如果您能够找到这个卡的PCI总线地址,您可以找到它所占用的精确插槽。遍历dmidecode输出并查找该PCI地址出现在哪个插槽中。
但是,只有当您确信DMI中的PCI插槽编号是可预测的,并且与主板上的实际物理插槽相对应时,这才有帮助。品牌电脑(HPE,戴尔等)情况往往是这样的。如果主板是由信誉较差的品牌制造的,那么它的DMI数据可能就不同步了。然而,这是值得一试的。
https://serverfault.com/questions/1085947
复制相似问题