首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用UBUNTU命令识别服务器中出现故障的GPU卡插槽?

如何使用UBUNTU命令识别服务器中出现故障的GPU卡插槽?
EN

Server Fault用户
提问于 2021-12-10 16:08:53
回答 1查看 170关注 0票数 0

我有个问题。有没有可能用UBUNTU操作系统来识别哪个插槽中有一个坏掉的GPU卡?我们有一个SuperMicro GPU服务器,其中有大约8 GPU卡用于人工智能计算。在从用户/部门获得信息后,我们不时地去服务器室,在'nvidia-smi‘命令中看不到卡。这些通常是硬件故障。然后,我们会遇到这样一种情况,即7张卡正常工作,不幸的是,我们必须通过从服务器上提取错误卡来识别错误卡。这是非常繁琐和耗时的,所以我想知道是否有可能明确地识别出故障卡所在的插槽。

提前谢谢你。

EN

回答 1

Server Fault用户

发布于 2021-12-10 17:32:07

一般来说,如果您能够找到这个卡的PCI总线地址,您可以找到它所占用的精确插槽。遍历dmidecode输出并查找该PCI地址出现在哪个插槽中。

但是,只有当您确信DMI中的PCI插槽编号是可预测的,并且与主板上的实际物理插槽相对应时,这才有帮助。品牌电脑(HPE,戴尔等)情况往往是这样的。如果主板是由信誉较差的品牌制造的,那么它的DMI数据可能就不同步了。然而,这是值得一试的。

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/1085947

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档