前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GPU fieldiag 介绍

GPU fieldiag 介绍

原创
作者头像
用户10922768
发布2024-05-27 15:35:35
1710
发布2024-05-27 15:35:35

文档描述

NV官方当前以fieldiag的结果做为RMA的标准,现场对GPU最通用的压测手段也是fieldiag,那么此工具具体测试的内容有哪些?本文档对具体测试内容进行了一个简单介绍。

工具特征

该工具对不同型号,不同形态的GPU均支持使用fieldiag压测。各个厂商针对不同的GPU都有匹配的fieldiag工具。

相关背景

在了解关于GPU 压测的内容之前,可以通过链接熟悉一下当前重要GPU的信息

可以登录 nv 官网查看

做好fieldiag工具U盘,进入对应的压测OS之后,可执行以下命令执行压测。

1./fieldiag.sh <option>

常见Option

Description

--help

命令帮助,打印相关参数

--sit

执行System Integration Test(系统简易检查)

--test

用来执行指定的测试(例如gpumem)

--level1

Run the comprehensive Level I suite of tests

--level2

Run the comprehensive Level Il suite of tests

检测步骤

总体上来看fieldiag压测内容由以下test组成:

测试名称/模组

测试时长

SIT

Level 1

Level 2

测试描述

skucheck

~15min

Supported

Supported

Supported

System level check of components against expected versionsGPU基本配置&信息检查

connectivity

~16min

Supported

Supported

Supported

Sanity checks to validate:1. NVLinks are physically present2. PCIE link speeds/width at all depths match POR3. Power connections to GPUscan sustain powerstress workload链接可靠性检查

gpumem

~5min

N/A

Supported

Supported

GPU memory and interface (FBIO) tests显存和驱动接口检测

cudacores

~9min

N/A

Supported

Supported

CUDA core feature testscuda核心检测

pcie

~13min

N/A

Supported

Supported

PCIE bandwidth speed switching, eye diagram testsPCIE带宽检测,眼图检测

nvlink

~24min

N/A

Supported

Supported

NVLink bandwidth,eye diagram testsnvlink带宽检测,眼图检测

nvswitch

~13min

N/A

Supported

Supported

NVLink bandwidth,eye diagram tests targeting NVSwitchesnvlink带宽,switch眼图检测

gpustress

~7min

N/A

Supported

Supported

GPU stress testsGPU压测

power

~24min

N/A

Supported

Supported

Stress power on system components(GPU NVSwitch)供电压测

thermal

~2h 16min

N/A

N/A

Supported

Stress thermal on system components(GPU, NVSwitch)温度压测

Total time

N/A

~34min

~2h 9min

~4h 25min

N/A

相关资料:关于eye diagram:https://knowledge.ni.com/KnowledgeArticleDetails?id=kA00Z0000015BcPSAU&l=en-US

检测完成后会输出压测结果和一份压测日志,日志名称logs-yyyymmdd-hhnnss.tgz

最终有三种结果:PASS FAIL RETEST

pass即压测通过,GPU&链路正常;

fail则可以通过日志观察到是哪颗GPU的哪一项压测未通过并及时更换;

因异常设置导致无法开始压测时会显示retest;

总结

fieldiag总体上能对GPU,GPU链路,CUDA核心,GPU供电和温度,关联接口等进行压测,涉及一些资料可以参考链接,当前文档主要是介绍HGX 8-GPU(Ampere&Hooper)模组的压测内容

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 文档描述
  • 工具特征
  • 相关背景
  • 检测步骤
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档