昨天临下班,有个开发者在群里问:
我们先看看Tesla P100的技术规格:
这款卡是Pascal架构里最高端的专业卡。出现速度下降到一半的现象,我们只能怀疑——系统散热有问题!这个用户用的是某知名白牌系统。
先看看热心吃瓜群众的回复:
我们的建议是:
用nvidia-smi dmon,这个会输出一个持续的列表.你看下随着运行时间的增加, 频率是否下降。
有人会说为啥不直接监测温度?
其实常见的影响性能的墙有两个:一个是功耗墙, 超过了该卡当前允许的TDP上限;二个则是温度墙,超过该卡当前允许的温度上限,但无论是哪种墙,都会引起频率的下降的。功耗过大,显卡试图降低频率来降低功耗。温度过高, 显卡也试图降低频率来降低功耗.所以看频率是最直接的,开机后就允许nvidia-smi dmon,然后跑程序, 看上nvidia-smi dmon的结果一段时间, 例如10分钟. 看看期间输出的频率有无变化。
我们提出意见后,这名开发者做了尝试,然后回复如下:
并给出了截图:
让我们一起来看图说话:
pclk那个是主频(GPU频率), mclk那个是显存。
看上去是一张卡散热不良. 到80都开始thermal throttle了,关于另外一张温度低的卡, 很可能是位置好, 散热不错。
我们的建议:
交换两张卡的PCI-E槽可以快速观察是否是卡本身的问题, 还是只是位置。以及, 卡0的SM不能满载, 这往往代表他的代码需要优化(例如, 总是假定两张卡完全一样, 均衡的给两卡负载, 当一张卡降频后, 很可能另外一张卡会被连累)。
我们给出建议后,该开发者联系了他的系统供应商,回复是:
这个case再一次告诉我们:系统散热很重要!
用户在采购系统的时候,不要只在意CPU、内存、硬盘、GPU卡的价格。一味比拼价格,而完全忽视系统机构的设计,而这个往往才是服务器厂商的核心价值所在。
以华硕专用GPU服务器为例,全面升级新一代服务器平台Air-Through热空气导流架构,改善内部线路布局及加入全新BIOS级温控技术,全面提升稳定性及节能效果。通过合理布局制冷装置、服务器内部重要热量源及服务器机箱机构,使得服务器内部原先杂乱的热量被规范管理,这样机器内部的热量能被迅速带出机器外部,确保服务器内部热量不积聚。
以华硕深度学习系统ESC4000G3为例:
领取专属 10元无门槛券
私享最新 技术干货