首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

NVIDIA Tesla P100运行一段时间后,速度会下降?

昨天临下班,有个开发者在群里问:

我们先看看Tesla P100的技术规格:

这款卡是Pascal架构里最高端的专业卡。出现速度下降到一半的现象,我们只能怀疑——系统散热有问题!这个用户用的是某知名白牌系统。

先看看热心吃瓜群众的回复:

我们的建议是:

用nvidia-smi dmon,这个会输出一个持续的列表.你看下随着运行时间的增加, 频率是否下降。

有人会说为啥不直接监测温度?

其实常见的影响性能的墙有两个:一个是功耗墙, 超过了该卡当前允许的TDP上限;二个则是温度墙,超过该卡当前允许的温度上限,但无论是哪种墙,都会引起频率的下降的。功耗过大,显卡试图降低频率来降低功耗。温度过高, 显卡也试图降低频率来降低功耗.所以看频率是最直接的,开机后就允许nvidia-smi dmon,然后跑程序, 看上nvidia-smi dmon的结果一段时间, 例如10分钟. 看看期间输出的频率有无变化。

我们提出意见后,这名开发者做了尝试,然后回复如下:

并给出了截图:

让我们一起来看图说话:

pclk那个是主频(GPU频率), mclk那个是显存。

看上去是一张卡散热不良. 到80都开始thermal throttle了,关于另外一张温度低的卡, 很可能是位置好, 散热不错。

我们的建议:

交换两张卡的PCI-E槽可以快速观察是否是卡本身的问题, 还是只是位置。以及, 卡0的SM不能满载, 这往往代表他的代码需要优化(例如, 总是假定两张卡完全一样, 均衡的给两卡负载, 当一张卡降频后, 很可能另外一张卡会被连累)。

我们给出建议后,该开发者联系了他的系统供应商,回复是:

这个case再一次告诉我们:系统散热很重要!

用户在采购系统的时候,不要只在意CPU、内存、硬盘、GPU卡的价格。一味比拼价格,而完全忽视系统机构的设计,而这个往往才是服务器厂商的核心价值所在。

以华硕专用GPU服务器为例,全面升级新一代服务器平台Air-Through热空气导流架构,改善内部线路布局及加入全新BIOS级温控技术,全面提升稳定性及节能效果。通过合理布局制冷装置、服务器内部重要热量源及服务器机箱机构,使得服务器内部原先杂乱的热量被规范管理,这样机器内部的热量能被迅速带出机器外部,确保服务器内部热量不积聚。

以华硕深度学习系统ESC4000G3为例:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180809G0NC5700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券