转载请注明出处:小锋学长生活大爆炸[xfxuezhang.blog.csdn.net]
由于博主需要训练模型,因此找了一些算力租赁平台,很多平台的单卡资源都没有了,但发现“xx云”还有余量,因此直接买了。买完才发现上当了!原来还可以这样套路。
不清楚是否常见,反正我是第一次购买就踩坑了。如果你没遇到过,那我这就当给大伙一个案例提醒了。大家在租赁算力时候,建议先只买一两个小时试试看卡的性能达不达标。
从选购页面上完全看不出问题,都是正常的选参数,也没说是共享。

买完后上去跑训练,发现速度特别慢。我在自己的RTX3090上跑,每个样本只需要2秒多,而在xx云的RTX3090上直接升到了9秒左右。这相差也太大了,跟我直接用CPU跑有啥差别。

使用nvidia-smi跑一下监测,发现性能确实被大大阉割了。
watch -n 0.5 'nvidia-smi --query-gpu=utilization.gpu,clocks.gr,clocks.mem,power.draw,pstate --format=csv'
power.draw [W], clocks.current.graphics [MHz], clocks.current.memory [MHz], pstate, utilization.gpu [%] 40.28 W, 420 MHz, 405 MHz, P8, 99 % 分析:
P8:是 最低功耗 的性能状态(空闲/省电挡)
核心频率 420 MHz:正常 3090 算力全开时应该在 1600–1800 MHz
显存 405 MHz:正常 GDDR6X 有效频率是几千 MHz
功耗只有 40W 左右:一张 3090 满载应该 280–350W 很常见
也就是说,任务在疯狂跑(GPU Util 99%),但显卡一直不肯升频,死锁在最低功耗 P8,理论上性能确实会被砍掉好几倍。

所以猜测,这种算力租赁平台,可能会通过限制性能来迫使让你使用更久,从而去买更多的时间。也可能实际上共享了GPU,但是按照独占来卖给你。
我的建议是,还是得认准知名的大平台。
搞笑的是,我自己的3060都比平台上的3090快好几倍。甚至,GPU利用率都没到50%。所以,3090会比3060弱吗?


原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。