首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Tensorflow:如何实时监控GPU在模型培训中的性能?

Tensorflow:如何实时监控GPU在模型培训中的性能?
EN

Stack Overflow用户
提问于 2017-08-07 10:19:52
回答 7查看 21.7K关注 0票数 12

我是Ubuntu和GPU的新手,最近在我们的实验室使用了Ubuntu 16.04和4 NVIDIA 1080 to的新PC。这台机器还有一个i7 16核心处理器。

我有一些基本问题:

  1. Tensorflow是为GPU安装的。那么,我猜想它会自动优先考虑GPU的使用吗?如果是这样的话,它是使用所有4在一起还是使用1,然后在需要时再招募另一个?
  2. 我能实时监控GPU在模型训练中的使用/活动吗?

我完全理解这是基本的硬件内容,但对这些具体问题的明确明确答案将是很棒的。

编辑:

基于这个输出-它真的说几乎我的每个GPU上的所有内存都被使用了?

EN

回答 7

Stack Overflow用户

回答已采纳

发布于 2017-08-07 10:28:16

  1. Tensorflow不自动使用所有GPU,它只使用一个gpu,特别是第一个gpu /gpu:0 您必须编写多个gpus代码来利用所有可用的gpus。cifar mutli-gpu示例
  2. 每0.1秒检查一次使用情况 watch -n0.1 nvidia-smi
票数 19
EN

Stack Overflow用户

发布于 2017-08-07 10:28:27

  1. 如果没有其他指示,启用GPU的TensorFlow安装将默认使用第一个可用的GPU (只要您安装了Nvidia驱动程序和CUDA8.0,并且GPU有必要的计算能力根据医生的说法是3.0)。如果您想使用更多的GPU,则需要在图形中使用tf.device指令(更多关于它的这里)。
  2. 检查GPU使用情况的最简单方法是控制台工具nvidia-smi。然而,与top或其他类似的程序不同,它只显示当前的使用和完成。正如注释中所建议的那样,您可以使用类似于watch -n1 nvidia-smi的东西来连续地重新运行程序(在这种情况下,每秒钟运行一次)。
票数 4
EN

Stack Overflow用户

发布于 2020-12-17 22:38:03

我建议nvtop,它显示实时状态,比nvidia更容易观看。它也显示在一个图表中。

代码语言:javascript
复制
$ sudo apt install nvtop
$ nvtop

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45544603

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档