首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >无法识别平台GPU的NUMA节点

无法识别平台GPU的NUMA节点
EN

Stack Overflow用户
提问于 2019-04-04 08:26:00
回答 2查看 5.5K关注 0票数 2

我试图让Tensorflow在我的机器上启动,但是我总是被一个“无法识别NUMA节点”的错误消息所困扰。

我使用Conda环境:

  • tensorflow-gpu 1.12.0
  • cudatoolkit 9.0
  • cudnn 7.1.2
  • nvidia-smi说:驱动程序版本418.43,数据自动化系统版本10.1

以下是错误代码:

代码语言:javascript
运行
复制
>>> import tensorflow as tf
>>> tf.Session()
2019-04-04 09:56:59.851321: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: SSE4.1 SSE4.2 AVX AVX2 FMA
2019-04-04 09:56:59.950066: E tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:950] could not open file to read NUMA node: /sys/bus/pci/devices/0000:01:00.0/numa_node
Your kernel may have been built without NUMA support.
2019-04-04 09:56:59.950762: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1432] Found device 0 with properties: 
name: GeForce GTX 750 Ti major: 5 minor: 0 memoryClockRate(GHz): 1.0845
pciBusID: 0000:01:00.0
totalMemory: 1.95GiB freeMemory: 1.84GiB
2019-04-04 09:56:59.950794: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1511] Adding visible gpu devices: 0
2019-04-04 09:59:45.338767: I tensorflow/core/common_runtime/gpu/gpu_device.cc:982] Device interconnect StreamExecutor with strength 1 edge matrix:
2019-04-04 09:59:45.338799: I tensorflow/core/common_runtime/gpu/gpu_device.cc:988]      0 
2019-04-04 09:59:45.338810: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1001] 0:   N 
2019-04-04 09:59:45.339017: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1193] Could not identify NUMA node of platform GPU id 0, defaulting to 0.  Your kernel may not have been built with NUMA support.
terminate called after throwing an instance of 'std::bad_alloc'
  what():  std::bad_alloc

不幸的是,我不知道如何处理错误代码。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-04-08 06:57:28

我可以用一个新的conda环境来修复它:

代码语言:javascript
运行
复制
conda create --name tf python=3
conda activate tf
conda install cudatoolkit=9.0 tensorflow-gpu=1.11.0

这里提供了一张兼容的CUDA/TF组合表。在我的例子中,cudatoolkit=9.0和tensorflow-gpu=1.12的组合,莫名其妙地导致了std::bad_alloc错误。但是,cudatoolkit=9.0和tensorflow-gpu=1.11.0工作得很好。

票数 1
EN

Stack Overflow用户

发布于 2022-01-24 10:06:24

我也遇到了同样的问题,最后我发现这是因为你用Adam来优化模型。一旦使用了另一个优化器,它就会工作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55511186

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档