CUDA/caffe ERROR:cudaGetDeviceCount returned 30/35,Check failed: error == cudaSuccess (30/35 vs. 0)

解决方法

在双显卡系统中,cuda运行时NVIDAI显卡必须是当前使用的显卡,否则无法获取GPU设备,cudaGetDeviceCount函数会报错,错误码35。 使用nvidia-prime切换到N卡时,如果只是按照提示logout,再重新login是不行的,必须重启系统,否则会报错,错误码30。 caffe的问题也是同样的道理,因为caffe也要调用cuda的cudaGetDeviceCount函数获取GPU设备。

问题解决过程

环境:ubuntu16+nvidia-378 driver+cuda8.0+cudnn5.1+GTX965M显卡 成功安装cuda 8.0,也正常编译了Caffe以后,执行mnist训练程序来测试一下,然鹅报错了:

$ ./build/tools/caffe train –solver=examples/mnist/lenet_solver.prototxt I0312 22:15:25.125078 2171 caffe.cpp:217] Using GPUs 0 I0312 22:15:25.126852 2171 caffe.cpp:222] GPU 0: 0 cg� F0312 22:15:25.127008 2171 common.cpp:151] Check failed: error == cudaSuccess (35 vs. 0) CUDA driver version is insufficient for CUDA runtime version * Check failure stack trace: * @ 0x7f1bb831c5cd google::LogMessage::Fail() @ 0x7f1bb831e433 google::LogMessage::SendToLog() @ 0x7f1bb831c15b google::LogMessage::Flush() @ 0x7f1bb831ee1e google::LogMessageFatal::~LogMessageFatal() @ 0x7f1bb8882192 caffe::Caffe::SetDevice() @ 0x40c950 train() @ 0x4088e8 main @ 0x7f1bb6a51830 __libc_start_main @ 0x4091b9 _start @ (nil) (unknown) 已放弃 (核心已转储)

显然是cuda的问题,于是执行cuda samples程序中的deviceQuery,果然也是报错,,错误码35:

$ ./NVIDIA_CUDA-8.0_Samples/bin/x86_64/linux/release/deviceQuery ./NVIDIA_CUDA-8.0_Samples/bin/x86_64/linux/release/deviceQuery Starting… CUDA Device Query (Runtime API) version (CUDART static linking) cudaGetDeviceCount returned 35 -> CUDA driver version is insufficient for CUDA runtime version Result = FAIL

笔记本电脑是双显卡(i7 cpu有集成显卡),猜测应该是NVIDIA显卡没启用,执行nvidia-setting,在PRIME profile中果然显示当前使用的是Intel 集成显卡,于是切换到nvidia显卡。

PRIME切换到nvidia显卡时提示要logout才能生效,于是登出再重新登录,再执行上面的mnist训练,还是报错,执行deviceQuery也报错,不过这次错误不一样了,错误代码30。

$ ./build/tools/caffe train –solver=examples/mnist/lenet_solver.prototxt I0312 22:17:46.619762 3469 caffe.cpp:217] Using GPUs 0 I0312 22:17:46.639750 3469 caffe.cpp:222] GPU 0:  1(� F0312 22:17:46.639799 3469 common.cpp:151] Check failed: error == cudaSuccess (30 vs. 0) unknown error * Check failure stack trace: * @ 0x7fe1702315cd google::LogMessage::Fail() @ 0x7fe170233433 google::LogMessage::SendToLog() @ 0x7fe17023115b google::LogMessage::Flush() @ 0x7fe170233e1e google::LogMessageFatal::~LogMessageFatal() @ 0x7fe170797192 caffe::Caffe::SetDevice() @ 0x40c950 train() @ 0x4088e8 main @ 0x7fe16e966830 __libc_start_main @ 0x4091b9 _start @ (nil) (unknown) 已放弃 (核心已转储) $ ./NVIDIA_CUDA-8.0_Samples/bin/x86_64/linux/release/deviceQuery ./NVIDIA_CUDA-8.0_Samples/bin/x86_64/linux/release/deviceQuery Starting… CUDA Device Query (Runtime API) version (CUDART static linking) cudaGetDeviceCount returned 30 -> unknown error Result = FAIL

要想到切换显卡时没有重启系统,是不是这个原因生成的呢?于是sudo reboot重启电脑,再次进入,执行deviceQuery就正常了

再执行mnist训练也正常了。 尼玛这PRIME的提示妥妥的是坑爹嘛,你直接提示切换显卡要reboot不就成了嘛 ,logout显然不管用嘛。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Jerry的SAP技术分享

我用ABAP做过的那些无聊的事情

Jerry的成都同事李贝宁(Li Ben), 《SAP成都研究院李三郎:SCP Application Router简介》的作者,有一次11月份的时候和Jerr...

1062
来自专栏PPV课数据科学社区

Python学习手册:Pandas快速检查表

之前有发过一篇Python学习手册:NumPy快速参考表 ,可做系列文章参考学习。 在Python语言里,Pandas库是数据科学家进行数据处理和数据分析最常用...

2796
来自专栏施炯的IoT开发专栏

//build->//learn->//publish

在今年的Build大会上,微软发布了Windows Phone 8.1,以及universal Windows apps开发策略。在接下来的两个月中,会有两个全...

17910
来自专栏量子位

一行代码,Pandas秒变分布式,快速处理TB级数据

刚刚在Pandas上为十几KB的数据做好了测试写好了处理脚本,上百TB的同类大型数据集摆到了面前。这时候,你可能面临着一个两难的选择: 继续用Pandas?可能...

3886
来自专栏王金龙的专栏

编程语言中那些有趣的命名

      学习NodeJS的时候,一定会用到其包管理器npm。npm的字面意思是node package manager,实际的含义也是这样,但是npm真正的...

732
来自专栏生信技能树

dbSNFP数据库发展历程

1565
来自专栏大数据挖掘DT机器学习

Python爬取链家网数据:新房楼盘价格分析

本文将详细讲解利用python爬虫收集了链家网800多条公开数据并作简单分析。数据真实性有待考查,本文仅作为数据分析入门者参考。 安装环境 Window 10 ...

3525
来自专栏GIS讲堂

“GIS讲堂”第十课—WEBGIS中的地图图例

图例是集中于地图一角或一侧的地图上各种符号和颜色所代表内容与指标的说明,有助于更好的认识地图。它具有双重任务,在编图时作为图解表示地图内容的准绳,用图时作为必不...

641
来自专栏吴伟祥

KiB、MiB与KB、MB的区别 原

 今天认真了一下,发现两者还是有区别的,具体的差别是MB等单位以10为底数的指数,MiB是以2为底数的指数。

873
来自专栏CreateAMind

Sim-to-Real: 仿真训练直接迁移到真实机器人

531

扫码关注云+社区