我想启动一个默认安装了EC2的linux实例。像Ubuntu这样的东西,我可以在其中启动,然后使用VNC进行配置。
我观察了所有可用的AMI,我能做的最接近的事情是:
SuSE Linux Enterprise Server 11 sp3 (HVM) - ami-xxxxxxx
SuSE Linux Enterprise Server 11 Service Pack 3 (HVM), EBS-backed. Nvidia driver installs automatically during startup for GPU instances.
我假设这具有图形功能,但您知道他们是怎么说假
我在Nvidia Quadro FX 3800工作站上安装CUDA7.0(与TensorFlow一起使用)有困难。我想知道这是不是因为GPU不再受支持了。
驱动程序(340.96)的安装工作正常:
$ sh ./NVIDIA-Linux-x86_64-340.96.run
Installation of the NVIDIA Accelerated Graphics Driver for Linux-x86_64
(version: 340.96) is now complete. Please update your XF86Config or
xorg.conf file as appr
代码是在windows中开发的,但是当我在linux下用nvcc编译代码时,它给出了错误:
cutil_inline.h:没有这样的文件或目录。
我的机器中的PATH是:
# User specific aliases and functions
export PATH=/usr/local/cuda/bin:/usr/local/NVIDIA_GPU_Computing_SDK:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/NVIDIA_GPU_Computing_SDK:$LD_LIBRARY_PAT
我第一次安装了ubuntu。我还为我的nvidia显卡安装了驱动程序,但当我试图通过以下方式进入设置时:
nvidia-settings
它抛出一个错误:
ERROR: Unable to load info from any available system
我试过:
nvidia-smi
输出:
Sun Nov 10 17:29:48 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.31 Driver Vers
我有CUDA8.0,我可以下载cuDNN。目前,我有cuDNN版本7.0.5的Linux。
我没有管理员权限。
当我试图为GPU安装TensorFlow版本1.4时,我得到了以下错误:
ImportError: libcudnn.so.6: cannot open shared object file: No such file or directory
我想这是因为我的机器上没有cuDNN。我根据sysadmin的建议下载了7.0.5版本,这当然不是错误消息希望我得到的版本(它需要版本6)。
所以我想,我会尝试Tensorflow版本1.5的GPU。我发现了一个错误:
ImportErro
当我使用nvidia-smi时,我发现有将近20 GPU的GPU内存丢失(列出的进程总数为17745 is,同时内存使用量为37739 is ):
然后我使用nvitop,您可以看到No Such Process实际上已经占用了我的GPU资源。但是,我不能杀死这个PID:
>>> sudo kill -9 118238
kill: (118238): No such process
我怎么才能摆脱这个鬼过程而不去干涉别人呢?