前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【2021微信大数据挑战赛】常见问题之TI-ONE平台使用相关

【2021微信大数据挑战赛】常见问题之TI-ONE平台使用相关

原创
作者头像
腾讯云TI平台
修改2021-07-19 18:33:36
2.7K0
修改2021-07-19 18:33:36
举报
文章被收录于专栏:腾讯云TI平台腾讯云TI平台
  • CUDA环境怎么安装?

TI-ONE平台安装cuda指引:https://cloud.tencent.com/developer/article/1845781

先切到root(sudo su root) 再安装,安装失败看看安装日志。该指引只测试过安装cuda10.1,其他版本没测试过。但TI-ONE不支持安装Nvidia 驱动,因此大家需要根据现有驱动版本 来看具体可以安装哪些cuda版本。

  • cudnn环境怎么安装?

① 自定义环境可执行conda install cudnn cudatoolkit=10.1,版本可按照所需库对应关系设定,安装完可从对应conda环境的lib中看到库文件

② 使用系统默认环境(非conda环境配置)时,/usr/local/下是没有cuda库文件的,若需映射到/usr/local/cuda 路径下,则按照cuda安装指引完成cuda安装,在nvidia官网下载对应cudnn版本解压, 拷贝lib64目录和include/cudnn.h文件到/usr/local/cuda/lib64/和/usr/local/cuda/include/,然后配置环境并更新即可。

  • 安装onnxruntime-gpu出错,导入出现问题:OSError: libcublas.so.10.0: cannot open shared object file: No such file or directory?

自定义conda环境的cuda需正确安装,可使用conda install cudnn cudatoolkit=10.1命令安装后,用pip install onnxruntime-gpu==1.2命令安装1.2版本,经验证1.2版本可用

onnxruntime-gpu版本与cuda,cudnn的版本关系详见:https://www.onnxruntime.ai/docs/reference/execution-providers/CUDA-ExecutionProvider.html#requirements

  • 在提供的环境下,安装torch 1.7无法使用GPU?

需根据cuda版本(系统默认为cuda 10.1版本)来选择相应的torch安装版本,具体安装命令可查询 https://pytorch.org/get-started/previous-versions/

附1.7.1安装命令:

conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.1 -c pytorch

备注:如是GPU调用出错问题,请附报错log。

  • 平台提供的Cuda 10.1为什么tf2.1 2.2 2.3无法使用gpu, 只有tf2.0可以?

系统默认cuda 10.1版本对应的tf版本有2.1(python版本2.7,3.5~3.7),2.2(python版本3.5~3.8),2.3(python版本3.5~3.8),默认tf虚拟环境安装了cuda 10.0 cudnn7.6 tf2.0,所以只有2.0能用gpu,自定义虚拟环境时需要在conda环境下重新安装对应的cuda cudnn tf版本

具体版本关系可查看tf官网https://tensorflow.google.cn/install/source

  • 使用的默认环境,pytorch 可以正常训练模型,安装环境时出现错误OSError: CUDA_HOME environment variable is not set. Please set it to your CUDA install root,在/usr/local/ 下没看到cuda文件?

① conda环境的cuda库文件存储于conda环境所在目录的lib目录中,可以自行拷贝过去并配置环境即可

② 若需在/usr/local/下的cuda文件,则需要正确安装cuda及对应的cudnn,才可以正常使用GPU

  • 是否支持安装Docker

不支持

  • 是否支持nbextensions 插件

不支持

  • 1*V100 资源只有40G内存,能否加一个1*V100 100G左右内存的资源?

不支持

  • 在notebook上有什么debug代码的方法吗?

不支持debug

  • tensorflow GPU版本 比 CPU 运行时间还长,用64核CPU,训练时看top,只使用了14个核?

计算量少的情况下GPU较CPU耗时长

  • 使用的默认环境,pytorch 可以正常训练模型,安装环境时出现错误OSError: CUDA_HOME environment variable is not set. Please set it to your CUDA install root,在/usr/local/ 下没看到cuda文件?

① conda环境的cuda库文件存储于conda环境所在目录的lib目录中,可以自行拷贝过去并配置环境即可

② 若需在/usr/local/下的cuda文件,则需要正确安装cuda及对应的cudnn,才可以正常使用GPU

  • 有没有腾讯云的conda源?

关掉外网后conda无法下载组件(腾讯云这边没有conda源),目前配cuda 10.1和cudnn7.6.5的环境,

给选手提供离线包下载上传,https://share.weiyun.com/Y7iiYybq,其他组件使用pip制定腾讯云源可安装,例如:pip install numpy -i http://mirrors.tencentyun.com/pypi/simple

  • 请问下在这个notebook实例里面要怎么释放缓存cache?

notebook无法释放缓存,根因是container无权限执行系统drop命令,建议选手优化代码尝试

传送门

赛事教程汇总专题

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 TI 平台
腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档