操作场景
如果您的业务需要进行深度学习、高性能计算等场景,您可以使用腾讯云容器服务支持 GPU 功能,通过该功能可以帮助您快速使用 GPU 容器。
创建 GPU 云服务器有以下多种方式:
使用限制
添加的节点需要选择 GPU 机型,可根据需求选择自动安装 GPU 驱动,详情可参见 新建 GPU 云服务器。
TKE 仅在集群 kubernetes 版本大于1.8.*时支持使用 GPU 调度。
默认情况下,容器之间不共享 GPU,每个容器可以请求一个或多个 GPU。无法请求 GPU 的一小部分。
当前独立集群的 Master 节点暂不支持设置为 GPU 机型。
操作步骤
新建 GPU 云服务器
机型
在 “选择机型” 页面,将 “Node机型” 中的 “机型” 设置为 GPU 机型。
GPU驱动、CUDA版本、CUDNN版本
设置机型后, 可以根据需求选择 GPU 驱动的版本、CUDA 版本、CUDNN 版本。如下图所示:


说明:
勾选“后台自动安装GPU驱动”,将在系统启动时进行自动安装,预计耗时15-25分钟。
支持的驱动版本由 OS 以及 GPU 机型共同决定,详情请参见 各实例支持的 GPU 驱动版本及安装方式。
如果您未勾选“后台自动安装GPU驱动”,为了保证 GPU 机型的正常使用,针对某些低版本 OS,将会为您默认安装 GPU 驱动,完整的默认驱动版本信息可参考下表:
OS名称 | 默认安装驱动版本 |
CentOS 7.6、Ubuntu 18、Tencent Linux2.4 | 450 |
Centos 7.2(不推荐) | 384.111 |
Ubuntu 16(不推荐) | 410.79 |
MIG
开启 MIG(Multi-Instance GPU)特性后,一颗 A100 GPU 将被划分为七个独立的 GPU 实例,帮助您在多个作业并行的场景下提高 GPU 利用率,详情可参见 NVIDIA 官网指南。
注意:
使用 MIG 功能,必须满足如下限制:
GPU 机型为 GT4。
在控制台上勾选了 “后台自动安装GPU驱动” 并且配置了 GPU 版本,CUDA 版本和 CUDNN 版本。
添加已有 GPU 云服务器
在 “选择节点” 页面,勾选已有的 GPU 节点。如下图所示:


按需配置自动安装 GPU 驱动、MIG 等参数。