容器服务 qGPU（GPU 隔离组件）

组件介绍
组件详情请参见 qGPU 概述。
qGPU 内核模块
qgpu-manager Pod 启动时会在节点安装 qGPU 内核模块，实现显卡的共享与隔离。可以通过以下方式确认当前的版本：
1. 查看节点标签 tke.cloud.tencent.com/qgpu.version。
2. 登录节点，执行命令 cat /proc/qgpu/version。
如果节点已经安装 qGPU 模块，为避免影响存量业务，gpu-manager Pod 在启动时会跳过安装步骤。升级存量节点的 qGPU 模块，需参考以下步骤：
1. 在 TKE 控制台组件管理页面升级 qGPU 组件到最新版本（从 v1.1.1 版本起，默认安装的 qGPU 内核版本与组件版本绑定，使用高版本内核模块，需升级组件）。
2. 封锁节点，迁移使用 qGPU 的业务 Pod。
3. 登录节点卸载 qGPU 模块（卸载命令： rmmod qgpu ) ，然后删除该节点上 qgpu-manager Pod，自动重建的 Pod 启动时安装新的 qGPU 模块。
4. 在节点执行命令 cat /proc/qgpu/version， 确认 qGPU 模块安装成功。
5. （可选）创建测试 Pod，验证功能。
6. 解封节点。
7. （滚动升级）逐个节点执行步骤 2 ~ 6。
变更记录
发布时间
版本号
变更内容
限制和影响
2026-06-05
v1.1.3
修复 qgpu 调度器更新 Pod 覆盖新版本 PodSpec 下字段的问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2026-03-09
v1.1.2
修复 qGPU 指标 container_assigned_card label（container_name）的名称单词拼写错误问题。
新增 gpu_card_index_mapping 指标，用于查询 nvidia-smi 索引和设备 minor 索引编号的对应关系。
修复 qgpu-manager gc 时可能删除后来新运行的相同 qGPU ID 的 pod 设备的问题。
qGPU 内核模块升级到 v3.0.7，支持 5880、5090D 显卡。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2026-01-13
v1.1.1
qGPU 内核模块升级到 v3.0.5，支持 550+ 驱动，支持 CUDA 12.3+，支持容器使用两张共享卡。
qgpu-manager 增加检查 qGPU 算力资源的逻辑，如因某些原因导致资源数量为 0，则退出重新启动注册。
忽略镜像自带的空的 qGPU 相关环境变量，避免启动失败。
默认关闭收集显卡的 Persistence Mode 信息，避免驱动 bug 导致的 OOM 问题；修复 qGPU 节点判断逻辑错误导致未收集 qGPU 指标的问题；暴露 Pod 及容器分配的显卡信息。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-06-26
v1.0.23
修复垃圾回收时存在的时序问题，可能会导致 qGPU 设备创建后被马上回收删除，业务 Pod 无法正常使用 GPU。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-03-19
v1.0.22
优化 Completed 状态 Pod 的处理逻辑及 Update 事件的处理逻辑，避免累积导致缓存释放慢影响调度。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-03-01
v1.0.21
支持470/515小版本及525/535等高版本驱动。
支持 H800 显卡（不支持在离线混部；建议使用 CUDA 12.0+，低版本存在 qGPU 设备初始化慢的问题）。
qgpu-manager 增加检查 qGPU 资源的逻辑，如因某些原因导致资源数量为0，则退出重新启动注册。
自动安装 qgpu-exporter 组件，支持 GPU 基础监控。
升级时，保留 qgpu-scheduler 的 CPU 和内存资源设置（qgpu scheduler 占用的内存数量与集群规模有关系，需要客户根据实际情况进行设置）。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-01-24
v1.0.20
进一步收敛 qgpu-manager 权限，仅保留最小必要权限。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-12-18
v1.0.19
修复因未设置必需的 qGPU 资源请求导致 qgpu scheduler panic 问题。
调度前，检查 pod 资源是否满足限制条件，不满足则返回错误，调度失败，避免由此带来的 panic 及隔离不生效等问题。
修改 qgpu-manager updateStrategy，maxUnavailable 设置为10%，加快更新速度。
给 qgpu-installer init 容器增加资源 limit，确保 qgpu-manager Pod 是 Guaranteed，避免节点资源压力大时被优先驱逐。
修复节点发生迁移 GPU 数量变化引起的 qgpu scheduler panic 问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-11-28
v1.0.18
收敛 qgpu-manager 的权限，避免提权风险。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-08-30
v1.0.17
改进 Pod 删除时的处理逻辑，加快删除，减小 Recreate 策略的 Deployment 更新时新 Pod 调度失败的发生率。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-08-22
v1.0.16
修复 Pod 删除后变为 DeletedFinalStateUnknown 对象时强制转换为 Pod 引起 panic 的问题。
节点设置 label tke.cloud.tencent.com/qgpu-mode=base 后，安装 base 版本的 qGPU 模块，无需修改内核参数。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-06-20
v1.0.15
增加表示显存分配单位的标签 tke.cloud.tencent.com/qgpu.memory-unit，值为1G或者128M。
qGPU hook 兼容 nvidia 方案。
qGPU 内核模块安装失败时，日志中提示检查是否是支持的 GPU 类型。
支持新的 TencentOS-3.1 5.4 内核。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-05-09
v1.0.14
支持原生节点、公共镜像、16 卡、显存以 128MB 为单位。
兼容 nvidia 515(515.65.01) 驱动。
qGPU 调度器增加 /metrics 及 /caches 接口。
修复导致 qGPU 设备创建或销毁失败以及调度缓存信息不一致的问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-02-08
v1.0.13
处理 qGPU 资源为0的 Pod 时，直接返回全部节点或者打分全部为0，避免处理大量节点耗时过长，阻塞 qGPU Pod 的调度。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-12-20
v1.0.12
支持16卡。优化日志，避免打印干扰信。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-10-28
v1.0.11
删除 Pod 时，直接批量删除该 Pod 相关的指标，而不是按照容器逐个删除，避免某些情况下指标未删除的问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-10-24
v1.0.10
修复某些多卡机型上，GPU 卡序号与次设备号不一致，导致 qGPU 挂错显卡，业务无法正常运行的问题。私有化允许安装不支持混部的 base 版本 run 包，此时不需要修改内核参数及重启节点。
修复未设置 qgpu-memory 却提示缺少 qgpu-core 的问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-09-29
v1.0.9
修复 crd 引入的回归问题，该问题导致 qGPU 调度器重启后在未同步 Pod 分配信息的情况下就开始调度新 Pod，产生不一致问题。
更新 Pod 容器指标前，先清理相关数据，避免脏数据。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-09-21
v1.0.8
增加 /metrics 接口，暴露分配给 Pod 容器的 GPU 信息(node_gpu_core_request,node_gpu_memory_request_bytes; 类型 Gauge,标签"node", "gpu", "namespace", "pod", "container")，Pod 删除后，相关容器的指标即被删除。
对于各种原因遗留的 qGPU 设备，在每分钟进行的 gc 中兜底删除，避免影响创建新的 qGPU 设备。
修复 Pod 删除后同名 Pod 马上被创建和调度到同一个节点可能导致创建 qGPU 设备失败的问题。
支持原生节点安装使用 qGPU（原生节点的 qGPU 不支持在离线混部功能）。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-09-06
v1.0.7
修复 qGPU 调度器未清理已删除节点信息的问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-08-31
v1.0.6
支持使用节点的 kubeconfig 访问 apiserver (此时不能启用 crd 参数)。
支持使用 TencentOS 2.4(TK4) 公有镜像安装 qGPU。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-07-20
v1.0.5
支持使用公有镜像安装和使用 qGPU。
支持关闭给节点打 Label 的功能(--enable-label=false)。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-06-08
v1.0.3
qgpu-manager 镜像更新为 tkeimages/elastic-gpu-agent:v1.0.2。
qgpu-scheduler 镜像更新为 tkeimages/elastic-gpu-scheduler:v1.0.2。
支持使用 GPU CRD 管理 GPU 资源。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-04-21
v1.0.2
更新 qgpu-manager 镜像版本，支持自动设置所在节点的 GPU 驱动版本以及其他信息。
更新了 clusterrole qgpu-manager，增加了对 Nodes 的操作权限。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。

发布时间	版本号	变更内容	限制和影响
2026-06-05	v1.1.3	修复 qgpu 调度器更新 Pod 覆盖新版本 PodSpec 下字段的问题。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2026-03-09	v1.1.2	修复 qGPU 指标 container_assigned_card label（container_name）的名称单词拼写错误问题。新增 gpu_card_index_mapping 指标，用于查询 nvidia-smi 索引和设备 minor 索引编号的对应关系。修复 qgpu-manager gc 时可能删除后来新运行的相同 qGPU ID 的 pod 设备的问题。 qGPU 内核模块升级到 v3.0.7，支持 5880、5090D 显卡。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2026-01-13	v1.1.1	qGPU 内核模块升级到 v3.0.5，支持 550+ 驱动，支持 CUDA 12.3+，支持容器使用两张共享卡。 qgpu-manager 增加检查 qGPU 算力资源的逻辑，如因某些原因导致资源数量为 0，则退出重新启动注册。忽略镜像自带的空的 qGPU 相关环境变量，避免启动失败。默认关闭收集显卡的 Persistence Mode 信息，避免驱动 bug 导致的 OOM 问题；修复 qGPU 节点判断逻辑错误导致未收集 qGPU 指标的问题；暴露 Pod 及容器分配的显卡信息。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-06-26	v1.0.23	修复垃圾回收时存在的时序问题，可能会导致 qGPU 设备创建后被马上回收删除，业务 Pod 无法正常使用 GPU。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-03-19	v1.0.22	优化 Completed 状态 Pod 的处理逻辑及 Update 事件的处理逻辑，避免累积导致缓存释放慢影响调度。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-03-01	v1.0.21	支持470/515小版本及525/535等高版本驱动。支持 H800 显卡（不支持在离线混部；建议使用 CUDA 12.0+，低版本存在 qGPU 设备初始化慢的问题）。 qgpu-manager 增加检查 qGPU 资源的逻辑，如因某些原因导致资源数量为0，则退出重新启动注册。自动安装 qgpu-exporter 组件，支持 GPU 基础监控。升级时，保留 qgpu-scheduler 的 CPU 和内存资源设置（qgpu scheduler 占用的内存数量与集群规模有关系，需要客户根据实际情况进行设置）。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-01-24	v1.0.20	进一步收敛 qgpu-manager 权限，仅保留最小必要权限。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-12-18	v1.0.19	修复因未设置必需的 qGPU 资源请求导致 qgpu scheduler panic 问题。调度前，检查 pod 资源是否满足限制条件，不满足则返回错误，调度失败，避免由此带来的 panic 及隔离不生效等问题。修改 qgpu-manager updateStrategy，maxUnavailable 设置为10%，加快更新速度。给 qgpu-installer init 容器增加资源 limit，确保 qgpu-manager Pod 是 Guaranteed，避免节点资源压力大时被优先驱逐。修复节点发生迁移 GPU 数量变化引起的 qgpu scheduler panic 问题。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-11-28	v1.0.18	收敛 qgpu-manager 的权限，避免提权风险。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-08-30	v1.0.17	改进 Pod 删除时的处理逻辑，加快删除，减小 Recreate 策略的 Deployment 更新时新 Pod 调度失败的发生率。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-08-22	v1.0.16	修复 Pod 删除后变为 DeletedFinalStateUnknown 对象时强制转换为 Pod 引起 panic 的问题。节点设置 label tke.cloud.tencent.com/qgpu-mode=base 后，安装 base 版本的 qGPU 模块，无需修改内核参数。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-06-20	v1.0.15	增加表示显存分配单位的标签 tke.cloud.tencent.com/qgpu.memory-unit，值为1G或者128M。 qGPU hook 兼容 nvidia 方案。 qGPU 内核模块安装失败时，日志中提示检查是否是支持的 GPU 类型。支持新的 TencentOS-3.1 5.4 内核。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-05-09	v1.0.14	支持原生节点、公共镜像、16 卡、显存以 128MB 为单位。兼容 nvidia 515(515.65.01) 驱动。 qGPU 调度器增加 /metrics 及 /caches 接口。修复导致 qGPU 设备创建或销毁失败以及调度缓存信息不一致的问题。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-02-08	v1.0.13	处理 qGPU 资源为0的 Pod 时，直接返回全部节点或者打分全部为0，避免处理大量节点耗时过长，阻塞 qGPU Pod 的调度。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-12-20	v1.0.12	支持16卡。优化日志，避免打印干扰信。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-10-28	v1.0.11	删除 Pod 时，直接批量删除该 Pod 相关的指标，而不是按照容器逐个删除，避免某些情况下指标未删除的问题。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-10-24	v1.0.10	修复某些多卡机型上，GPU 卡序号与次设备号不一致，导致 qGPU 挂错显卡，业务无法正常运行的问题。私有化允许安装不支持混部的 base 版本 run 包，此时不需要修改内核参数及重启节点。修复未设置 qgpu-memory 却提示缺少 qgpu-core 的问题。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-09-29	v1.0.9	修复 crd 引入的回归问题，该问题导致 qGPU 调度器重启后在未同步 Pod 分配信息的情况下就开始调度新 Pod，产生不一致问题。更新 Pod 容器指标前，先清理相关数据，避免脏数据。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-09-21	v1.0.8	增加 /metrics 接口，暴露分配给 Pod 容器的 GPU 信息(node_gpu_core_request,node_gpu_memory_request_bytes; 类型 Gauge,标签"node", "gpu", "namespace", "pod", "container")，Pod 删除后，相关容器的指标即被删除。对于各种原因遗留的 qGPU 设备，在每分钟进行的 gc 中兜底删除，避免影响创建新的 qGPU 设备。修复 Pod 删除后同名 Pod 马上被创建和调度到同一个节点可能导致创建 qGPU 设备失败的问题。支持原生节点安装使用 qGPU（原生节点的 qGPU 不支持在离线混部功能）。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-09-06	v1.0.7	修复 qGPU 调度器未清理已删除节点信息的问题。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-08-31	v1.0.6	支持使用节点的 kubeconfig 访问 apiserver (此时不能启用 crd 参数)。支持使用 TencentOS 2.4(TK4) 公有镜像安装 qGPU。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-07-20	v1.0.5	支持使用公有镜像安装和使用 qGPU。支持关闭给节点打 Label 的功能(--enable-label=false)。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-06-08	v1.0.3	qgpu-manager 镜像更新为 tkeimages/elastic-gpu-agent:v1.0.2。 qgpu-scheduler 镜像更新为 tkeimages/elastic-gpu-scheduler:v1.0.2。支持使用 GPU CRD 管理 GPU 资源。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2022-04-21	v1.0.2	更新 qgpu-manager 镜像版本，支持自动设置所在节点的 GPU 驱动版本以及其他信息。更新了 clusterrole qgpu-manager，增加了对 Nodes 的操作权限。	此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。

qGPU（GPU 隔离组件）

本页目录：

组件介绍

qGPU 内核模块

变更记录