概述
TKE 弹性推理服务专为模型推理服务建设了平台资源管理架构。通过资源管理功能,您可以将已有的 CVM 实例资源进行统一纳管,实现算力的集中。平台通过应用集群 - 资源组 - CVM 实例结构对资源进行组织,让您可以灵活地编排异构算力,并以极低的运维成本支撑上层推理业务的部署与生命周期管理。
核心概念
应用集群:进行资源管理和推理服务部署的最高逻辑单元。其底层是一个经过平台封装的标准 Kubernetes 集群,无需进行额外运维操作。
资源组:在应用集群内对 CVM 实例进行逻辑分组的单位,支持将不同规格和型号的异构 CVM 实例在一个集群下灵活编排。
CVM 实例:提供计算能力的计算单元,由资源组统一管理和调度。
前提条件
在开始进行资源管理操作前,请确保您已满足以下条件:
您已通过 内测申请问卷 填写申请并成功开通弹性推理服务平台。
您计划纳管的 CVM 实例已经存在,且与您计划创建的应用集群位于同一个私有网络(VPC)内。
您已拥有腾讯云账号,并具备对相关云资源(如集群、CVM 等)的操作权限。
操作步骤
一个典型的资源管理工作流包含创建应用集群 > 创建资源组 > 导入 CVM 节点三个主要步骤。
创建应用集群
1. 登录 容器服务控制台,选择左侧导航栏中的弹性推理服务。
2. 在左侧导航栏中,选择资源管理,进入推理集群列表页面。
3. 单击页面左上角的新建推理集群。
4. 在弹出的配置页面中,填写集群信息。

集群名称:输入自定义的集群名称,例如 my-inference-cluster。
集群描述:填写集群的描述信息,便于后续识别和管理,此项为选填。
VPC网络:为集群选择一个合适的私有网络。
注意:
VPC 一旦选定后不可更改,且后续只能导入此 VPC 内的 CVM 实例,请谨慎规划您的网络。
容器子网:为集群选择至少一个可用的子网。
腾讯云标签:根据需要为集群添加标签。
日志采集:开启后将自动推送推理服务日志到对应的日志集及日志主题,目前只支持配置已有日志集及日志主题。详情请参见 TKE 弹性推理服务可观测性。
Prometheus 监控服务:开启后,您可以按照实际需求灵活配置数据采集规则,其中基础指标永久免费提供监控,配置完成后即可在弹性推理服务平台查看监控数据,详情请参见 TKE 弹性推理服务可观测性。
5. 确认配置无误后,单击确定。您将返回集群列表页面,并看到新创建的集群状态为“创建中”。
说明:
默认情况下,每个账户最多支持创建5个应用集群。
创建资源组
1. 在推理集群列表中,单击您刚刚创建的集群 ID,进入其资源组列表页面。
2. 单击新建资源组。
3. 在弹出的窗口中,输入资源组名称和备注。
4. 单击确定,完成资源组的创建。

向资源组中导入 CVM 节点
警告:
在导入 CVM 机器前,请您务必了解以下关键信息,以免造成数据丢失或管理问题:
数据将被清除:为了确保环境的一致性,导入的 CVM 机器需要重装操作系统,其系统盘上的所有数据都将被清除。请在操作前务必做好数据备份。
登录将被限制:为实现统一管理并保障平台安全,导入弹性推理服务的 CVM 实例将限制用户通过常规方式直接登录。
项目将自动归属:导入操作完成后,CVM 实例的所属项目将自动变更为应用集群所指定的项目。
完成资源组创建后,您可以将已购买的 CVM 实例添加到组内,作为推理服务的算力资源。
1. 在资源组列表中,找到您需要操作的资源组,单击其右侧的添加机器。

2. 在弹出的机器列表中,勾选您希望导入的 CVM 实例。
列表将自动筛选出与应用集群在同一个 VPC 下的所有 CVM 实例。
已添加至其他集群的 CVM 实例不可重复添加。
3. 在添加 GPU 机器界面,参考以下提示进行配置:

4. 确认配置后,单击添加到资源组,开始导入过程。
后续操作
查看资源列表与详情
您可以在推理集群列表页查看所有集群的概览信息,包括集群 ID,运行状态、资源组数和机器数、创建时间等。
单击特定的集群 ID,可以查看该集群下的资源组列表,了解每个资源组的机器运行情况和少量监控信息。
单击特定的资源组 ID,可以进入资源组详情界面,查看该资源组的基本信息、监控信息、资源组下的机器列表以及部署在该资源组上的推理服务列表。
移除 CVM 实例
1. 在推理集群列表页单击集群 ID 进入资源组列表页。
2. 单击资源组名称,进入资源组详情界面。
3. 选择需要移除的 CVM 实例,单击列表中的移除。

4. 在确认弹窗中单击确定。被移除的机器将从弹性推理服务中解绑(但并不会销毁节点),并清除其上由弹性推理服务安装的相关组件。
删除资源组和应用集群
删除资源组:在资源组列表中,找到您需要操作的资源组,单击其右侧
,在弹框中点击删除。只有当资源组内没有任何 CVM 实例时 ,才允许被删除,请务必在删除资源组前将其中的所有机器先行移除。


删除应用集群:在推理集群列表中,找到您需要操作的集群,在右侧操作栏点击删除。只有当应用集群内没有任何资源组和 CVM 实例时,才允许被删除,请务必在删除集群前将其中的所有资源先行移除。

常见问题
为什么我需要先创建“应用集群”,再创建“资源组”?可以直接把 CVM 加到集群里吗?
不可以。TKE 弹性推理服务采用三层结构是为了实现更精细化的资源管理。应用集群定义了网络和安全边界,而资源组则是在此边界内对算力进行逻辑划分和调度的关键。这种设计允许您在同一个集群中安全地管理用于不同目的(如在线/离线)的异构资源,是实现资源高效利用和隔离的基础,因此资源组是必不可少的步骤。
导入 CVM节点时,提示“已添加至其他集群”是什么意思?
这意味着您尝试导入的 CVM 实例已经被另一个 Kubernetes 集群(无论是标准的 TKE 集群还是其他的应用集群)所管理。由于一个计算节点在同一时间只能被一个 Kubernetes 集群控制,因此您无法将其重复导入。请先将该节点从原集群中移除,然后再尝试导入弹性推理服务。
相关文档
关于Prometheus监控服务详情,请参见 Prometheus 监控概述。
关于如何使用弹性推理服务的监控服务,请参见 TKE 弹性推理服务可观测性。
关于如何使用应用集群和资源组部署推理服务,请参见 推理服务。