准备条件
确认您已开通腾讯云,并且已创建 EMR on TKE 产品中的 Ray 服务。
EMR on TKE 集群的创建详情请参见 创建集群。
实例类型:机器学习
产品版本:EMR-TKE-AI-V1.2.0
创建 RayCluster
当前支持通过表单和 YAML 两种方式创建和管理 RayCluster。若您希望快速完成集群创建,推荐使用表单方式,通过可视化向导完成配置,若您对 Kubernetes 或 RayCluster 配置熟悉,可选择 YAML 方式,以获得更灵活的参数配置能力。
创建 RayCluster(表单)
登录 EMR 控制台,进入 EMR on TKE 实例详情页。在二级菜单栏中点击 RayCluster 进入配置页面,在页面上方选择表单创建,进入创建向导。
基础配置
RayCluster 名称:长度 1–53 个字符,仅支持小写字母。
命名空间:从下拉列表中选择,默认选中 KubeRay 部署所在的命名空间。
高可用:默认开启,生产环境建议保持开启。
自定义镜像
根据业务作业场景,您可以选择开启自定义镜像功能。
镜像来源:支持从公共镜像、企业镜像或个人镜像中选择。
配置项:选定镜像后需配置对应的版本号及镜像拉取策略。
资源组配置
RayCluster 由一个 headgroup 和若干个 workergroup 组成。
headgroup:默认创建 1 个 headgroup。您可以在 Pod 配置中设置 headgroup 的 CPU、内存、GPU(可选)、Pod 数量;同时可在参数配置中为 head Pod 配置 Labels、Tolerations、Env 以及节点调度策略(JSON),用于控制 Pod 的调度与运行环境。
workergroup:默认创建 1 个 workergroup。您可以修改 workergroup 名称,并在 Pod 配置中设置该组 Worker Pod 的 CPU、内存、GPU(可选)与 Pod 数量。workergroup 支持在 Pod 配置 常驻 Pod 数 以及 弹性伸缩范围(MIN/MAX)。workergroup 同样支持在参数配置中设置 Labels、Tolerations、Env 以及节点调度策略(JSON)。单个 RayCluster 最多可新增 20 个 workergroup。
资源组通用配置
开启状态:该功能默认关闭,开启后您可以进一步配置文件存储(CFS)或对象存储(COS),这部分配置将在全部 workergroup 中生效。
高级配置
依赖外部组件:开启后,可关联已有集群中部署的外部组件。由于所选组件部署在其他集群中,提供依赖组件的集群将无法直接销毁,需提前销毁依赖集群。详情请参见 组件配置共享。
Token 鉴权:开启后,访问 RayCluster 时需通过系统自动生成的 Token 进行身份鉴权,该配置仅在创建阶段生效,RayCluster 创建完成后不支持开启或关闭状态变更。建议开启。
完成创建
完成上述配置,提交后可在右上角任务中心查看创建进度。
RayCluster 管理与维护(表单)
在 RayCluster 创建完成后,您可以通过控制台实现对集群的维护、配置、管理。
集群列表运维
在 RayCluster 列表页面,您可以管理实例运行概况并执行集群维度的维护操作。
列表显示集群名称、Pod 数量、创建时间等基本信息。
支持对 RayCluster 执行重启、销毁等操作。重启操作将重新拉起相关服务,导致当前运行中的作业失败,请在评估业务影响后执行;销毁操作将释放 RayCluster 关联的计算与存储资源,执行后运行中或未提交的任务将无法恢复。
监控与作业观测
在列表页点击名称进入详情页后,可以查看集群资源使用情况。
在监控视图 Tab 中,可以查看硬件指标和软件指标。
详情页上方点击 WebUI,获取任务拓扑结构、执行日志以及 Pod 运行细节。
配置管理
在详情页中,当前支持对高级配置、自定义镜像以及资源组通用等配置进行更新。
资源组规格与管理
支持查看各资源组的 CPU、内存、GPU 规格及 Pod 数量。
支持新增 workergroup,单个 RayCluster 最多可创建 20 个 workergroup。
workergroup 支持修改 Pod 规格、Pod 数量及相关参数配置;headgroup 支持修改 Pod 规格及参数配置。
支持重启 headgroup 或指定的 workergroup。重启操作将重新拉起该资源组下的所有 Pod,将影响当前正在运行的作业,请谨慎执行。