简介
说明:
TI-ONE 是腾讯云提供的一站式机器学习平台,支持数据准备、模型训练、模型评测、模型服务部署环节。目前 GooseFS 已与 TI-ONE 深度集成,支持在任务中选择 GooseFS 作为存储层,提升任务执行效率。本文介绍用户如何在腾讯云 TI-ONE 平台的任务中,通过选用 GooseFS 作为高效存储层,加速数据访问,从而减少远端存储延迟并提升机器学习任务效率。
集成模式介绍

TI-ONE 纳管的计算节点除了可以挂载在 GooseFS 上作为客户端缓存外,还可以利用 GPU 计算实例中闲置的 NvmeSSD 资源,作为 GooseFS Worker,就近缓存热数据,并在客户端中直接本地读取,享受 Tbps 级别带宽、亚毫秒级别延迟,以实现训练效率最大化。
客户端挂载说明:
TI-ONE 实际运行的 Pod 所在的宿主机都会以 Client 节点身份加入 GooseFS 集群以访问 GooseFS,因此您无需额外的配置操作,在 TI-ONE 侧配置完成后即可访问 GooseFS。
GooseFS Worker 配置说明:
若您需要利用 TI-ONE 纳管机器中的数据盘作为 GooseFS 集群的 Worker,则需要遵循文档中配置,以保证缓存可用。
使用限制
TI-ONE 与 GooseFS 集成模式暂仅支持配置单个 Client 配置组,暂不支持在不同的 Client 节点中,下发不同配置组。
前提条件
使用 TI-ONE 节点作为 GooseFS Worker,需前置依赖 TI-ONE 对磁盘进行格式化处理。因此在创建 GooseFS 集群前,需要先将 CVM 节点纳入 TI-ONE 资源组管理,具体操作可参考 TI-ONE 资源组简介。
作为 GooseFS Worker 的 CVM 节点需挂载至少100GB的数据盘。
操作步骤
步骤1:创建 GooseFS 集群
1. 登录 GooseFS 控制台,在实例列表页面,点击新建,创建集群。
2. 填写集群信息。

相关字段描述及配置可参考下表。
字段 | 说明 | 配置 |
集群名称 | 用户自定义的集群标识名 | 自定义,例如:tione_goosefs |
集群描述 | 集群的用途或特征说明 | 自定义,例如:goosefs for tione |
集群类别 | 固定为腾讯公有云集群 | 腾讯公有云集群 |
地域、可用区 | 必须与 TI-ONE 纳管节点处于同一地域下 | 例如:广州-广州七区 |
所属 VPC | 必须与 TI-ONE 纳管节点处于同一 VPC 下 | 例如:vpc-12345678 |
所属子网 | GooseFS 集群所在的网段 | 例如:subnet-abcdefg |
标签 | 集群的标签信息 | 自定义,例如:环境:生产 |
3. 填写集群资源。

相关字段描述及配置可参考下表。
字段 | 说明 | 配置 |
部署模式 | GooseFS 集群节点的部署模式 | Master 托管 |
Master 规格 | 根据文件数量选择机型规格: Medium:支持 ≤1亿文件 Large:支持 50亿-70亿文件 XLarge:支持 100亿-120亿文件 | 根据文件数量选择,例如:Medium |
实例类型 | 计算节点类型 | CVM |
缓存配置 | 缓存路径:前缀必须为 /mnt/data/ ,以保证 TI-ONE 读写正确。缓存容量:根据所需情况指定。 | 自定义缓存路径及容量,例如: 缓存路径: /mnt/data/goosefs_data/goosefs/workerData 缓存容量:20 |
4. 确认信息,完成集群创建。
步骤2:新增 GooseFS Worker 节点
1. 选择已创建的 GooseFS 集群,进入集群详情页面,在侧边栏中选择节点管理,点击新增节点。

2. 选择节点属性。

相关字段描述及配置可参考下表。
字段 | 说明 | 配置 |
实例类型 | 计算节点类型 | CVM |
节点类型 | 节点功能角色 | Worker 节点 |
节点 IP | 选择已纳管至 TI-ONE 的节点 IP(需提前在 TI-ONE 资源组中确认节点状态为"运行中") 注意: ![]() | 以实际 IP 为准 |
关联配置组 | 默认为 Default,常规情况下选择 Default 即可。若需要变更节点配置,可在侧边栏中单击配置组管理进入页面,新增配置组,并在创建节点时进行关联。 | Default |
服务进程保活 | 是否启用服务进程保活,节点异常重启时自动拉起服务 | 勾选 |
格式化挂载 | 是否格式化存储设备,必须关闭(否则会导致 TI-ONE 数据读写异常) | 关闭 |
步骤3:配置 GooseFS 命名空间
1. 在侧边栏中单击命名空间进入页面,点击新增命名空间。

2. 配置命名空间属性。

相关字段描述及配置可参考下表。
字段 | 说明 | 举例/配置 |
存储桶来源 | 可按需选择本账号下的存储桶,或其他账号下的存储桶。 | 本账号下的存储桶 |
COS 存储桶 | 按需选择需要绑定的底层存储桶。 | ai-dataset-1250000000 |
空间名称 | 指定 namespace 空间名称 | model_training_space |
挂载范围 | 选择存储桶的挂载范围: 整个存储桶:挂载整个存储桶 指定目录前缀:仅挂载指定路径 | 整桶挂载 |
读策略 | 数据读取策略(固定选择 CACHE) | CACHE |
写策略 | 数据写入模式: CACHE_THROUGH:同时写 GooseFS 及 COS THROUGH:仅写COS | CACHE_THROUGH |
UFS 属性 | 以实际内容为准 |
步骤4:在 TI-ONE 任务中指定 GooseFS 作为存储
1. 登录 TI-ONE 控制台,进入训练工坊 > 任务式建模 > 新建任务。

2. 参考 任务式建模说明,填写任务配置。

故障场景处理
当 CVM 处于 TI-ONE 纳管之下,TI-ONE 会自动探测此 CVM 是否存在 运行隐患,如果存在隐患,TI-ONE会自动将节点从 k8s 集群中剔除并送去自动维修,维修完成后,TI-ONE 会把节点重新加回 k8s 集群并参与正常调度。
非弃盘迁移维修
非弃盘迁移场景维修过程中,Worker 节点会不可用。此时,由于 GooseFS Client 在访问 Worker 时存在重试机制,因此即便一台 Worker 处于异常状态,只要集群中存在其他可用的 Worker 节点,GooseFS 数据访问依然不会受到影响(数据访问速度可能会有下降)。
如果数据访问速度下降对您的业务没有造成影响,您只需静待维修任务完成即可,无需进行任何人工干预;如果数据访问速度下降影响了您的业务,请在 GooseFS 控制台的服务管理页面隔离送检的 Worker 节点(维修中状态的节点可在 TI-ONE 资源组页面查询)。

待节点维修完成之后,再在此页面解除对维修节点的隔离。
弃盘迁移维修
当 CVM 异常难以修复,不得不采取弃盘迁移时(弃盘迁移需要您人工确认),由于 GooseFS Worker 节点上的所有数据都会丢失,您将不得不重新执行Worker 节点初始化流程,此时,您需要执行如下步骤:
1. 停止 Worker 服务:进入 GooseFS 控制台的集群详情页,在侧边栏中选择服务管理,选择 Worker 及 JobWorker 服务,点击停止。

2. 移除异常 Worker 节点:在侧边栏中选择节点管理,选择异常 Worker 节点,点击删除。

3. 将故障节点从 TI-ONE 资源组管理页面移除 。
4. 待维修完成后,重新执行 新增 Worker 节点 步骤 。