文档中心>数据加速器 GooseFS>实践教程>在 TI-ONE 中使用 GooseFS 加速数据访问

在 TI-ONE 中使用 GooseFS 加速数据访问

最近更新时间:2025-07-22 16:54:22

我的收藏

简介

说明:
当前 TI-ONE 集成 GooseFS 为公测功能,若需使用请 联系 TI-ONE 申请公测资格。
TI-ONE 是腾讯云提供的一站式机器学习平台,支持数据准备、模型训练、模型评测、模型服务部署环节。目前 GooseFS 已与 TI-ONE 深度集成,支持在任务中选择 GooseFS 作为存储层,提升任务执行效率。本文介绍用户如何在腾讯云 TI-ONE 平台的任务中,通过选用 GooseFS 作为高效存储层,加速数据访问,从而减少远端存储延迟并提升机器学习任务效率。

集成模式介绍


TI-ONE 纳管的计算节点除了可以挂载在 GooseFS 上作为客户端缓存外,还可以利用 GPU 计算实例中闲置的 NvmeSSD 资源,作为 GooseFS Worker,就近缓存热数据,并在客户端中直接本地读取,享受 Tbps 级别带宽、亚毫秒级别延迟,以实现训练效率最大化。
客户端挂载说明:
TI-ONE 实际运行的 Pod 所在的宿主机都会以 Client 节点身份加入 GooseFS 集群以访问 GooseFS,因此您无需额外的配置操作,在 TI-ONE 侧配置完成后即可访问 GooseFS。
GooseFS Worker 配置说明:
若您需要利用 TI-ONE 纳管机器中的数据盘作为 GooseFS 集群的 Worker,则需要遵循文档中配置,以保证缓存可用。

使用限制

TI-ONE 与 GooseFS 集成模式暂仅支持配置单个 Client 配置组,暂不支持在不同的 Client 节点中,下发不同配置组。

前提条件

使用 TI-ONE 节点作为 GooseFS Worker,需前置依赖 TI-ONE 对磁盘进行格式化处理。因此在创建 GooseFS 集群前,需要先将 CVM 节点纳入 TI-ONE 资源组管理,具体操作可参考 TI-ONE 资源组简介
作为 GooseFS Worker 的 CVM 节点需挂载至少100GB的数据盘。

操作步骤

步骤1:创建 GooseFS 集群

1. 登录 GooseFS 控制台,在实例列表页面,点击新建,创建集群。
2. 填写集群信息。

相关字段描述及配置可参考下表。
字段
说明
配置
集群名称
用户自定义的集群标识名
自定义,例如:tione_goosefs
集群描述
集群的用途或特征说明
自定义,例如:goosefs for tione
集群类别
固定为腾讯公有云集群
腾讯公有云集群
地域、可用区
必须与 TI-ONE 纳管节点处于同一地域下
例如:广州-广州七区
所属 VPC
必须与 TI-ONE 纳管节点处于同一 VPC 下
例如:vpc-12345678
所属子网
GooseFS 集群所在的网段
例如:subnet-abcdefg
标签
集群的标签信息
自定义,例如:环境:生产
3. 填写集群资源。

相关字段描述及配置可参考下表。
字段
说明
配置
部署模式
GooseFS 集群节点的部署模式
Master 托管
Master 规格
根据文件数量选择机型规格:
Medium:支持 ≤1亿文件
Large:支持 50亿-70亿文件
XLarge:支持 100亿-120亿文件
根据文件数量选择,例如:Medium
实例类型
计算节点类型
CVM
缓存配置
缓存路径:前缀必须/mnt/data/,以保证 TI-ONE 读写正确。
缓存容量:根据所需情况指定。
自定义缓存路径及容量,例如:
缓存路径:/mnt/data/goosefs_data/goosefs/workerData
缓存容量:20
4. 确认信息,完成集群创建。

步骤2:新增 GooseFS Worker 节点

1. 选择已创建的 GooseFS 集群,进入集群详情页面,在侧边栏中选择节点管理,点击新增节点

2. 选择节点属性。

相关字段描述及配置可参考下表。
字段
说明
配置
实例类型
计算节点类型
CVM
节点类型
节点功能角色
Worker 节点
节点 IP
选择已纳管至 TI-ONE 的节点 IP(需提前在 TI-ONE 资源组中确认节点状态为"运行中")
注意:
在选择节点 IP前,请确保所选节点已添加至 TI-ONE 资源组。登录 TI-ONE 控制台,在左侧导航栏点击资源组管理,选择需要查看的资源组名称,点击进入详情页面,查看状态是否为“运行中”。

以实际 IP 为准
关联配置组
默认为 Default,常规情况下选择 Default 即可。若需要变更节点配置,可在侧边栏中单击配置组管理进入页面,新增配置组,并在创建节点时进行关联。
Default
服务进程保活
是否启用服务进程保活,节点异常重启时自动拉起服务
勾选
格式化挂载
是否格式化存储设备,必须关闭(否则会导致 TI-ONE 数据读写异常)
关闭

步骤3:配置 GooseFS 命名空间

1. 在侧边栏中单击命名空间进入页面,点击新增命名空间

2. 配置命名空间属性。

相关字段描述及配置可参考下表。
字段
说明
举例/配置
存储桶来源
可按需选择本账号下的存储桶,或其他账号下的存储桶。
本账号下的存储桶
COS 存储桶
按需选择需要绑定的底层存储桶。
ai-dataset-1250000000
空间名称
指定 namespace 空间名称
model_training_space
挂载范围
选择存储桶的挂载范围:
整个存储桶:挂载整个存储桶
指定目录前缀:仅挂载指定路径
整桶挂载
读策略
数据读取策略(固定选择 CACHE)
CACHE
写策略
数据写入模式:
CACHE_THROUGH:同时写 GooseFS 及 COS
THROUGH:仅写COS
CACHE_THROUGH
UFS 属性
填写 GooseFS 访问 COS 时所用账号的 AK/SK,其余配置保持默认。AK/SK 信息可在 控制台用户列表页面 查看。
以实际内容为准

步骤4:在 TI-ONE 任务中指定 GooseFS 作为存储

1. 登录 TI-ONE 控制台,进入训练工坊 > 任务式建模 > 新建任务

2. 参考 任务式建模说明,填写任务配置。
3. 存储路径设置中,选择 GooseFS。其中 GooseFS 集群(对应 步骤一创建集群)、COS 命名空间(对应 步骤三绑定命名空间)为必填选项,其余按需填写即可。


故障场景处理

当 CVM 处于 TI-ONE 纳管之下,TI-ONE 会自动探测此 CVM 是否存在 运行隐患,如果存在隐患,TI-ONE会自动将节点从 k8s 集群中剔除并送去自动维修,维修完成后,TI-ONE 会把节点重新加回 k8s 集群并参与正常调度。

非弃盘迁移维修

非弃盘迁移场景维修过程中,Worker 节点会不可用。此时,由于 GooseFS Client 在访问 Worker 时存在重试机制,因此即便一台 Worker 处于异常状态,只要集群中存在其他可用的 Worker 节点,GooseFS 数据访问依然不会受到影响(数据访问速度可能会有下降)。

如果数据访问速度下降对您的业务没有造成影响,您只需静待维修任务完成即可,无需进行任何人工干预;如果数据访问速度下降影响了您的业务,请在 GooseFS 控制台的服务管理页面隔离送检的 Worker 节点(维修中状态的节点可在 TI-ONE 资源组页面查询)。

待节点维修完成之后,再在此页面解除对维修节点的隔离。

弃盘迁移维修

当 CVM 异常难以修复,不得不采取弃盘迁移时(弃盘迁移需要您人工确认),由于 GooseFS Worker 节点上的所有数据都会丢失,您将不得不重新执行Worker 节点初始化流程,此时,您需要执行如下步骤:
1. 停止 Worker 服务:进入 GooseFS 控制台的集群详情页,在侧边栏中选择服务管理,选择 Worker 及 JobWorker 服务,点击停止

2. 移除异常 Worker 节点:在侧边栏中选择节点管理,选择异常 Worker 节点,点击删除。

3. 将故障节点从 TI-ONE 资源组管理页面移除 。
4. 待维修完成后,重新执行 新增 Worker 节点 步骤 。