概述
文件预加载是将所选文件提前缓存至指定资源组的节点上,以提升训练任务/在线服务的启动速度和稳定性(在 LLM 训练场景中,加载文件至 POD 内存的时长可以从2h缩短至5min)。本文将主要介绍如何添加文件,并预加载至资源组;以及如何在训练/推理等模块挂载已缓存文件。
前置条件
1. 已创建资源组
2. 已开通 COS
COS(Cloud Object Storage,对象存储):COS 是腾讯云提供的一种存储海量文件的分布式存储服务,具有高扩展性、低成本、可靠安全等优点。通过控制台、API、SDK 和工具等多样化方式,用户可简单、快速地接入 COS,进行多格式文件的上传、下载和管理,实现海量数据存储和管理。
添加文件
1. 选择左侧导航栏平台管理 > 资源组管理,进入 文件预加载。支持在全局维度为所有资源组添加缓存文件、将文件加载至资源组。

2. 单击添加文件按钮,显示弹窗如下。支持选择来源为“内置模型”和“COS”存储类型的文件。

配置参数说明如下所示:
存储类型 | 字段名称 | 说明 |
内置文件 | 文件类型 | 表示预加载文件的类型标签,在任务式建模/在线服务添加挂载时,用于标识该文件的类型及用途。 (备注:当前仅支持“模型”类型的内置文件,后续版本将逐步拓展“镜像”、“数据集”等文件对象) |
| 文件名称 | 表示平台支持预加载的内置文件对象。必选,选项来源为大模型广场中已上架的模型。 |
| 文件大小 | 表示内置文件占用磁盘空间的预估大小。 |
COS | 文件类型 | 仅用于标记预加载文件的类型,选项包括“模型”、“镜像”、“数据集”。 |
| 文件名称 | 表示对预加载文件的定义和描述。 必填,仅支持中英文、数字、下划线”_”、短横"-”,只能以中英文、数字开头,最长为256个字符。 |
| COS路径 | 表示文件来源的具体路径。仅支持选择文件夹,不支持选择指定文件。 |
3. 选择文件后,单击确定,添加后的文件将显示在列表中。
预加载文件
1. 单击列表操作中的预加载,支持将所选文件加载至多个资源组。

2. 选择资源组后,单击确定,平台将在选中资源组的各节点上执行加载任务。
管理文件
在文件预加载页面的列表中,支持在全局维度查看文件加载状态,以及各资源组加载详情。同时,还支持更新或删除文件等操作。
节点状态

添加文件后,列表内新增数据的初始状态为“待加载”。只有当文件被添加至任意资源组后,触发后续状态流转:加载中 > 已加载/部分已加载/异常 > 移除中。状态说明如下所示:
状态 | 说明 | 状态流转 |
待加载 | 表示所有资源组上都还未加载该文件。 注意: 此时由于尚未加载文件,因此无法单击更新。 | ![]() |
加载中 | 表示正在指定资源组的所有节点上,加载文件。仅当所有资源组都处于加载中状态时显示。 | |
异常 | 表示在加载或移除文件的过程中出现异常报错。仅当所有资源组都处于异常状态时显示。 Hover 右侧 icon 显示具体报错信息。当存在多个资源组加载异常时,显示第一个资源组的异常信息。 | |
已加载 | 表示在所有资源组内的所有节点上,文件加载成功。仅当所有资源组都处于已加载状态时显示。 Hover 右侧 icon 会显示所有已加载的资源组名称,单击查看详情,支持查看完整清单。 | |
部分已加载 | 表示部分资源组已成功加载文件,但是部分资源组异常或仍在加载中。当任一资源组处于已加载状态时显示。 | |
移除中 | 表示正在资源组内的所有节点上,移除该文件。当任一节点处于移除中状态时显示。移除完成后,列表内同步删除数据。 注意: 由于文件正在移除中,因此无法重复单击删除。 | |
查看详情
单击列表中的文件名称,支持弹窗查看所有加载该文件的资源组详情,包括资源组名称|ID、加载状态及进度。
单击资源组 ID ,支持跳转至指定资源组详情页的 文件预加载 Tab 页面。
单击删除,支持从单个资源组中删除所选文件。

更新
单击列表操作中的更新,支持从来源路径下获取最新数据,并更新预加载的缓存文件。
注意:更新操作的逻辑为增量更新,触发更新后文件将重新进入“加载中”状态(与新建时的流程一致)。
增量更新举例:假设某一目录下有8个文件已加载,随后删除4个文件,再添加3个文件;增量更新后应为7个文件(而不是11个)。

删除
单击列表操作中的删除按钮,支持从所有已加载的资源组中删除该文件。
注意:
单击确定后,节点将进入“移除中”状态,并从列表中删除文件信息。

使用预加载文件
在创建任务式建模/开发机/在线服务/模型评测等任务或服务时,选择挂载类型“资源组缓存”,支持将资源组内预加载的文件,挂载至任务/服务的容器中。下面以“开发机”举例说明:假设资源组 A 中预加载了模型文件“model_file”。
1. 进入 开发机 模块,单击新建。在新建页面选择资源组 A,并配置“存储路径”。
2. 选择挂载类型“资源组缓存”,依次配置文件类型为“模型”,并在文件名称的下拉列表中,选中文件“model_file”。
3. 提交任务,即可将所选资源组 A 中预加载的模型文件“model_file”挂载至开发机实例。
