一、文档引言
文档目的
本文档旨在指导用户在使用腾讯云 TIONE 创建开发机时,规范数据存储路径,避免因数据写入云服务器系统盘引发磁盘写满、机器异常等问题,保障服务稳定运行。
适用范围
1. 已购买腾讯云云服务器,并将其加入 TIONE 资源组的用户。
2. 计划或正在使用 TIONE 创建开发机的用户。
TIONE 与腾讯云云服务器关系简述
1. 用户购买腾讯云云服务器后,需将其加入 TIONE 资源组,由 TIONE 统一管理资源。详情请参见 购买方式。
2. TIONE 依托资源组中的云服务器,为用户提供开发机创建、在线服务部署、容器化训练任务执行等功能。详情请参见 资源组简介。
二、数据写入系统盘的风险与问题
系统资源层面的风险
系统盘空间快速耗尽,导致宿主机和容器服务异常:
系统盘容量不足引发容器进程异常终止。
节点资源压力触发 Kubernetes 驱逐机制,造成服务中断。
存储I/O性能瓶颈,影响节点整体运行效率:
系统盘读写带宽被大量数据占用。
OverlayFS 层级增加导致容器读写性能下降。
数据管理层面的风险
数据持久性无法保障:
容器重启或重建导致/root 目录数据丢失。
存储资源管理困难:
系统盘空间使用难以监控和隔离。
无法区分系统文件与业务数据占用。
运维管理层面的风险
故障排查复杂度高:
需要同时排查容器内和宿主机存储使用情况。
问题定位涉及多层存储架构(容器层、镜像层、宿主机层)。
资源调度和成本控制问题:
系统盘扩容成本高于专用存储扩容。
存储资源浪费且无法精确计量计费。
业务连续性层面的风险
服务可用性受影响:
单容器存储问题可能扩散到节点级别。
业务服务可能因存储问题出现连锁故障。
部署和扩展效率降低:
容器镜像体积膨胀影响部署速度。
节点存储压力限制业务扩容能力。
三、持久化存储解决方案介绍
CFS 文件存储解决方案
CFS(Cloud File Storage,CFS)文件存储:提供了可扩展的共享文件存储服务,可与腾讯云的 CVM 等服务搭配使用。CFS 提供了标准的 NFS 文件系统访问协议,为多个 CVM 实例提供共享的数据源,支持弹性容量和性能的扩展,现有应用无需修改即可挂载使用,是一种高可用、高可靠的分布式文件系统,适合于大数据分析、媒体处理和内容管理等场景。详情请参见 文件存储简介。
CFS 与 TIONE 服务适配性说明:
1. CFS 可无缝对接 TIONE 开发机、在线服务、任务式建模,提供统一数据存储功能。
2. 挂载 CFS 后,数据读写流程与本地磁盘操作一致,无需修改业务代码或操作习惯。
数据加速器 GooseFS
数据加速器(Data Accelerator Goose FileSystem,GooseFS),是由腾讯云推出的高可靠、高可用、弹性的数据加速服务。依靠对象存储(Cloud Object Storage,COS)作为数据湖存储底座的成本优势,为数据湖生态中的计算应用提供统一的数据湖入口,加速海量数据分析、机器学习、人工智能等业务访问存储的性能;采用了分布式集群架构,具备弹性、高可靠、高可用等特性,为上层计算应用提供统一的命名空间和访问协议,方便用户在不同的存储系统管理和流转数据。详情请参见 产品概述。

注意:
数据加速器 GooseFSx
GooseFSx(Data Accelerator Goose FileSystem extreme,GooseFSx)是由腾讯云推出的高性能的 POSIX 语义的数据加速器,可为对象存储(Cloud Object Storage,COS)加速,为高性能计算业务提供极高性能和极低时延,方便用户灵活管理冷、热数据,适用于高性能计算、自动驾驶、机器学习等业务场景。GooseFSx 是全托管服务,简单易用,按小时付费,用完可释放,通过 COS 来持久化保存数据。详情请参见 数据加速器 GooseFSx 产品概述。

下面主要以 CFS 文件存储使用场景讲解存储规范和注意事项。
四、TIONE 开发机场景下 CFS 挂载与数据写入操作步骤
创建开发机时挂载 CFS 并规范数据写入
1. 前提条件准备:
如 CFS 文件系统已创建、权限配置等。
2. 开发机创建流程中挂载 CFS 的操作步骤:
2.1 进入 TIONE 开发机控制台页面,单击新建。

2.2 在存储配置环节,找到 CFS 挂载选项,添加。

2.3 设置 CFS 挂载路径:
2.3.1 源路径:CFS 中的路径。
2.3.2 容器挂载路径:在开发机容器内的使用路径,默认为/home/tione/notebook(为了防止系统冲突,请避免使用如 /bin,/etc,/usr 等关键系统目录作为挂载路径,且路径必须以 "/"开头)。
2.3.3 特别注意:当源路径不存在时,平台会提示用户新建,需要点击新建按钮完成目录创建。

2.4 完成开发机其他配置(镜像选择、规格配置等),提交创建申请。

3. 验证挂载情况:
3.1 打开开发机。

3.2 默认提供两种 WebIDE,根据个人习惯选择即可,我们以 vscode 举例:

3.3 开发机内查看挂载信息:
172.17.17.247@tcp:/d9fbf2a6/cfs 60T 53T 7.1T 89% /home/tione/notebook即 cfs(172.17.17.247):/demo/ 挂载到了 容器内 /home/tione/notebook/目录。

4. 目录解读:
文件系统 | 挂载点 | 详解与用户操作指引 |
overlay | / | 容器根文件系统 。采用 Overlay2 驱动,包含只读的基础镜像层和可写的容器层。 危险区:所有直接写入根目录的数据都会占用此空间,可能导致磁盘写满 。 |
tmpfs | /dev | 内存临时文件系统,用于设备文件。系统自动管理,用户无需操作。 |
tmpfs | /sys/fs/cgroup | 内存临时文件系统,用于 cgroup 资源控制信息。系统自动管理。 |
tmpfs | /etc/linux_user_info | TIONE 平台特殊挂载 。用于传递用户身份信息到容器内。1000T+大小代表"无限",用户不应在此存储数据。 |
tmpfs | /dev/shm | 系统共享内存空间,用于进程间通信。可存放临时数据但重启丢失。 |
/dev/mapper/data-lv_0 | /run/ti | TIONE 平台数据卷 。可能是用于平台内部服务、日志或中间数据存储。 用户不应在此路径存放个人数据 。 |
/dev/vda2 | /usr/bin/tiopsctl | 主机系统盘分区 。挂载到容器内特定路径,可能包含TIONE平台管理工具和二进制文件。系统区域,严禁用户写入 。 |
172.17.17.247@tcp:/d9fbf2a6/cfs | /home/tione/notebook | 腾讯云 CFS 文件存储(NFS 协议) 。 注意: 这是唯一安全的数据存储位置! 所有代码、数据、模型、日志都必须存放在此目录下,才能保证持久化和多实例共享。 |
tmpfs | /proc/acpi, /proc/scsi, /sys/firmware | 内核信息接口文件系统,容器安全隔离的一部分。用户无需操作。 |
开发机使用中数据写入规范
1. 明确需存储数据类型(如数据集、模型文件、训练日志、临时结果等)。
2. 示例:将数据集上传至/home/tione/notebook/dataset/目录,模型训练输出保存至/home/tione/notebook/checkpoint/目录 ,代码保存至/home/tione/notebook/code/目录。
3. 禁止将数据写入系统盘默认路径(如/、/home、/root、/dev、/etc 等)。
五、CFS 挂载后的数据管理与维护建议
数据分类存储规范
1. 建议按数据类型(数据集、模型、日志、临时文件等)在 CFS 中创建对应目录,示例:
1.1 下面以将cfs:/ 挂载到容器/home/tione/notebook/ 举例:
/home/tione/notebook/dataset:存放各类业务数据集
/home/tione/notebook/model:存放训练好的模型文件
/home/tione/notebook/logs:存放服务日志、训练日志
/home/tione/notebook/temp:存放临时生成的数据,定期清理
1.2 此时相当于创建 cfs:/dataset/ cfs:/model/ cfs:/logs/ cfs:/temp/
2. 也可按照用户/小组/部门创建对应目录,示例:
2.1 下面以将cfs:/ 挂载到容器/home/tione/notebook/ 举例:
/home/tione/notebook/user1:存放user1数据
/home/tione/notebook/user2:存放user2数据
/home/tione/notebook/user3:存放user3数据
2.2 此时相当于创建 cfs:/user1/ cfs:/user2/ cfs:/user3/
3. 避免在 CFS 根目录直接写入数据,防止文件混乱难以管理。
4. 如果想控制CFS读写权限,或者有更复杂的管理要求时,也可参考使用数据源功能。详情请参见 数据源管理。
CFS 存储容量监控与扩展
1. 如何在腾讯云控制台查看 CFS 文件系统的容量使用情况 文件存储功能介绍。
2. 设定容量预警阈值及时进行容量扩展。
六、系统盘监控与告警配置
监控配置步骤
1. 找到目标云服务器,展开监控面板,找到磁盘监控,单击告警配置按钮:

2. 配置告警规则:
2.1 策略类型:云服务器/硬盘分区监控,更多详情请参见 云服务器监控指标。
2.2 触发条件:磁盘使用率 统计粒度1分钟 > 85% 持续5个数据点 ,则每6小时告警一次 (备注: 该告警条件仅作示例,用户需根据自己使用情况配置触发条件。)
2.3 完成后,单击下一步:配置告警通知。

3. 配置通知模板:
3.1 已有模板时,可直接添加现有模板,或者选择新建通知模板。
3.2 配置接收对象、通知周期、通知时段、接收渠道。
3.3 有自定义接口回调也可以进行配置。
3.4 单击完成。

完成以上操作,即可将云服务器磁盘使用率告警至指定用户/渠道。
七、常见问题与排查方案
CFS 挂载失败问题
1. 问题现象1:开发机创建时,CFS 挂载选项无法选择:
1.1 可能原因:
CFS 与云服务器不在同一地域、网络不通。
用户无访问 CFS 权限。
CFS 不存在。
1.2 排查步骤与解决方案:
建议联系 TIONE/CFS 同学介入排查。
2. 问题现象2:挂载 CFS 后,无法读写数据:
2.1 可能原因:
CFS 存储异常。
用户权限不足。
2.2 排查步骤与解决方案:
建议联系 CFS 同学介入排查。
数据写入性能问题
问题现象:挂载 CFS 后,数据读写速度较慢,影响服务 / 任务效率:
建议联系 CFS 同学介入排查。
系统盘仍出现空间不足问题
问题现象:已挂载 CFS,但云服务器系统盘仍被占满:
可能原因:
向容器内 没有挂载持久化存储的路径 写入数据。例如:
在根目录 /下安装软件包(如 pip install)。
将数据下载到 /tmp 或 /root 等目录。
ModelScope下载模型未指定本地文件夹路径,或者未将本地路径指定到持久化存储中。
ModelScope 官方说明:

在开发机中训练模型,下载 Hugging Face 中的数据到本地缓存。

说明:
上述操作会在容器可写层中添加数据,导致 overlay 的“可用”空间减少,并占用系统盘存储空间。
八、总结与注意事项
核心操作总结
1. 建议 TIONE 服务(开发机、在线服务、容器化训练)创建时,均需优先配置 CFS 挂载。
2. 数据写入必须指向 CFS 挂载路径,严禁写入系统盘关键目录。
3. 定期监控 CFS 容量与系统盘使用情况,做好数据备份与维护。
数据盘场景补充
1. 为了避免用户数据直写云服务器系统盘,导致云服务器异常无法使用,平台建议可以为服务器挂载一块云硬盘作为数据盘。
2. 云服务器可以通过挂载数据盘(云硬盘)的方式,将容器数据由系统盘存储,迁移至数据盘存储。便于磁盘管理和扩容。该场景下创建的开发机写数据到非持久化存储中时,默认写到数据盘中,而不是系统盘。详情请参见 资源组简介
感谢阅读