CFS Turbo 大模型训练存储性能优化实践

原创

IT资讯研究所

发布于 2026-05-30 17:37:45

2250

数据来源： 2024腾讯全球数字生态大会，主讲人：杨飞

随着大模型技术演进，训练数据集规模呈现爆发式增长，存储系统面临严峻的元数据管理挑战。具体指标变化如下：

传统存储架构难以应对上述变化，主要的痛点集中在以下传统方案中：

针对大模型训练场景，CFS Turbo 采用了 新一代自适应条带化目录 技术与 智能预读策略 相结合的技术路径。

通过系统级的架构优化，支持 千万级 目录级别的并发处理，解决了传统架构中目录开销大和无法动态扩容的问题。

针对大模型训练（以混元DiT为例）中涉及的大量数据整理与转换操作（如 os.listdir, glob, find 等），优化 Readdir() 调用逻辑：

基于上述技术优化，CFS Turbo 在海量小文件和高并发场景下的核心业务指标显著提升：

关键指标	优化前表现	优化后表现	性能提升倍数
Readdir 性能	-	-	提升 55%
100万文件返回速度	30秒	1.4秒	8.6倍

在腾讯自研的 混元DiT (HunyuanDiT) 大模型训练实践中，验证了上述方案的有效性。

应用场景： 单分辨率训练 (Single Resolution Training) 与多分辨率训练 (Multi Resolution Training)。
数据处理流程： 涉及从原始图片生成索引、基于过滤条件（如高度、宽度大于等于1024）生成 data index，直至最终参与训练。
实例数据： 训练样本中单个 .arrow 文件大小约为 232M（例如 00000.arrow）。
验证结果： 在新的元数据引擎与预读策略支持下，面对海量样本文件（如 porcelain/arrows/ 目录下的文件），系统的元数据读取效率满足了高频训练迭代的需求。

选择腾讯CFS Turbo的核心逻辑在于其针对AI训练场景的底层架构重构能力：

彻底解决扩展性问题： 新一代自适应条带化目录技术，突破了传统MDS架构的 单点瓶颈 和 目录限制，支持 千万级 目录并发。
极致的IO效率： 智能预读策略将百万级文件的元数据操作耗时从30秒压缩至 1.4秒，直接提升 55% 的 Readdir 性能，显著降低GPU等待时间。
实战验证： 方案已在腾讯 混元DiT 等千亿级大模型训练场景中得到验证，具备处理 百亿级 目录与亿级文件的工程成熟度。