
数据来源: 2024腾讯全球数字生态大会,主讲人:杨飞
随着大模型技术演进,训练数据集规模呈现爆发式增长,存储系统面临严峻的元数据管理挑战。具体指标变化如下:
传统存储架构难以应对上述变化,主要的痛点集中在以下传统方案中:
针对大模型训练场景,CFS Turbo 采用了 新一代自适应条带化目录 技术与 智能预读策略 相结合的技术路径。
通过系统级的架构优化,支持 千万级 目录级别的并发处理,解决了传统架构中目录开销大和无法动态扩容的问题。
针对大模型训练(以混元DiT为例)中涉及的大量数据整理与转换操作(如 os.listdir, glob, find 等),优化 Readdir() 调用逻辑:
Readdir() cookies=0 场景,优化 dentries 处理流程。stateahead thread 与 Parallel 机制,实现 bulk io & readahead。基于上述技术优化,CFS Turbo 在海量小文件和高并发场景下的核心业务指标显著提升:
关键指标 | 优化前表现 | 优化后表现 | 性能提升倍数 |
|---|---|---|---|
Readdir 性能 | - | - | 提升 55% |
100万文件返回速度 | 30秒 | 1.4秒 | 8.6倍 |
在腾讯自研的 混元DiT (HunyuanDiT) 大模型训练实践中,验证了上述方案的有效性。
.arrow 文件大小约为 232M(例如 00000.arrow)。porcelain/arrows/ 目录下的文件),系统的元数据读取效率满足了高频训练迭代的需求。选择腾讯CFS Turbo的核心逻辑在于其针对AI训练场景的底层架构重构能力:
Readdir 性能,显著降低GPU等待时间。原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。