图片
每个AI流水线中都涉及到数据存储
数据源-数据提取过程中涉及到: PB级别的顺序写
数据准备过程中: TB级别的顺序读
模型训练过程中: GB级别的随机读
检查点和恢复过程中: GB级别的顺序写...,通过是TLC, 弥补机械盘性能, 总容量比HDD少
右边采用对象存储, 存储集群或JBODS, 包含大量机械盘, 总容量占比高
AI集群中的数据移动
图片
1.数据采集阶段,原始数据按顺序写入对象存储层...图片
2.数据准备阶段
GPU集群从对象存储读取数据(按序)并写入计算集群
CPU对原始数据预处理, 读取数据,然后写入干净的数据
3.训练过程: GPU 通过以随机顺序读取数据来训练模型, 训练后的模型将写入磁盘...更频繁的检查点可带来更多存储空间 • 最新检查点数据:SSD 层中提供最新副本,以实现低延迟访问 • 较旧的检查点数据:在 HDD Blob 存储层上,可用但在需要时访问速度较慢 • GPU 扩展:从...Blob 存储层一次性访问可实现高吞吐量
AI负载中的存储扩展性
总结
AI集群流程中的数据存储需要根据实际业务的量级和性能要求做分层存储, 这样成本可控且性能满足需求
AI行业也会带动存储行业发展,