智算存储 NitroFS 是腾讯云为大模型训练、推理等场景提供的高性能存储服务。提供 POSIX、KV 等多种访问接口,并通过端到端 RDMA 、富客户端等技术,提供TB级吞吐和亚毫秒级延迟。满足大模型 checkpoint 读写、KVCache 存储等场景的关键存储需求。
通过本地数据路由缓存感知,数据读写时从客户端一跳直达存储节点。
支持类 POSIX 文件语义、KV等多种接口,为AI业务提供高性能的存储服务。
提供端到端的 RDMA 能力,且无网关转发。 数据可直通底层存储服务器,提供亚毫秒级的延迟和TB级的吞吐能力。
存储内置 KV 引擎,数据分块读写场景时,仅跟元数据服务交互1次。
支持与对象存储对接,透明接管对象存储。 并支持自动化的淘汰和预热策略。
支持快照、权限管理、配额等文件系统常用高级功能。
基于 RDMA 、富客户端等技术,可支持TB级的吞吐和要毫秒级时延。
支持类 POSIX 文件语义、KV 等多种接口。为 AI 业务场景提供一站式的存储服务。
由腾讯内 KVCache 存储和大模型存储孵化而来,具备成熟的产品方案和实践经验。
大模型训练过程中涉及两个主要的数据读写场景。其一,把海量的训练样本并发的读取到 GPU 中进行训练, 其二,为保证训练中断时能快速恢复并进行继续训练,在训练过程中会周期性的保存 checkpoint ,并在意外发生时读取 checkpoint 进行恢复。智算存储 NitroFS 可作为大模型存储,为大规模训练提供高性能存储底座。
我们的优势
大模型推理中,可将提示词和多轮对话的 token 所计算出的 K/V 向量保存至存储中。以存代算,降低 GPU 重复计算已出现 token 的 K/V 向量的开销,节省算力成本。智算存储 NitroFS 可作为 KVCache 存储,加速推理服务的效率,节省算力成本。
我们的优势
自动驾驶涉及海量小样本的读取,需要存储有足够低的延迟和极强的元数据性能,并且会需要和对象存储的生态进行打通,满足不同流程的训练需求。智算存储 NitroFS 可作为自动驾驶存储,加速训练场景下,海量小文件的样本读取。
我们的能力