CoreWeave的AI对象存储服务利用本地对象传输加速器(LOTA)技术,在全球范围内高速移动对象数据,且无出口费用或请求/事务/分层费用。
该公司表示,高性能AI训练依赖于位于GPU计算集群附近的大型数据集,就像其GPU服务器农场中的集群一样。CoreWeave认为传统云存储无法满足所需的吞吐量水平或灵活性,使开发者受到延迟、复杂性和成本的限制。其LOTA技术使单个数据集能够在世界任何地方即时访问。
CoreWeave联合创始人兼首席技术官Peter Salanki表示:"我们正在从根本上重新思考存储。我们构建了一个系统,数据不再受地理位置或云边界限制,为开发者提供无摩擦和隐藏成本的创新自由。这确实是AI工作负载运作方式的颠覆性变革。"
对于CoreWeave客户来说,这确实具有颠覆性意义。
CoreWeave表示,其AI对象存储性能随着AI工作负载增长而扩展,"并在来自任何区域、任何云或本地的分布式GPU节点上保持优异吞吐量。"它拥有多云网络骨干,具备私有互连、直接云对等和400 Gbps端口能力来提供这种吞吐量。吞吐量可达每GPU 7 GBps,并可扩展至数十万个GPU。
AI对象存储服务具有三个自动的、基于使用量的定价层级,为现有客户的典型AI工作负载"提供超过75%的存储成本降低",使其成为"行业中最具成本效益、开发者友好的存储选项之一。"
热存储:最近7天内访问过
温存储:7-30天内访问过
冷存储:30天以上未访问
Constellation Research副总裁兼首席分析师Holger Mueller表示:"利用LOTA缓存和InfiniBand网络等技术,CoreWeave AI对象存储确保GPU在分布式环境中保持高效利用,这是扩展下一代AI工作负载的关键能力。"
LOTA技术详解
CoreWeave的本地对象传输加速器(LOTA)是安装在CKS(CoreWeave Kubernetes服务)集群中每个GPU节点上的智能代理,用于加速数据传输。LOTA为集群中每个节点提供高效的本地网关,连接CoreWeave AI对象存储,实现更快的数据传输速率和更低的延迟。
从用户角度来看:"使用LOTA,软件客户端可以通过新的API端点轻松与CoreWeave AI对象存储交互。客户端只需将请求指向LOTA端点[http://cwlota.com]而不是主端点[https://cwobject.com],S3兼容客户端无需其他更改。"
CoreWeave告诉我们:"LOTA代理所有对象存储请求到对象存储网关和存储后端。首先,LOTA通过网关验证每个请求并确认适当授权。然后,在可能的情况下,LOTA绕过网关直接访问存储后端,以最大可能的吞吐量获取对象。LOTA将获取的对象存储在分布式缓存中,显著提升数据传输速率,特别是对于重复数据请求。"
当LOTA使用直接路径绕过网关并直接访问对象时,数据传输速率显著提升。通过将数据存储在分布式缓存中,LOTA确保频繁访问的对象随时可用于快速检索。
LOTA主动在GPU节点的本地磁盘上缓存最近访问的对象——如Hammerspace所说的0级存储,显著减少延迟并提升CoreWeave AI对象存储的读取速度。
当向LOTA发出请求时,它首先检查对象是否在缓存中可用。如果找到对象,则直接从缓存中获取,确保最小延迟。
如果对象不在缓存中,LOTA从后端存储中获取它(无论后端是否与LOTA位于同一可用区),并将其分叉为两个路径:
流1将对象发送给客户端应用程序
流2将对象存储在缓存中,使用一个或多个GPU节点上的本地存储
这种双路径方法——实现为两个并发数据流——确保对相同数据的未来请求能够从缓存中快速提供,增强整体性能。LOTA在CKS集群的所有GPU节点上分布缓存,确保高效的数据检索和管理。
CoreWeave在美国拥有28个运营区域,在英国有2个,在欧洲大陆有3个——挪威、瑞典和西班牙。这些区域通过高速暗光纤互连。LOTA加速将在2026年初扩展到其他云和本地环境。
CoreWeave最近宣布了ServerlessRL,这是首个公开可用的完全托管强化学习能力。该公司还与基础模型公司Poolside达成协议,提供AI云服务,支持Poolside构建通用人工智能并在企业中部署智能体的使命。
根据协议,CoreWeave将提供最先进的Nvidia GB300 NVL72系统集群,包括超过40,000个GPU。另外,CoreWeave计划为Poolside在德克萨斯州西部的2GW AI园区项目Horizon提供其市场领先的云解决方案。作为该倡议的一部分,CoreWeave计划成为项目第一阶段的主要租户和运营合作伙伴,该阶段包括250MW总功率,并可选择进一步扩展500MW容量。
Q&A
Q1:LOTA技术是什么?它如何提升数据传输速度?
A:LOTA(本地对象传输加速器)是CoreWeave开发的智能代理技术,安装在每个GPU节点上加速数据传输。它通过绕过网关直接访问存储后端,并在本地磁盘上缓存频繁访问的对象,显著减少延迟并提升读取速度。
Q2:CoreWeave AI对象存储的定价模式有何特点?
A:该服务采用三层自动定价模式:热存储(7天内访问)、温存储(7-30天访问)和冷存储(30天以上未访问)。这种基于使用量的定价为客户的典型AI工作负载降低了超过75%的存储成本。
Q3:CoreWeave的GPU集群性能如何?能支持多大规模?
A:CoreWeave的AI对象存储吞吐量可达每GPU 7 GBps,能够扩展至数十万个GPU。系统拥有多云网络骨干,具备400 Gbps端口能力,在全球33个区域运营,通过高速暗光纤互连。