
随着国产开源大模型DeepSeek在语言生成、多模态交互及代码能力等领域的快速崛起,其规模化部署对底层网络架构提出了更高要求。在千亿级参数模型的分布式推理场景中,多节点GPU集群的通信效率直接影响任务吞吐量和时延表现,传统网络协议已难以满足高并发、低延迟的算力需求。
在此背景下,RoCEv2(RDMA over Converged Ethernet v2)凭借其零拷贝传输、微秒级延迟及以太网兼容性,成为替代InfiniBand(IB)的高性价比方案。它通过标准以太网实现远程内存直接访问(RDMA),在降低硬件成本的同时,支持跨厂商设备的灵活组网,为大规模AI集群提供了可扩展、易维护的互联底座。
为了评估真实的 AI 推理性能,我们在 H20 高性能服务器集群上部署了 DeepSeek 大型语言模型,该集群具有双节点,每个节点有 8 个 GPU,通过超低延迟 AI 交换机 CX864E-N 和传统的 InfiniBand 交换机互连。CX864E-N 展示了明显的性能优势:提供更高的吞吐量 (TGR) 和显著降低的第 90 个百分位推理延迟 (P90 ITL)。结果如何?推理效率的大幅提升。CX864E-N 具有更快的处理速度、更低的网络延迟和远优于 InfiniBand 的性价比,使 AI 服务提供商能够加速大规模大型模型部署,同时大幅降低成本。

800G 交换机端口配备 800G OSFP 光模块,使用两根 MPO-12 电缆与两个 400G NIC 建立两个 400G 连接,每个电缆与相应 NIC 上的 400G OSFP 收发器连接。



用于测量推理过程中生成的令牌之间的时间间隔。具体而言,P90 值表示 90% 的标记间隔低于此阈值。较低的 P90 ITL 反映了更平滑、更稳定的输出,响应延迟的抖动更少。
当 AI 做出响应时,它不会立即生成完整的答案,而是逐字(或逐个token)生成。每个单词之间的暂停是令牌间延迟。P90 ITL 意味着在 90% 的情况下,此暂停不超过特定时间。该值越小,AI 的输出感觉就越流畅和自然 - 延迟更少,连续性更高。
TGR 是 AI 推理提供商最重要和关键的生产力指标。更高的 TGR 意味着:
测试结果清楚地表明,与传统的 InfiniBand (IB) 相比,AI智算交换机可提供更低的 P90ITL 和更高的 TGR。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。