首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >算力革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑

算力革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑

原创
作者头像
星融元Asterfusion
发布2025-05-27 18:30:29
发布2025-05-27 18:30:29
7840
举报
文章被收录于专栏:智算中心网络智算中心网络

随着国产开源大模型DeepSeek在语言生成、多模态交互及代码能力等领域的快速崛起,其规模化部署对底层网络架构提出了更高要求。在千亿级参数模型的分布式推理场景中,多节点GPU集群的通信效率直接影响任务吞吐量和时延表现,传统网络协议已难以满足高并发、低延迟的算力需求。

在此背景下,RoCEv2(RDMA over Converged Ethernet v2)凭借其零拷贝传输微秒级延迟以太网兼容性,成为替代InfiniBand(IB)的高性价比方案。它通过标准以太网实现远程内存直接访问(RDMA),在降低硬件成本的同时,支持跨厂商设备的灵活组网,为大规模AI集群提供了可扩展、易维护的互联底座。

为了评估真实的 AI 推理性能,我们在 H20 高性能服务器集群上部署了 DeepSeek 大型语言模型,该集群具有双节点,每个节点有 8 个 GPU,通过超低延迟 AI 交换机 CX864E-N 和传统的 InfiniBand 交换机互连。CX864E-N 展示了明显的性能优势:提供更高的吞吐量 (TGR) 和显著降低的第 90 个百分位推理延迟 (P90 ITL)。结果如何?推理效率的大幅提升。CX864E-N 具有更快的处理速度、更低的网络延迟和远优于 InfiniBand 的性价比,使 AI 服务提供商能够加速大规模大型模型部署,同时大幅降低成本。

DeepSeek 推理集群测试网络

 测试网络的整体网络拓扑
测试网络的整体网络拓扑

800G 交换机端口配备 800G OSFP 光模块,使用两根 MPO-12 电缆与两个 400G NIC 建立两个 400G 连接,每个电缆与相应 NIC 上的 400G OSFP 收发器连接。

服务器的内部拓扑
服务器的内部拓扑

DeepSeek 推理场景网络性能测试(条形图)

每秒生成的 Token 数量
每秒生成的 Token 数量
生成期间两个连续令牌之间的平均延迟或推理延迟
生成期间两个连续令牌之间的平均延迟或推理延迟

了解关键性能指标分析

第 90 个百分位令牌间延迟(P90ITL

用于测量推理过程中生成的令牌之间的时间间隔。具体而言,P90 值表示 90% 的标记间隔低于此阈值。较低的 P90 ITL 反映了更平滑、更稳定的输出,响应延迟的抖动更少。

当 AI 做出响应时,它不会立即生成完整的答案,而是逐字(或逐个token)生成。每个单词之间的暂停是令牌间延迟。P90 ITL 意味着在 90% 的情况下,此暂停不超过特定时间。该值越小,AI 的输出感觉就越流畅和自然 - 延迟更少,连续性更高。

每秒生成的Token数量

表示模型每秒可以生成的令牌数 (tokens/s)。它反映了推理系统的整体吞吐量。TGR 越高,系统就越高效和强大。

TGR 是 AI 推理提供商最重要和关键的生产力指标。更高的 TGR 意味着:

  • 每秒处理的更多请求
  • 更高的输出效率
  • 更好的资源利用率
  • 降低运营成本

测试结果清楚地表明,与传统的 InfiniBand (IB) 相比,AI智算交换机可提供更低的 P90ITL更高的 TGR

800G AI RoCE 交换机:性能和成本的突破

  • 无与伦比的性能:凭借更高的 TGR 和更低的 P90ITL,它提高了推理速度、响应能力和系统吞吐量。
  • 改变游戏规则的成本优势:它的价格仅为传统 InfiniBand 解决方案的三分之一,可在不影响性能的情况下大幅削减基础设施成本。
  • 专为可扩展的 AI 而构建:更快的响应、更低的延迟和行业领先的成本效益使 AI 提供商能够更快地扩展、为更多用户提供服务,并事半功倍。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DeepSeek 推理集群测试网络
  • DeepSeek 推理场景网络性能测试(条形图)
    • 了解关键性能指标分析
      • 第 90 个百分位令牌间延迟(P90ITL)
      • 每秒生成的Token数量
  • 800G AI RoCE 交换机:性能和成本的突破
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档