首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >当千卡集群遭遇RoCE丢包——你的网络规划工具够“智能”吗?

当千卡集群遭遇RoCE丢包——你的网络规划工具够“智能”吗?

原创
作者头像
星融元Asterfusion
发布2025-06-30 14:26:15
发布2025-06-30 14:26:15
1130
举报
文章被收录于专栏:智算中心网络智算中心网络

凌晨3点的智算中心:一位网络工程师的困境

第6次手动修改千卡集群IP规划表……

存储网段与计算网冲突引发RDMA丢包……

新到货20台GPU服务器无法纳入现有拓扑

“每次扩容都像重新造轮子……”——某AI实验室运维日志

这不是个例:

据超算协会调研,73%的AI算力故障源于网络规划失配,而传统工具有三大死穴:

  • 规划黑盒:Excel无法验证万级IP逻辑关系
  • 部署断层:设计图到设备配置需人工转译
  • 运维孤岛:监控工具与建设蓝图割裂

让AI网络规划从「灾难」变「流水线」

  • 帮助网络架构师快速梳理智算环境的复杂需求,一站式规划参数、存储、业务管理和带外管理四张网
  • 借助实用组网设计模板,自动计算并生成组网方案、设备互联关系和网络配置

一键导出 JSON 格式的设备互联关系数据,加速部署其他 EasyRoCE 系列工具插件,如GPU 节点内部路由规划(IRM)主动路径规划(PPD)多租户网络(MVD)以及实现与统一监控面板等(UG)相关的可视化呈现功能。

下面我们就逐步梳理一个典型智算中心基础网络的通用流程,来看 AID 工具是如何一步步引导用户完成高效且规范的部署动作。

步骤1:网络提前规划 →终结信息碎片化

智算环境下的服务主要有 GPU 服务器、存储服务器、业务管理服务器三类,这一步需要手动向 AID 录入所有服务器硬件的设备名称、型号、功率、高度等等硬件信息。

服务器的网口数量和带宽规格,是后续规划网络的关键信息,另有部分信息(例如名称、高度)会作为 AID 中其他规划模块的引用对象。

步骤2:自动设计组网方案 → 20分钟替代3天

有了上一步提供的服务器硬件信息,此时我们就可以根据集群规模大小,选择合适的“组网模板设计工具”(二层或三层,一般二层网络可满足大多数建网需求)。该设计工具本质上是从用户填写的 GPU 服务器、存储服务器、管理服务器和交换机规格信息,自动计算出每层所需的交换机数量。

根据生成的组网方案,此时便可到AID对应位置去补充每台交换机的名称、型号、设备功率、设备高度、出厂序列号等信息。其中最大功率、设备高度等是后续规划设备分布的重要参数。

步骤3:空间优化算法 →确定机柜布局

该步骤依据设备性能特点、散热需求及数据交互逻辑,为实施规划人员制定机柜内部的最优空间分布方案提供参考。

机柜的布局信息包括机柜所在的园区、楼栋、楼层、房间、排/列、机柜编码、U#、设备名称。

点击左侧按钮展开,可以看到这排机柜的情况,其中机柜中每台设备的名称都引用于已填写的表格信息。

步骤4:生成网络规划配置→规避99%的人为错误

经过上述步骤,智算环境下各个设备的互联关系也基本确定了。此时用户可运行 AID 内含的宏程序自动生成连接关系、自动填充互联 IP、服务器 Bond 口 IP、带外管理口 IP 等信息,快速完成参数网、存储网、业务管理网、带外管理网的规划配置,免去了人工计算的低效和潜在的错误风险。

步骤5: 与生态工具无缝协同 → 运维效率突破性提升

由AID规划配置的模块主要有,GPU Node内部路由规划器(IRM)、端到端路径规划(EPS)、主动路径规划(PPD)、多租户网络部署(MVD)等。

以主动路径规划工具(PPD)为例,我们使用 AID 工具规划交换机的设备名称、设备型号、设备角色、上行端口序号、下行端口序号、实例 ID、实例描述信息、下行 IP 列表、管理口地址、管理地址掩码、交换机的帐号密码.

其中除了实例 ID 和实例描述信息需要人为规划,其他字段都可以点击“填充设备信息”按钮完成自动填充。

AID还可以联动基于 Prometheus+Grafana 的监控面板,辅助实现 RDMA 网络在大屏的可视化呈现功能。

  • 拓扑自动呈现(TG)
故障定位提速80%
故障定位提速80%
  • 光模块地图(TM)
光链路故障0发生
光链路故障0发生
  • 链路分布地图(LM)
拥塞提前30分钟预警
拥塞提前30分钟预警

客户战场报告

“两周变两小时”——某自动驾驶公司万卡集群上线周期压缩98%

“光模块故障定位从4小时到10分钟”——某大模型工厂运维效率提升24倍

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 让AI网络规划从「灾难」变「流水线」
  • 步骤1:网络提前规划 →终结信息碎片化
  • 步骤2:自动设计组网方案 → 20分钟替代3天
  • 步骤3:空间优化算法 →确定机柜布局
  • 步骤4:生成网络规划配置→规避99%的人为错误
  • 步骤5: 与生态工具无缝协同 → 运维效率突破性提升
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档