凌晨3点的智算中心:一位网络工程师的困境
第6次手动修改千卡集群IP规划表……
存储网段与计算网冲突引发RDMA丢包……
新到货20台GPU服务器无法纳入现有拓扑
“每次扩容都像重新造轮子……”——某AI实验室运维日志
这不是个例:
据超算协会调研,73%的AI算力故障源于网络规划失配,而传统工具有三大死穴:
一键导出 JSON 格式的设备互联关系数据,加速部署其他 EasyRoCE 系列工具插件,如GPU 节点内部路由规划(IRM)、主动路径规划(PPD)、多租户网络(MVD)以及实现与统一监控面板等(UG)相关的可视化呈现功能。
下面我们就逐步梳理一个典型智算中心基础网络的通用流程,来看 AID 工具是如何一步步引导用户完成高效且规范的部署动作。
智算环境下的服务主要有 GPU 服务器、存储服务器、业务管理服务器三类,这一步需要手动向 AID 录入所有服务器硬件的设备名称、型号、功率、高度等等硬件信息。
服务器的网口数量和带宽规格,是后续规划网络的关键信息,另有部分信息(例如名称、高度)会作为 AID 中其他规划模块的引用对象。
有了上一步提供的服务器硬件信息,此时我们就可以根据集群规模大小,选择合适的“组网模板设计工具”(二层或三层,一般二层网络可满足大多数建网需求)。该设计工具本质上是从用户填写的 GPU 服务器、存储服务器、管理服务器和交换机规格信息,自动计算出每层所需的交换机数量。
根据生成的组网方案,此时便可到AID对应位置去补充每台交换机的名称、型号、设备功率、设备高度、出厂序列号等信息。其中最大功率、设备高度等是后续规划设备分布的重要参数。
该步骤依据设备性能特点、散热需求及数据交互逻辑,为实施规划人员制定机柜内部的最优空间分布方案提供参考。
机柜的布局信息包括机柜所在的园区、楼栋、楼层、房间、排/列、机柜编码、U#、设备名称。
点击左侧按钮展开,可以看到这排机柜的情况,其中机柜中每台设备的名称都引用于已填写的表格信息。
经过上述步骤,智算环境下各个设备的互联关系也基本确定了。此时用户可运行 AID 内含的宏程序自动生成连接关系、自动填充互联 IP、服务器 Bond 口 IP、带外管理口 IP 等信息,快速完成参数网、存储网、业务管理网、带外管理网的规划配置,免去了人工计算的低效和潜在的错误风险。
由AID规划配置的模块主要有,GPU Node内部路由规划器(IRM)、端到端路径规划(EPS)、主动路径规划(PPD)、多租户网络部署(MVD)等。
以主动路径规划工具(PPD)为例,我们使用 AID 工具规划交换机的设备名称、设备型号、设备角色、上行端口序号、下行端口序号、实例 ID、实例描述信息、下行 IP 列表、管理口地址、管理地址掩码、交换机的帐号密码.
其中除了实例 ID 和实例描述信息需要人为规划,其他字段都可以点击“填充设备信息”按钮完成自动填充。
AID还可以联动基于 Prometheus+Grafana 的监控面板,辅助实现 RDMA 网络在大屏的可视化呈现功能。
客户战场报告
“两周变两小时”——某自动驾驶公司万卡集群上线周期压缩98%
“光模块故障定位从4小时到10分钟”——某大模型工厂运维效率提升24倍
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。