智能高性能网络(Intelligent High-performance Network,IHN)是作为腾讯万亿大模型的高性能网络底座,基于 QP 源端口预规划、端网拓扑亲和、定制加速通信库 TCCL、全局拥塞调度等能力,结合腾讯自研网络设备,为用户提供软硬一体、端网深度协同高性能网络解决方案,适用于客户超大规模,超高带宽,超强可靠的 AI 网络需求。
如何使用智能高性能网络?
通过腾讯云控制台提供的 Web 服务界面进行智能高性能网络的配置和管理。
产品组成
智能高性能网络由以下部分组成:
物理集群:是一个逻辑实体,是 GPU 服务器和智能高性能网络实例的集合。
网络实例:代表一个独立的 RDMA 网络,不同网络实例之间相互隔离。
GPU 服务器:代表一台物理 GPU 服务器,作为多租户的最小划分单元。
功能介绍
超高性能的网络设备
提供超高端口密度的网络交换机,网络单节点支持25.6T/51.2T吞吐。应用先进的 BR4 光模块构建数据桥梁,具有出色的抗干扰能力和低误码率。
大带宽计算节点
AI 大模型训练是一种带宽敏感的计算业务,智能高性能网络为每个计算节点提供1.6T/3.2T的超高通信带宽,每张 GPU 卡提供200Gbps/400Gbps接入带宽,相对传统数据中心网络有指数级的通信性能提升。
多轨道流量聚合架构
智能高性能网络对通信流量做了基于多轨道的流量亲和性规划,多轨道流量聚合架构将不同服务器上位于相同位置的网卡,都归属于同一个接入层交换机,实现流量亲和传输。
集合通信库 TCCL
融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,大幅降低通信延时。
端到端全栈网络运营系统
通过端网立体化监控与智能定位系统,将端网问题自动定界分析,让整体故障的排查时间由天级降低至分钟级。
相关概念
概念 | 说明 |
RDMA | Remote Direct Memory Access,远程直接内存访问,是一种高速网络互联技术,用于减少数据传输过程中收发端处理延时和资源消耗。 |
TCCL | Tencent Collective Communication Library,腾讯自研的高性能集合通信库。 |
QP | Queue Pair,RDMA 的通信基础。 |
RoCE | RDMA over Converged Ethernet,基于以太网的 RDMA 技术,分为 RoCEv1 和 RoCEv2 两个版本。 |