
摘要 (Abstract)
【—AGI小咖—账号战略升级提醒】洞察AGI时代,架构先行。本账号聚焦AI时代算力集群与芯片架构挑战,欢迎持续关注!前期我们分享了百度百舸、阿里HPN与腾讯星脉的组网架构。本期,我们将从字节跳动官方发布的《MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs》论文及《GPU Scale-up互联技术白皮书》白皮书入手,深度复盘和推演MegaScale如何利用网络、系统、算法的全栈优化解决方案来破解万卡集群之道的。
2025年上半年,随着OpenAI的GPT-5、Google的Gemini 2.0,以及国内百度文心、阿里通义千问、腾讯混元、DeepSeek系列等万亿参数MoE模型的相继发布,万卡GPU集群似乎已成为AI基础设施的标配。
在 12,288 张 GPU 和 175B 参数模型的配置下,字节跳动的生产系统 MegaScale 实现了高达 55.2% 的模型浮点运算利用率 (MFU),这一效率是目前主流开源框架的 1.34 倍。该系统在强扩展性(Strong-Scaling)和弱扩展性(Weak-Scaling)方面均表现出色。MegaScale在生产环境中稳定运行数周,即使经历了超过 100 次故障,仍能保证 90% 以上的有效训练时间。与此同时,所有算法优化均通过微基准测试(microbenchmarks)进行了“无损”验证,确保了模型损失函数(Loss)的稳定收敛。
接下来我们从网络、算法、系统三个层面进行复盘和推演,同时以智算网络的视角窥探和串讲其中真谛。
(1)1:1无收敛比CLOS架构: 如图1,万卡集群基于Broadcom Tomahawk 4(25.6T)交换机构建了三层CLOS-like拓扑,严格按照1:1的无收敛比设计(32上行/32下行),400G交换机下行口通过特定的一分二AOC线缆拆分为两个200G端口接入服务器。
(2)通用标准化POD设计: 万卡集群由多个业界标准化的POD(Point of Delivery)组成:
① ToR交换机组: 8台ToR交换机构成一个交换机组。
② 服务器接入: 每台服务器通过8张200G网卡接入8台TOR交换机,形成16个Multi-rail轨道。
③ POD规模: 每台ToR的32个400G下行口被拆分为64个200G端口,共同服务于64台服务器的接入的512张GPU卡。

图1 :8导轨优化的两层架构示意图
(3)调度灵魂 - 拓扑感知与ECMP冲突规避: 为了解决ECMP哈希冲突的问题,除了硬件层面的CLOS设计和多轨道连接设计外,MegaScale还通过定制化的Kubernetes系统之上的调度器,实现网络拓扑感知和核心“数据密集型节点”的通信严格控制在本地化上,这里面的核心——识别与调度“数据密集型节点”的工作流如下:
① 节点识别: 基于对3D并行通信模式的分析,系统将通信最密集、延迟最敏感的张量并行(TP)组,精准识别为“数据密集型节点”。
② 任务解析与拓扑感知: 高度定制化的Kubernetes调度器在接收训练任务后会做执行两个工作:A)解析其3D并行配置(如TP=8, PP=8, DP=192);2)预先感知的全局网络拓扑(服务器与ToR的隶属关系)。
③ 亲和性调度: 调度器为隶属同一TP组的GPU Pod设置强亲和性(strong affinity)规则,进而将其调度在同一POD乃至同一机柜内。
以上策略执行完毕后,最激烈的TP通信被“锁”在机柜内部,流量无需经过核心网络,进而在根源上避免了ECMP哈希冲突。
2.1.2 优化设计之二:应用层调优到协议栈优化 从字节跳动与北大联合发表的论文来看,MegaScale通过应用层调优仅解决了部分痛点,从Ethlink白皮书上看,给我们提供了不少从大模型底座层面继续优化的空间和演进思路。
正如由主流厂商参与的超以太网联盟(UEC)在2025年发布全新UET传输协议的1.0规范一样,字节跳动也推出了自研的Scale-up解决方案:EthLink。
(1)痛点: 为了获得更高的MFU,必须最大化释放计算引擎。传统Scale-up网络(如NVLink)依赖的Load/Store语义在传输大块数据时会消耗宝贵的计算资源;而传统Scale-out网络(如RoCEv2)的RDMA协议栈又相对笨重。AI训练既需要RDMA的大带宽,也需要Load/Store的低延迟,单一通信语义无法兼顾。
EthLink方案:字节跳动向我们深刻地阐述了有时候鱼和熊掌亦可兼得,即在协议栈层面创造性地原生支持RDMA与Load/Store两种语义,由AI应用自主进行智能选择:用硬件卸载的、轻量级的RDMA处理高带宽的张量数据,还是用Load/Store处理延迟敏感的控制信令。
(2)痛点: 联合论文原来通过自研拥塞控制算法以规避PFC风暴,同时精细调优NCCL参数以应对链路抖动,这些均属应用层的“被动响应”与“软件变通”。
EthLink演进: 将可靠性下沉至硬件,实现“主动保障”,具体体现在:
① 基于信用的流控 (CBFC): 替代原来用粗粒度的PFC,以更精细的方式管理交换机缓存。
② 硬件级链路层重传 (LLR): 在链路层实现快速丢包检测与重传。
(3)痛点③: 传统网络协议头开销大,且故障感知依赖秒级的应用层超时。
EthLink演进:优化标准以太数据包+交换机主动毫秒级通知GPU
① 优化的报文头 (OEFH): 以太网物理层之上,构建了一套专为GPU间通信设计的、更轻量级的链路层和事务层协议。传统的RoCEv2需要依赖IP和UDP头来进行路由和传输,而EthLink则直接使用6字节(即用6字节的头部替代臃肿的ETH+IP+UDP头)的OEFH进行寻址和转发,进而大幅提升GPU间通信的有效Payload率。
② 交换机事件通知 (Switch Event Notification): 颠覆传统故障发现模式,由交换机在链路中断时主动、快速通知源GPU,使其能毫秒级切换至健康路径,将故障恢复时间提升数个数量级。
在3D 并行层面实现“一切皆可并行”,具体包括:对 All-Gather 操作进行预取以实现数据并行(DP),将Send/Receive 操作与计算阶段解耦以优化流水线并行(PP),以及将通信算子与GEMM 计算深度融合以提升张量并行(TP)效率。
此外,还通过用Redis 替换元数据存储、采用FlashAttention-2 等高效算子与Tree-based Loading 机制,同时利用异步解耦的Checkpointing 机制分离本地内存写入与HDFS 上传,从而全面优化了集群初始化、算子效率和检查点性能。
(1)Transformer块 (PTB)并行处理: Attention和MLP计算由原来的串行改为并行。
(2)滑动窗口注意力 (SWA): 采用稀疏注意力机制进行长序列处理。
(3)LAMB优化器:相较于传统Adam优化器的批次大小(Batch Size)提升了4倍。
以网络为主线,通过在训练中突发网络抖动,导致大量GPU突发NCCL通信超时,看看MegaScale各个核心组件之间是如何协同作战的:
1.应用层自愈与网络层响应: 面对端口抖动,MegaScale通过精细调优NCCL重传超时参数同时启用网卡adap_retrans特性,系统尝试在应用层面“硬扛”瞬时抖动。同时触发定制化拥塞控制算法基于RTT异常进行毫秒级调整,尽力维持网络稳定。然而从Ethlink解决方案上来看,上面这种仍是相对被动的软件层恢复机制,还有更好的推荐解决方案即通过硬件级链路层重传(LLR)机制,实现在纳秒级完成链路层自愈。
2.系统层定损: 当网络抖动超出底层自愈范畴,将引发集群级联超时(cascading timeouts)。
3.可视化溯源与主动汇报: MegaScale通过其3D并行训练可视化工具,基于正常节点超时前上报的日志在逻辑维度上重构数据流拓扑信息,通过“反向推理”来定位“沉默”的故障风暴眼。然而从Ethlink解决方案上来看这种“推断式”定位仍有延迟还可以有优化空间:通过交换机事件通知(Switch Event Notification)进行“主动汇报”,即由交换机在端口故障时主动、快速地通知源端GPU,进而在故障定位提供了来自网络层的权威证据,更快速的指导系统进行秒级的多路径切换。
4.外科手术式恢复: 基于可视化分析进行精准定位故障节点IP,同时提交自动化容错框架方案联动系统完成节点隔离与替换,同时从最新的检查点恢复训练,分钟级恢复集群训练。
基于字节跳动和北大研究团队联合发表的MegaScale万卡集群论文,同时结合字节跳动最近发布的Ethlink 技术白皮书,我们一起复盘和推演了MegaScale如何利用网络、系统、算法全栈优化的解决方案,打破大规模训练场景下的“算力墙”与“内存墙”,进而极致的释放万卡集群训练的性能的。
展望未来,一个基于开放以太网生态、软硬件协同、多语义融合的GPU互联架构,一套覆盖训练-推理全生命周期、并专项优化稀疏化(MoE)模型的端到端AI基础设施,或许会成为驱动通用人工智能算力持续指数级增长的核心引擎。【AGI小咖:洞察AGI时代,架构先行】本文由【AGI小咖】原创。您的转发、在看和点赞是对我们最大的支持!欢迎留言讨论。