

本文内容基于以太网联盟2025年TEF(Ethernet for AI)大会上,Meta AI架构师Halil Cirit的主题演讲《Transitioning to 400G SerDes: Key Drivers and System Design Implications for Future AI Workloads》整理,演讲者Halil Cirit是拥有超过19年半导体行业经验的资深SerDes与系统专家,自2018年11月加入Meta(原Facebook)以来,负责SerDes与系统互连技术规划,核心聚焦下一代高速接口的研发与落地。加入Meta前,Halil Cirit曾担任Inphi公司高级经理,主导56/112 Gb/s PAM4 DSP芯片的开发;更早还曾任职于博通公司,负责25 Gb/s以太网接收机研发,以及英伟达的高速I/O设计工作,具备全链路高速互连技术的深厚积累。

◆ 生成式AI爆发驱动超大规模算力集群的指数级扩张

当前AI技术已实现全场景深度渗透,Meta旗下应用已覆盖34亿日活用户,推出仅1.5年的Meta AI已实现全应用与网页端覆盖,月活跃用户突破10亿,具备对话交互、网页交互、图像理解、语音处理、图像编辑等全栈AI能力。短视频内容分发、内容合规审核、图像识别、推荐排序、生成式AI大模型等业务的爆发,推动算力需求进入指数级增长通道。

以Llama系列大模型为核心的生成式AI技术迭代,正在重构数据中心集群的规模边界。MoE(混合专家模型)架构的快速发展、大模型专家数量的持续扩张,使得集群网络带宽需求的增速远超单节点算力的提升。同时,单芯片的硅片面积持续扩大以承载更强的算力,更高数量的加速器成为保障AI性能的必需配置。


在此背景下,Meta正在推进超大规模AI集群的阶梯式扩张:2023年已实现24K GPU规模的数据中心级集群部署;2024年集群规模扩展至129K GPU,实现区域级覆盖;2025年及未来,将进一步迈向数百万GPU规模的多区域级集群。更具标志性的是,Meta正在开发名为Prometheus的超算集群,预计2026年将实现1GW+的算力规模上线;其长期规划的Hyperion集群,未来几年将逐步扩展至5GW的算力规模,同时Meta还在同步建设多个超大规模集群,单集群的占地面积已接近曼哈顿的核心区域规模。


◆ AI集群互连架构的演进与规模扩张的核心矛盾
为支撑超大规模集群的性能释放,AI系统的互连架构已形成三级核心维度,分别为Scale-in、Scale-up、Scale-out。其中Scale-in为单托盘内的芯片级互连,覆盖XPU芯粒、HBM存储、IO芯粒之间的近距通信;Scale-up为单机架内多托盘的跨托盘互连,是下一代数据中心互连优化的核心方向;Scale-out为多机架之间的集群级互连,支撑超大规模算力的跨节点协同。

为提升单机架的算力密度,行业正在推进机架架构的持续迭代,当前已形成清晰的演进路径:当前主流的ORv3机架支持单机架不超过72个加速器,采用有线背板设计,支持48 VDC/±400 VDC供电,兼容风冷与液冷方案,为单宽IT/电源机架;下一代机架将支持单机架不超过144个加速器,采用双宽IT机架设计,供电与散热方案保持兼容;未来将推出不少于256个加速器的超高密度机架,单机架功耗突破900kW,采用±400 VDC供电,以液冷为主要散热方案,机架尺寸仍在规划中。


但超高密度机架的规模扩张,同步带来了多维度的落地挑战:包括机架设计与制造的难度显著提升、大尺寸机架的运输成本高企、现场运维操作的复杂度大幅增加,同时还需要数据中心基础设施的全面升级适配。基于此,解耦化架构、采用光互连的低密度机架,成为下一代机架系统的核心演进方向。

◆ Beachfront瓶颈:AI集群网络IO扩展的核心约束
AI系统的性能释放,依赖于内存带宽、计算能力、网络IO带宽三大支柱的协同提升,三者必须同步迭代才能实现系统性能的线性扩展。但当前行业面临的核心矛盾在于,内存与计算能力可随着半导体制程的先进节点升级实现线性缩放,而SerDes设计无法同步跟进这一节奏,网络IO带宽成为制约AI集群规模扩展的核心瓶颈,也就是行业所称的Beachfront瓶颈。

Beachfront瓶颈的核心本质,是背板物理空间对高速互连链路的刚性约束。以ORv3 600mm规格的OU为例,其交换机托盘背板的横截面空间极为紧张,仅能部署1024~1152对差分对,在200G SerDes的配置下,单OU仅能实现102.4T~115.2T的总带宽,这一限制已成为网络交换机托盘的核心性能瓶颈。同时,背板空间还需要预留盲插快速断开结构、通风口、高速连接器、母线夹、导向销等功能结构的安装与对准空间,进一步压缩了高速互连链路的可用部署空间。

从全链路视角来看,SerDes PHY、共封装铜(CPC, Co-Packaged Copper)、连接器、中介层、基板走线与线缆、节距限制等全链路环节,共同构成了网络IO带宽的刚性约束,最终导致系统实现了数倍的计算能力与内存带宽提升,却仅能获得1倍的网络IO带宽增长,严重制约了超大规模AI集群的性能扩展效率。
◆ 400G SerDes转型:突破带宽瓶颈的必由之路
为破解Beachfront瓶颈,提升单链路的传输速率成为唯一可行的路径,行业向400G SerDes的技术转型已成为必然趋势。回顾高速SerDes的演进历程,其信令速率原本保持每两年翻倍的节奏,从早期的1G、3.125G,到10G、25G的NRZ调制,再到50G、100G、200G的PAM4调制,其中NRZ向PAM4的调制技术升级,支撑了两代速率的提升。但当前200G PAM4已触及调制技术与前向纠错(FEC)的性能极限,400G SerDes的规模化落地,需要全新的技术突破,包括更强的FEC机制与更高阶的调制方案,同时需要超大规模云厂商的深度参与,加速产品的上市时间(TTM)。

信道性能的不足,是400G SerDes落地面临的核心物理层挑战。Meta的信道测试数据显示,224G Meta信道在56GHz频率下的插入损耗为-35.7dB,448G Meta信道的插入损耗是-32.4dB,支持工作在PAM16或SBD PAM4模式;即使是未来优化后的信道,也仅能支持PAM6/PAM8的调制范围(-40 dB@75GHz,-52.2 dB@90GHz),无法满足PAM4的损耗要求。这一现状意味着,行业无法等待信道性能的改善来适配PAM4调制,必须通过调制技术、FEC算法的底层革新,来实现400G SerDes的工程化落地。

在共封装铜的链路设计中,计算托盘到CPC的链路长度约15cm,CPC到交换机模块的链路长度约140cm,交换机托盘内部的链路长度约70cm,全链路的性能协同,是实现无重定时器链路设计的核心基础。

◆ 全产业链协同与开放生态:400G SerDes规模化落地的核心支撑
400G SerDes的规模化落地,无法依靠单一环节的技术突破,需要全产业链的深度协同与联动。行业需要推动SerDes厂商、封装制造商、连接器厂商、线缆供应商、机架架构师的紧密合作,核心目标是实现无重定时器(retimer)的端到端链路设计,从而在实现高速传输的同时,降低链路功耗、控制传输延迟,适配AI工作负载的低延迟需求。

同时,开放的标准框架与生态建设,是技术快速迭代的核心基础。以太网联盟始终坚持基于标准的技术推进框架,通过开放的技术讨论、共享的数据环境,促进全行业的信息交流与技术迭代。行业必须坚持开放优于锁定、兼容性优先的原则,依托IEEE、OIF、超以太网联盟等标准组织的协同,构建完整的高速互连技术栈,推动技术的普惠落地。
◆ 结论
当前,AI技术的全场景渗透正在驱动数据中心规模的爆发式增长,生成式AI的快速迭代与超大规模集群的建设,对互连系统提出了Scale-in、Scale-up、Scale-out、跨域全维度的带宽压力。向400G SerDes的技术转型,是支撑未来AI工作负载的核心路径,其不仅覆盖电互连场景,也将同步支撑光互连的技术演进,最终不仅实现系统性能的跃升,更将优化数据中心的能效水平与成本效益。而这一技术的规模化落地,离不开全产业链的协同创新与开放标准生态的持续建设。
