Arista Networks本周宣布开发出12.8 Tbps液冷光模块,称该产品将有助于满足AI数据中心网络发展所需的功耗和性能要求。
该模块被称为超密度可插拔光模块(XPO),提供12.8Tbps带宽,使用64个电气通道,并集成了液冷冷板,能够支持400W以上的模块功耗。这家网络供应商表示,已经在多源协议(MSA)框架下聚集了约45家领先的光模块供应商来构建和支持XPO技术,不过只透露了其中三家供应商的名称:Lightmatter、Eoptolink Technology和TeraHop。
Arista表示,XPO为客户在可插拔光模块领域创建了一个新类别和选择,超越了ZR/ZR+/800ZR光模块,特别针对许多数据中心光网络中使用的八通道小型可插拔(OSFP)模块。
Arista联合创始人兼首席架构师Andreas Bechtolsheim和云与AI网络负责人Vijay Vusirikala在关于XPO的博客中写道:"预计今年将有超过1亿个OSFP模块出货,使OSFP成为有史以来最重要的光模块封装形式。在可预见的未来,OSFP将继续作为出货量最大的光模块封装形式蓬勃发展。话虽如此,大型AI数据中心对带宽需求的无休止增长,在带宽密度、散热能力和可靠性方面超出了OSFP设计范围。"
Bechtolsheim和Vusirikala表示,XPO提供了比OSFP高4倍的前面板密度,支持任何类型光模块的集成液冷技术,大幅降低故障率,单个XPO模块可以替代八个OSFP模块的工作。
他们表示:"简而言之,XPO让客户能够用四分之一的交换机机架构建大型AI数据中心。这对于纵向扩展和横向扩展应用都极其重要,因为如果没有XPO,传统交换机机架的数量将超过GPU机架的数量。"
为了证明这一点,两位作者设想了一个400兆瓦的AI数据中心,配备1024个GPU机架,每个机架128个GPU,总计128000个GPU。"假设每个GPU需要12.8T纵向扩展带宽和1.6T横向扩展带宽。使用每机架密度为1.6 Pbps的OSFP交换机机架,纵向和横向扩展结构将需要超过1400个交换机机架。使用XPO,这将减少75%的机架,节省超过1050个机架或44%的楼面空间。"
Bechtolsheim和Vusirikala在博客中表示:"减少75%的交换机机架将大幅降低建设和基础设施成本,包括电力分配、管道和安装成本,同时加快部署时间。"
Arista表示,XPO的水冷能力也是一个重要特性。
Bechtolsheim和Vusirikala表示:"所有大型AI数据中心都将采用液冷技术,进入这些数据中心的交换机也需要液冷。虽然可以在平顶OSFP模块上添加液冷冷板,但这并不能显著改善散热性能。"
Bechtolsheim和Vusirikala表示,XPO通过在模块内部集成液冷板解决了这个问题,两个32通道桨卡共享公共冷板,既能冷却低功率光模块,也能冷却高功率光模块,如8x1600G-ZR/ZR+,最高支持400W功率。
XPO模块比OSPF模块简单得多,这也提高了可靠性。Bechtolsheim和Vusirikala写道:"每个32通道桨卡只有一个微控制器和一组电压转换器,与4个OSFP相比,通用组件减少了75%。"
Arista在关于XPO的白皮书中写道:"在包含数万条光链路的大规模AI结构中,组件故障在统计上是不可避免的。然而,目前光模块的硬故障和软故障率仍然高于这种环境中运行可靠性所需的理想水平。"
Arista写道:"单个故障可能会中断或停止价值数百万美元的训练任务,导致计算周期浪费和重大财务影响。在包含50000多条光链路的结构中诊断和更换故障模块是一个重大的运营挑战,通常会对任务调度产生连锁反应,并导致网络资源严重碎片化。"
Arista表示,功耗是现代数据中心设计的关键约束。
Arista写道:"高密度机架在有限的功率预算内运行,网络消耗的每一瓦都是无法用于创收计算资源的一瓦。因此,光互连必须显著降低每传输比特的功耗。高效率不仅对于降低运营成本至关重要,也是最大化每个机架的计算密度和整体性能的关键。"
Bechtolsheim和Vusirikala写道:"XPO通过两种方式支持最节能的光设计。首先,它为交换机芯片提供清洁的电气通道,支持低功耗线性接口。其次,它支持最节能的光子技术,以及其他更低功耗的技术,如射频微波技术。"
Futuriom高级分析师Mary Jander写道,Arista的新XPO模块标志着光收发器技术的全新重要突破。Jander表示:"如果它在生产中按计划执行,可能会大幅降低超大规模云服务商、新云服务商和大型企业的资本支出和运营成本。更不用说提升Arista产品的能力了。"
Q&A
Q1:XPO光模块相比OSFP模块有什么优势?
A:XPO提供比OSFP高4倍的前面板密度,集成液冷技术支持任何类型光模块,大幅降低故障率。单个XPO模块可以替代八个OSFP模块的工作,让客户能够用四分之一的交换机机架构建大型AI数据中心。
Q2:XPO光模块如何解决AI数据中心的散热问题?
A:XPO通过在模块内部集成液冷板解决散热问题,两个32通道桨卡共享公共冷板,既能冷却低功率光模块,也能冷却高功率光模块如8x1600G-ZR/ZR+,最高支持400W功率。
Q3:使用XPO光模块能为数据中心带来什么成本节约?
A:XPO能减少75%的交换机机架,在一个400兆瓦AI数据中心中可节省超过1050个机架或44%的楼面空间,大幅降低建设和基础设施成本,包括电力分配、管道和安装成本,同时加快部署时间。