Dell Technologies对于线性光学的几个观点:
① LPO可插拔模块最合适的场景在服务器侧的高速光纤网卡NIC部署,而不是直接进Switch。
NIC只有单通道、低插损的短射频链路,对LPO更友好,重复性也高,不像Switch端的射频链路长短不一。NIC上的LPO光模块与Switch侧的DSP模块连接。Switch侧保留DSP模块使得所有端口的性能可以认为都是一样的,大大减少了测试的工作量。此外,网卡对于功耗和发热的需求会更紧迫,毕竟液冷服务器已经搞了很多年了,而液冷交换机才刚刚起步。
同时,系统厂家需要保证DSP-to-DSP的完整链路性能,包括Switch/NIC optics以及NIC/Server都需要进行绑定。LPO先能进到NIC之后,下一步再考虑LPO进到ToR Switch,这时候系统厂家就要给出更多的链路性能确认。
② LPO行业标准不足以支撑整体系统优化,甚至会走入死胡同,需要从系统需求角度看光互连的要求。
以AI-fabric Scale-up为例,每个Rack里边有8个服务器机架,每个server机架有8个NIC与8个Switch连接,每8个NIC/GPUs要与不同的Switch连接。这么杂乱的连接关系是无法用无源铜缆方案的。而采用光纤互连的方案中,Corning所推出的光纤混排线束Shuffle就解决了这个痛点,可以实现一次完成整网的搭建而非传统的点对点手动连接。这就是一个从系统需求出发促进系统优化的例子。
但是,当部署好光纤线束之后,就会发现在Switch侧还需要连接32个可插拔光模块,每个光模块还是MPO16的头。但实际上从客户视角,他们更想要跟前面的光纤连接一样,一个Switch管道就直接配一个32路的光模块。虽然现在也有了多路的CPO引擎,但演讲者认为CPO选择集成在难度最大的ASIC上也不是一个明智的选择,是又一个被行业标准所束缚的产物。
因此,演讲者认为AI时代不应该被以前的标准或者形态给束缚住,而是像Nvidia一样,跳出传统思维,根据AI数据中心的整体系统需求进行系统级的创新优化。8通道1.6T的可插拔模块作者认为是没有意义的,他更希望还是一个匹配Switch端口数(32/64/128)的接口面板,至于是可插拔还是OBO还是CPO都不重要。像Rack的尺寸等物理约束也不应该作为设计约束,需要跳出这些约束,进行整体系统的优化。
个人观点:戴尔想表达的观点不知道这样总结合不合适。AI数据中心不同于传统的数据中心,有很多可以跳出原来数据中心架构的创新,允许更多的定制化解决方案,以性能和成本优先,不需要形成行业标准。所以像Celestial AI的Photonic Fabric不能工作在标准规定的O波段也问题不大,只要他真的实现了他所说的大幅性能提升和成本下降。所以懂光的人不止要懂光,还得懂系统,懂架构,懂计算,懂AI才行😄