翻译一篇关于数据中心光开关的综述,作者包括欧洲的剑桥大学、埃因霍温科技大学,日本AIST团队,美国哥伦比亚大学团队以及国内浙江大学团队等。
一、光开关网络的关键指标
① 系统指标
数据中心由众多服务器作为计算节点和存储子系统组成,它们通过适当的网络硬件相互连接,并且需要高度工程化的电力和冷却系统。典型的数据中心可能每个机架Rack有20台服务器,20个机架组成一个集群cluster,总共大约有200个集群。DCN负责支持大量并行服务器机器之间交换的工作负载。传统的DCN通常使用多级架构,如三层架构(核心、聚合和接入层),或者两层的脊叶架构。不同的层有不同的目的,并采用不同的交换方案。例如,Facebook数据中心的网络架构(F16 fabric)使用了三层交换机,包括从下到上的机架顶部(ToR)、fabric和spine交换机,连接数据中心内的所有机架。其中,ToR交换机通过铜缆或光缆连接服务器,而机架间通信由电交换机层处理。
理想情况下,DCN应提供完全的对分bisection带宽,即网络收敛比为1:1,这时候的服务器利用率和计算效率很高。然而,由于电交换机的带宽和端口密度的超线性成本,这样的设计对于大规模DCN来说成本过高。实际上,数据中心倾向于执行1:4到1:10的收敛比。机架内通信的带宽比机架间通信的带宽更高,并且在更高的交换层也会有类似的趋势。
从系统的角度来看,对交换网络提出了一系列严格的要求:
1. 容量
尽管用户和DC之间的流量很大,但大多数数据通信是在数据中心内部(东西向流量)。最近的研究表明,机架间流量持续增加,并且有明显的多数流量是集群内的(超过50%)。特别是对于机架间和集群间的通信,需要更高带宽的互连和高容量的交换元素,以避免因流量的固有突发性而导致的拥塞丢包和故意过载的网络。
2. 时延
在DC的封闭环境中,时延(定义为数据包从发送到接收的端到端时延)主要由交换机延迟主导,主要由缓冲buffering、路由算法和仲裁贡献。低时延是关键的性能要求,特别是对于像金融网络等场景甚至要求微秒级时延。
3. 互连性Interconnectivity
数据中心中的服务器通常有数十到数百个并发活跃流。大量的流将通过ToR交换机的上行链路进行机架间通信,这要求交换网络有足够的互连性来适应高数量的并发流。此外,考虑到大多数流都是短的,并且倾向于内部突发,还需要快速和动态的可重构互连性(例如,统计多路复用),以保证高效的带宽利用和及时的服务交付。
4. 可扩展性和灵活性
网络架构应能够以成本高效的方式扩展到大量节点,以满足未来容量需求。例如,以增量方式扩展现有网络的节点数量和带宽,即不需要替换大量已安装的硬件。另一方面,数据中心还期望采用能够灵活管理服务交付并适应变化需求的技术。
5. 快速重新配置和控制机制
为了充分利用统计多路复用带来的灵活性,需要具有快速切换时间和快速控制机制的光交换网络。交换控制的实现应随着网络规模和光交换端口数量的增加而扩展,更重要的是,尽可能少地占用资源。
6. 能耗
数据中心目前消耗约全球总电力的1%。需要提高网络的能效以降低与能源相关的成本。预计未来DCN的单比特能耗将从目前的数十pJ降低到1pJ或更低。
总结:为了有效提高带宽效率并处理数据中心流量的突发性,需要具有高容量、低切换延迟和精细切换粒度(例如,部署统计多路复用)的高容量交换网络。大量的并发流使得大型互连性和快速重新配置成为交换机的必要条件,而基于电交换的方法可能难以持续演进。点对点互联和数十毫秒的交换时间使得电交换只能应用于提前规划好且持续时间较长的任务。随着服务器节点数量的增加和I/O带宽的快速升级,这些要求在交换节点和网络架构方面都将非常具有挑战性。
首先,传统的电交换机很难满足未来的带宽需求。这种瓶颈部分可以归因于传统摩尔定律的即将结束。此外,尽管商业硅供应商不断努力开发特定于应用的集成电路(ASIC),但由于球栅阵列封装的扩展问题,高带宽电交换节点的实现受到交换ASIC I/O带宽的限制。通过在多级结构中堆叠多个ASIC可以实现更高的带宽,但代价是更大的延迟和更高的成本。另一个限制因素是功耗。由于电交换机必须存储和传输每个比特的信息,它在每个比特转换时都会耗散能量,导致功耗至少与它所承载信息的比特率成正比。O/E/O转换和数据格式相关的交换界面也需要进一步集成到前端,这进一步恶化了能效和成本效率性能。
此外,连接数千个ToR交换机,每个交换机都带有大量聚合流量,将对当前DCN采用的多层树状拓扑施加巨大压力。由于电交换机在带宽和端口密度方面的性能限制,网络通常采用过收敛配置。因此,不同机架/集群中的服务器之间的通信尤其是数据密集型计算,会成为未来的瓶颈。多层交换机还增加了数据包穿越整个DCN到达目的地时的延迟,主要是由与缓冲相关的处理引起的排队延迟。因此,为了有效解决下一代DCN所提出的带宽、延迟、可扩展性和能源要求,创新的光交换技术和网络架构至关重要。
② 器件指标
1. 开关速度
开关速度取决于应用场景,可以从ms级(用于备份规划应用)到ns级(用于高性能计算应用)。因此,需要不同的光开关技术和架构,例如慢速毫秒级开关(基于微电机系统(MEMS)、基于压电的光束控制、热光(T-O)开关)或快速纳秒级突发/数据包开关(半导体光学放大器(SOA)、基于电光的光束控制和干涉仪)。然而,也有报道称,将开关时间降低到100纳秒以下,在数据中心网络(DCN)中并不会带来显著的好处,因为所有穿越开关链路的重新训练时间在开关重新配置后可能会超过100纳秒。下图展示了光开关的价值与其开关时间的关系。可以看出,在1微秒到1秒的范围内,价值缓慢下降,并且超过1秒时显著下降。
2. 插入损耗
插损取决于开关的工作原理和拓扑结构,决定了系统的功率预算。理想情况下,开关应该是无损耗的,特别是当多个开关级联时,否则可能需要在线放大器来补偿累积的插损。目前,Si/SiN光子平台与III-V SOA的混合集成是实现无损耗光开关最有希望的解决方案之一。
3. 噪声和非线性
高损耗需要光放补偿时会降低光信噪比(OSNR),阻碍了大端口数开关的实现。当使用SOA时,这种情况尤其明显,因为它们具有较大的噪声系数,会加速OSNR的降解。此外,在高输入功率水平下,SOA的非线性也可能会引入信号失真。因此,基于SOA的光开关的精心设计至关重要,本章稍后将详细讨论。
4. 串扰
串扰是评估光开关质量的另一个重要指标。在大型交换矩阵中通常需要小于-35dB的串扰,也就是光开关的开关比。SOA基光开关是首选,它可以轻松实现大于45dB的ON/OFF比率,工作带宽大,而微环或马赫-曾德尔干涉仪(MZI)基光开关适用于窄带操作。
5. 端口尺寸可扩展性
光开关的可扩展性也非常重要,对于大规模DCN的应用,通常需要至少16到32个端口。不同的开关机制和架构具有截然不同的扩展能力,例如,MEMS开关已经成功地演示了数百个端口,而当前基于热光MZI的开关记录是64×64。
6. 成本
要使光开关网络具有成本竞争力,需要使链路可配置的成本必须显著低于添加额外链路的成本(低一个数量级以上)。考虑到目前100 Gb/s光链路(包括光收发器和接口的成本)的价格从每个端口1000美元不断降低到接近100美元。为了保持一个数量级的优势,光开关应该将每个端口的成本目标定在10美元以内。
7. 功耗
开关(例如,SOA、微环或MZI)的功耗非常重要,因为它决定了可以集成在单个芯片上的光活性元件的数量,也决定了开关的可扩展性。通常,电压驱动的光开关(微环或MZI)比电流驱动的(SOA)更受青睐,因为功耗较低。
8. 控制复杂性
整体控制电路的复杂性(包括干涉仪设备中的温度稳定和波长锁定)也应该仔细考虑,特别是对于具有数百或数千个组件的大型端口数开关。控制驱动器的复杂性也对整体开关速度和功耗有影响。
9. 偏振
包括无源器件的偏振相关损耗PDL,或对于放大器如SOA的偏振相关增益(PDG)。对于DCN的短链路和封闭环境,它们的效果与插入损耗相似。目前已经报道了低PDG(小于0.5dB)的SOA。
总结而言,光开关需要具备超过16个端口和小于1ms的开关速度才有价值。另一方面,成本/能效之间的权衡也要求在开关设计中仔细考虑。例如,硅光子开关的成本效益高,但通常有较高的插入损耗,而基于III-V族的SOA开关可以实现无损耗,但代价是更高的价格和功耗。
二、 光交换网络架构概览
交换设备的性能在很大程度上取决于所选拓扑,包括交换网络的阻塞特性、串扰抑制、总交换单元数量和级联阶段数。一些经典的交换架构,如Crossbar、Banyan型、Clos和Benes网络等,是从电交换网络设计中借鉴而来的,而其他的则由光交换网络的先驱者提出,尤其是那些为了弥补光子集成技术限制而进行的创新。例如,N级平面架构被提出以消除波导交叉,路径独立损耗(PILOSS)网络旨在实现所有路径上的损耗均匀性,扩张网络被用来完全消除一阶串扰。上表列出了常见的光交换架构,包括Banyan型、N级平面、交换和选择、PILOSS、Crossbar、Benes和扩张Benes,并根据它们的阻塞特性以及诸如串扰水平、总交换元素数量和交换阶段数等其他关键指标进行了说明。
1. Banyan型阻塞网络
Banyan型交换网络,最初是为计算机网络提出的,也适用于高速电子和光交换应用。它是一类多级网络,没有路径多样性,存在一些变体,包括banyan、omega、baseline和n-cube,在这些变体中,不同级之间的连接模式有所不同。
Banyan型交换网络提供了一个全连接但有阻塞网络的最小直径,这意味着任何输入端口都可以在不与网络中现有连接发生冲突的情况下完全连接到任何输出端口。因此,它在上表列出的交换拓扑中拥有最少的交换单元数量。Banyan型网络会遭受一阶串扰(由同一交换元件引起的串扰),因为任何2x2交换元件同时被两个信号穿越时会发生这种情况。
2. 可重排非阻塞网络
可重排非阻塞交换网络通常需要更少的交换单元数量,即更低的设计和制造复杂性,因此备受关注。然而,这种网络只能在允许改变现有连接关系的情况下,建立起输入端口到输出端口的所有排列组合。
Benes拓扑无疑是最受欢迎的,因为它具有构建非阻塞NxN网络所需的最少交换单元数量。它是从Clos架构衍生而来,每个输入和输出阶段由一组2x2交换单元组成,并通过递归替换中心阶段为更小尺寸的Clos网络,这产生了2log2N-1个阶段和总共N/2(2log2N-1)个单元。Benes拓扑也遇到了一阶串扰。与Banyan型阻塞网络相比,额外的交换阶段不仅增强了连通性,还提供了路径多样性。
N级平面网络也被广泛选择用于构建中等规模的交换网络。这种设计是为了消除光交叉,作为Crossbar架构的一个衍生。N级平面架构有N/2(N-1)个原始2x2单元,并且具有依赖于路径的性能,路径穿越N/2到N个交换单元。N级排列提供了强大的路径重新分配能力,大大增加了路径多样性。一阶串扰对基本交换单元的设计提出了严格的要求。
扩张可以用来修改交换网络,使得每个单独的交换单元一次只携带一个信号,从而大幅降低串扰(降低为基本交换单元的平方),但代价是更多的交换元件和级数。
构建一个NxN扩张Benes网络的过程包括两个步骤。首先,将NxN Benes交换网络中的每个2x2交换元件替换为由四个2x2交换元件组成的2x2扩张交换块,创建一个级数加倍的交换网络。然后,由于每个2x2交换元件只携带一个信号,除了最后一级之外的其他偶数级可以与下一个级合并,使得最终的NxN扩张Benes交换网络的级数减少到2log2N,只比原始Benes交换网络多一级,但交换元件的数量将达到2Nlog2N。考虑到完全连接的单元对只能配置在两种状态,可以看出每个2x2扩张块有四种交换状态,除了最后阶段只能设置在两种状态。因此,其全局交换状态是2(N/2(2log2N-1)),与Benes网络相同。
3. 广义严格非阻塞网络 广义严格非阻塞网络能够在不干扰现有连接的情况下,为任何空闲输入到任何空闲输出设置路径。不同之处在于,前者的路由需要遵循特定规则,而后者没有限制。这类网络通常更受青睐,因为它们简化了交换控制系统。交叉栏(Crossbar)和路径独立损耗(PILOSS)是两种典型的严格非阻塞网络。这两种拓扑都需要 N^2 个交换单元,但PILOSS在损耗均匀性方面更胜一筹,因为任何路径都恰好穿过 N 个交换单元。而在Crossbar架构中不同路径经过的开关数量则从 1 到 2N - 1 不等。两种架构的路径都是包含一个处于交叉状态的交换单元,其余设置为直通状态,排除了路径多样性。
三、 集成光交换技术概览
基于实现交换过程的物理效应,光开关可以分为以下几类:电光(E-O)交换、热光(T-O)交换、自由空间光机械交换、液晶基交换和SOA基交换。下表展示了通过不同平台(如MEMS、InP和硅光子学)实现的不同光交换技术的关键性能指标的比较。
这些指标的相对重要性应根据具体的光交换应用来参考,特别是对于那些真正可以部署在大规模DCN中的光开关。在本节中,我们回顾了在主流集成平台上实现的光开关技术。此外,基于缩小到成本每端口和功耗的2D度量空间,展望了新兴的III-V-on-Si混合集成开关的发展前景。
① 基于MEMS的开关
已经商业化的基于MEMS的光开关是最常见的成熟自由空间交换技术。通常使用静电驱动器通过反射/折射结构或衍射/干涉效应来操纵光束的强度或方向,能效低且易于控制,但所需的典型电压相对较高(高达100-150V)。
MEMS开关系统已经演示了允许数百个端口的连接,具有低损耗、低串扰比和低功耗;然而,众多微光学元件的安装和校准引入了相当的复杂性,最终导致每个端口的成本相对较高。此外,MEMS开关的交换速度在微秒到毫秒的量级,这可能不满足现代数据中心所需的低延迟。它们的高成本和高延迟使得在未来的DCN中广泛引入MEMS开关具有挑战性。
② InP基光开关
基于InP的集成使得具有高性能有源组件(如SOA和激光器)的复杂光子集成电路成为可能。在InP平台上实现的光开关主要依赖于SOA器件。在广播和选择拓扑中,SOA根据电偏置电流执行放大或吸收功能,具有宽带性能、易于控制和高ON/OFF消光比的优点。
由于SOA的性能可能受到芯片固有损耗的限制,一个可能的解决方案是将MZI与短的分布式SOA开关结合使用,以补偿损耗和抑制串扰。按照这一策略,展示了一个小型的4x4 MZI-SOA开关,具有超宽的输入功率动态范围,而芯片上的微小损耗可以通过增加SOA偏置来轻易补偿。
③ 硅光开关
硅光集成光开关主要研究方向是干涉型交换,即利用MZI和微环谐振器(MRR)构建交换单元。对于前者,最大规模是一个64x64基于T-O MZI的Benes开关。对于后者,MRR可以在空间和波长域中重新配置,提供了更细粒度的资源重新分配。研究者提出了一种基于MRR的新型交换和选择拓扑,其中空间复用器被集成在1xN总线结构中,用于信号的扇入和扇出。基于这种设计方案,研究者基于SiN-on-Si双层集成平台上展示了一个4x4开关,显著减少了波导走线的额外开销,但插损还是超过10dB。随后又设计了一个三层8x8开关拓扑,插损得到改善。
通过使用定制的Clos拓扑,这可以进一步扩展到12×12的更大端口数量。此外,过耦合的MRR还可以用作MZI臂中的波长选择性相位移动器,为新型的空间和波长选择性开关铺平了道路。
为了在下一代数据中心网络(DCN)中部署并享受光交换带来的优势,需要针对多个关键性能指标进行优化,包括快速的切换速度、大量的端口、低成本和低功耗。
硅基集成交换机结构紧凑,并且可能具有成本效益,但它们的高插入损耗仍然是一个问题。InP平台允许出色的电光性能和能效,同时拥有高性能的芯片上放大器和激光器,但由于它们的功能密度和晶圆尺寸与硅CMOS生产不匹配,这将导致高成本。通过将性能指标合并到成本每端口和功耗代价的二维平面上,可以合理预见,将InP技术的优势与硅光子学的全面能力结合起来,将是下一代光子集成交换机的重要路径。随着混合/异构集成技术的不断成熟,相信III-V-on-Si光交换机将占据研究前沿,甚至成为主导。目前的研究方向包括直接外延生长的最终的路径,以及具有更容易实现的微转印和倒装芯片键合。在以下各节中,将详细阐述硅基、InP和混合III-V-on-silicon交换机的最新演示。