在ECOC 2025会议上,来自韩国电子通信研究院(ETRI)与韩国电信(KT)的研究团队,报道了一套适用于异构计算系统的动态光交换方案。该方案以超高速集成光开关、光接口版CXL协议为核心,成功实现Tbps级芯片间(C2C)互联的动态带宽共享,为解决AI与高性能计算(HPC)的算力瓶颈提供了关键技术支撑。
一、AI与HPC的算力困境:芯片互联成“隐形枷锁”
当前,人工智能(AI)与高性能计算(HPC)的发展正迎来算力爆发期——以大语言模型(LLM)为代表的应用,已实现Exaflop(百亿亿次)级算力突破,可执行复杂的气候模拟、分子动力学计算与AI训练任务。但矛盾的是,CPU、加速器、内存等核心计算资源的性能增长,却受限于生产良率、功耗控制与能量密度瓶颈,增速远跟不上算力需求。
为突破这一限制,行业逐渐转向异构计算系统:不再依赖传统“CPU-GPU”组合,而是用更多专用加速器(如AI训练芯片)搭配CPU,分别承担计算密集型与数据收集、任务调度工作。但新的问题随之出现——异构系统中,分布式节点间的数据传输效率成为关键瓶颈。
以LLM训练为例,其需数十个加速器协同工作,CPU收集管理的数据集规模已达数PB级(1PB=1024TB),且仍在持续增长。传统芯片互联方式无法满足这种大规模、高频次的数据传输需求,要么延迟过高,要么带宽不足,直接拖慢整个计算流程。
二、数据交互的两种路径:为何“直接访问”完胜“中转传输”
在异构计算系统中,共享远程数据或使用未直接连接的“分离内存”,主要存在两种技术路径,二者的效率差异直接决定了系统性能:
1. 中转传输方式(DTM):像“多站快递”一样低效
这种方式基于远程直接内存访问(RDMA)技术,依赖以太网或InfiniBand接口实现设备间数据传输,虽能支持机架间光通信,但存在致命缺陷:数据从本地内存传输到远程内存时,需经过反复的拷贝、缓冲操作,且必须依赖内核软件调度,调度过程不仅耗时,还会产生额外的资源消耗,难以适配AI/HPC的低延迟需求。
2. 直接访问方式(DAM):芯片间的“直达高速”
与DTM不同,DAM实现了芯片间(C2C)的直接互联——加速器或主机可跳过中转环节,直接通过内存地址访问远程设备的附属内存或内存池,无需任何数据拷贝操作。而这一方式的普及,离不开Compute Express Link(CXL)3.0协议的支撑:作为开放工业标准,CXL 3.0能建立主机处理器、加速器与外设间的高性能连接,为“直接访问”提供了标准化的“通信语言”。
但传统CXL协议存在局限:其物理层的电Flex-Bus仅支持板级连接(如同一主板上的芯片),无法实现机架级以上的大规模互联。为此,研究团队进一步开发了“光联网CXL(OCXL)接口”——通过增强链路层,将CXL协议适配到光接口上,相当于把“板级小路”升级为“机架级高速光链路”,为异构系统的规模扩展奠定基础。
三、光联网异构系统架构:三大接口的延迟对决
为验证OCXL接口与相关技术的性能,研究团队搭建了专属实验测试平台,平台核心包含互联的主机CPU与分离加速器,可通过三种不同接口连接计算资源,且所有接口的硬件参数保持一致:总线宽度128位、通道数4个、总线时钟250MHz,确保延迟对比的公平性。这三种接口分别是:
- CXL的电PCIe物理层(PHY):传统电接口,代表现有主流互联方案;
- OCXL的光PHY:基于光通信的CXL扩展接口,是本次研究的核心创新点之一;
- 带RDMA的光以太网:基于AMD UltraScale+器件,支持10Gbps/25Gbps光模式,代表传统光中转方案。
团队以1KB内存数据为测试对象,在无软件干预的环回场景下测试延迟,结果差异显著:
- 启用OCXL接口后,相比同速率(10Gbps/通道)的PCIe Gen3电接口,延迟直接降低约50%——核心原因是OCXL无需多余的数据缓冲环节,光信号传输可“直达目标”;
- 带RDMA的光以太网表现最差:由于收发两端均需通过DMA(直接内存访问)执行内存拷贝,且存在以太网帧缓冲,其延迟是PCIe Gen3的3倍以上,再次印证了“中转传输”的低效性。
四、核心黑科技:250ns动态光子开关(DPS)的“算力交通枢纽”设计
光有“高速链路”还不够,异构系统中多芯片共享带宽的需求,还需要一个“智能交通枢纽”来调度——这就是研究团队开发的动态光子开关(DPS),其核心是基于(Pb,La)(Zr,Ti)O3(PLZT)材料的马赫-曾德尔干涉仪(MZI),专门用于实现光交换(OCS),并与OCXL接口无缝协同。
(PLZT是一种类似于铌酸锂的电光材料,具备调制速度高的优势,调制效率也比铌酸锂更强。基于PLZT的高速光开关最早是由日本九州大学研发,早在2007年成立了一家叫做EpiPhotonics的公司进行成果转化,官网上4×4光开关能够实现10ns的切换速度,但插损稍大达到了8.5dB。)
1. DPS的硬件组成:百纳秒级响应的“光信号调度器”
DPS的结构设计精准匹配多计算资源的互联需求,主要包含三部分:
- 3个1×2 MZI开关模块:负责光信号的路径切换,单个模块的切换时间(t3)可控制在20ns以内,为高速调度奠定基础;
- 3个2×1耦合器:用于整合光信号路径,确保多设备间的双向互联;
- 开关驱动器(SD):为每个MZI模块提供优化的高速电压,保障切换动作的同步与稳定。
通过这一设计,DPS的整体切换时间(t1与t2)可达到约250ns。
2. 带宽共享机制:让Tbps带宽“按需分配”
为解决多芯片争抢带宽的问题,团队还设计了一套基于时分多址(TDMA)的动态带宽共享策略,核心引入四个关键组件:
- 时间窗口(TW):划定带宽分配的整体周期;
- 时隙(TS):将TW分割为多个小时间段,每个TS内仅允许指定设备传输数据;
- 保护时间(GT):与DPS的切换时间匹配,避免不同设备的数据传输重叠;
- OCXL Flit成帧器:每个计算资源(如CPU、加速器)配备该组件,可根据“授权TS”向目标设备发送OCXL格式的数据帧(Flit)。
TS的大小设计兼顾效率与兼容性:一方面需考虑DPS的切换时间(GT),另一方面需匹配所需带宽对应的最大Flit数量,同时确保能传输多页(4KB)数据——这一设计既避免了频繁切换带来的开销,又能充分利用带宽。
此外,DPS由具备光开关控制器(OSC)的设备(如测试平台中的主机CPU)统一控制:OSC通过在SD中分支触发信号,实现对3个MZI模块的同步调度,确保多设备间的带宽分配精准无误。在测试中,主机CPU可通过一个端口,以总带宽的50%分别连接加速器与内存池,实现双向数据传输的高效并行。
五、性能验证:共享20%带宽,性能仅降5%
为检验整套方案的实际效果,研究团队在测试平台中集成了基于神经网络的异构计算系统(HCS)模拟器,通过DPS与OCXL接口连接分离加速器,以“每秒处理图像分块数量”为指标,对比传统HCS与光联网异构计算系统(OHCS)的性能差异。
测试结果显示:
- 以内置神经网络的传统HCS性能为100%基准,当OHCS与其他资源共享带宽时,即使共享比例达到20%,系统性能的下降幅度仍小于5%(对应OHCS(0.8)测试组)——这意味着在多芯片协同场景下,带宽分配的灵活性几乎不影响核心计算效率;
- 从整体架构对比来看,基于OCXL与DPS的“光直接访问方式(光DAM)”,相比传统“光中转传输方式(光DTM)”,性能差距超过6倍,充分验证了“直接互联+光交换”架构的优越性;
- 未来扩展性方面,团队已开发出800Gbps 2×FR-4光收发器,采用2.5D堆叠硅光子(SiPh)基光引擎,可进一步扩展OCXL接口的通道数与带宽;同时,OCXL接口已支持CXL.cache与CXL.mem协议,目前正推进25Gbps、100Gbps通道的扩展,为未来“数十Tbps级”芯片互联铺路。
六、结语:异构计算的“光互联时代”加速到来
随着AI/HPC的数据集持续向PB级迈进,芯片间互联的带宽需求将突破数十Tbps,传统电互联与中转传输方式已难以为继。此次ETRI与KT团队开发的动态光子交换方案,通过“OCXL接口+DPS光子开关”的组合,既解决了“互联规模”问题(从板级扩展到机架级),又攻克了“带宽效率”难题(动态共享、低延迟),为异构计算系统的性能跃升提供了关键技术路径。
这一方案的价值不仅在于当前的Tbps级互联实现,更在于为未来更高算力需求的场景奠定基础——当LLM训练需要数百个加速器协同,当HPC需处理EB级数据时,这种基于光通信/光交换的芯片互联架构,或许将成为算力释放的“核心动脉”。