首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >IPEC亮相OCP全球峰会:共探AI光互联技术前沿,构建下一代数据中心标准生态(448G/lane、xPO、OCS、液冷等)

IPEC亮相OCP全球峰会:共探AI光互联技术前沿,构建下一代数据中心标准生态(448G/lane、xPO、OCS、液冷等)

作者头像
光芯
发布2025-10-29 15:55:49
发布2025-10-29 15:55:49
2140
举报
文章被收录于专栏:光芯前沿光芯前沿

2025年10月13日,在美国圣何塞会议中心举办的OCP Global Summit 2025全球峰会上,IPEC国际光电委员会(International Photonics & Electronics Committee)成功举办题为“The Boost for AI: Next-Gen Optical Interconnects”的专题论坛。作为峰会首日黄金时段的核心活动,论坛汇聚了Google、Arista Networks、Broadcom、海信宽带、Lumentum、Ciena等全球多家行业领军企业的技术领袖,聚焦AI驱动下448G/Lane光互联技术、标准演进与产业化落地,系统性披露从芯片到模块、从架构到散热的全链条技术突破,为下一代AI数据中心光互联生态构建奠定关键共识。 一、IPEC:搭建开放标准平台,推动AI光互联协同发展 作为本次论坛的发起者与产业协调核心,IPEC在会上明确了其在AI光互联标准领域的核心布局。据IPEC Senior Director Eric Bernier介绍,IPEC成立于2020年9月,注册于瑞士日内瓦,是一家非盈利国际标准组织,会员规模已从成立初期的13家扩展至2025年的51家,覆盖光芯片、光模块、设备厂商、云企业及测试机构,理事会单位包括中国电信、中国信息通信研究院(CAICT)、华为、美团、海信宽带等。

当前IPEC已启动多项关键标准项目:在高速光模块领域,推进400G eSR8(200米多模传输)、400G eSR4/800G eSR8(150米多模传输)标准制定,2025年一季度完成400G eSR8草案1.0,计划四季度发布中间规范(IA);1.6T可互操作光模块项目于2024年启动,2025年3月完成草案1.0,同年9月在CIOE期间组织8家厂商完成互联互通演示;针对散热瓶颈,启动Liquid Cooling Optics(LCO)标准项目,指出150ml/min冷却液流量下,45℃入口温度可支持80W以上模块散热,2025年12月将发布草案1.0,2026年5月计划发布IA;在可靠性领域,补充电信级光模块可靠性标准,新增COC冷凝、胶水分层等GR-468未覆盖的故障模式测试方法,2025年5月已发布正式标准。

二、市场趋势:AI驱动以太网光模块市场爆发,CPO成未来主流 LightCounting创始人Vladimir Kozlov在论坛上分享了以太网光模块市场的核心趋势,指出两大关键驱动因素:一是AI领域投资激增且持续超预期,二是2023年NVIDIA开始用光模块替代有源光缆(AOCs),直接推动以太网光模块需求增长。从市场结构看,2025-2029年AI应用将占据高速光模块(400G及以上)需求的主导地位,其中3.2T速率模块销售额预计2027年达12亿美元,2029年增至28亿美元;云厂商支出增长虽将放缓,但电信与企业市场将重新成为增长动力。

从技术演进看,以太网 transceiver销售虽无法精准预测放缓时点,但长期呈增长态势,保守预测下5年市场轨迹清晰。

速率方面,800G及以上高速模块出货量将快速攀升,2030年400G/lane的共封装光学(CPO)技术将超越传统可插拔模块,在800G、1.6T、3.2T端口中的占比分别达51%、30%、9%。

光互联架构将按“速度极限”分化为三类:Ultra Fast( lane速率400G及以上,每光纤波长4-16个,支持可插拔/CPO,用于光交换与以太网交换)、Fast and Wide(lane速率200G,每光纤波长1个,支持可插拔/NPO/CPO,用于高基数以太网交换)、Slow and Wide(lane速率100G及以下,每光纤波长1-16个,支持NPO/CPO,用于PCIe、UCIe等非以太网连接),长期还将涵盖相干光(超高速)到Micro LEDs(超低速)的全谱系技术。

三、AI集群互联:Google TPU的光互联技术演进与瓶颈突破

从芯片到集群的光连接:Google TPU光互连的架构演进、链路优化与低延迟突破

Google Platforms Optics Team的Cedric F. Lam以TPU为核心,阐述了光互联在AI/ML系统中的关键作用。Google TPU已历经七代演进:2015年v1为内部推理加速器,2020年v3实现1024芯片/超级集群的2D Torus拓扑,2023年v5p提升至8960芯片/集群,2025年最新的v7 Ironwood(代号Ironwood)进一步实现9216芯片/集群,支持1.77PB可直接寻址的共享HBM内存,创下共享内存多处理器新纪录,同时采用液冷与光可重构设计,成为当前最灵活的AI加速器。

AI/ML集群的核心瓶颈在于互连带宽——这类大规模分布式共享内存系统需高带宽、低延迟、无损的互联方案(支持Scale-Up与Scale-Out),而硬件浮点运算能力(FLOPs)与内存/互连带宽的差距已超3个数量级。为突破瓶颈,Google在TPU集群中持续升级光互联方案:v2(2018年)无专用光模块,v3(2020年)采用400Gbps AOC电缆(lane速率50G),v4(2022年)切换为400G OSFP模块(lane速率50G)并引入光电路交换机(OCS),v5p(2023年)升级至800G OSFP模块(lane速率100G),v7 Ironwood(2025年)则采用800G OSPF模块(lane速率200G),OCS持续沿用。

3D Torus拓扑是TPU集群光互联的核心创新,通过4×4×4“Cube”(含64颗TPU芯片)作为基本单元,可灵活组合成任意规模切片(如v4最大2048芯片、v5p最大6144芯片、v7 Ironwood最大8320芯片),且所有切片均为完整3D环回拓扑,能降低网络直径、提升二分带宽。故障恢复方面,通过将故障隔离在单个Cube单元,配合调度器自动选择健康单元重调度,可将故障恢复时间从分钟级缩短至秒级。

此外,Google还探索了多种前沿光技术:空心光纤(HCF)因空气芯中光速比硅高50%,可降低33%延迟,减少数据缓冲所需硅面积;TFLN(薄膜铌酸锂)调制器具备140GHz带宽、2V·cm的低Vπ-L、低插入损耗优势,Si-Organic Hybrid调制器则以0.3V·cm的Vπ-L实现紧凑尺寸;相干光(Coherent-Lite)方案谱效是IM-DD系统的4倍,更耐受MPI干扰,适合跨集群的园区与城域骨干互联,但需进一步优化低功耗DSP与<300ns延迟的FEC。

四、高速光互联技术:Arista与Altera的448G/Lane突破与挑战 Arista Networks的Andreas Bechtolsheim与Altera的Peng “Mike” Li共同聚焦448G/Lane光互联的技术过渡与测试验证。当前光技术正处于关键代际切换:当前一代采用212.5G-PAM4高速SerDes、硅光(SiPh)调制技术,支持1600G(8×200G)OSFP模块(8 lane);下一代将升级至425G-PAM4 SerDes,采用InP、TFLN或有机材料调制器,支持3200G(8×400G)高密模块(64 lane),425G/Lane对应的信道带宽需达106GHz,而传统SiPh因带宽不足,难以满足需求,InP与TFLN成为核心选择。

400G IM/DD技术的材料与方案对比清晰:InP与TFLN的RF损耗显著低于SiPh,能更好维持高速下的信号完整性;InP在激光器集成上具备天然优势,且随着AI/ML需求放量,量产能力(HVM)大幅提升,SiPh虽已实现量产,但激光集成难度高,TFLN则刚启动HVM进程;TFLN具备无热依赖性与波长无关性,InP需通过技术手段管理热性能,SiPh则在无源集成上表现更优;带宽方面,TFLN带宽(140GHz)略高于InP(90GHz),二者均能满足400G需求,SiPh则面临带宽瓶颈。

产品路线上,Arista与Altera计划分两步推进:第一步是1600G-DR4/FR4模块,采用8×200G-PAM4电接口,通过Gearbox DSP转换为4×400G-PAM4光接口,搭配EML、InP或TFLN光器件,2025年OFC已演示原型;第二步是3200G-DR8/2FR4模块,需400G原生SerDes交换芯片,支持线性或LRO/TRO接口,预计2028年量产。DSP功耗是当前核心挑战——LPO、LRO、DSP的功耗随速率增长显著,1600G时DSP模块功耗约30W,3200G时将接近40W,pJ/bit指标从800G的20pJ/bit降低至3200G的12pJ/bit。

Altera还分享了425G(以太网)/448G(CEI)PAM4的端到端(E2E)测试数据:采用最新CPC连接器与31 AWG电缆,构建100mm-1500mm的E2E通道(插入损耗20dB-50dB),通道带宽超100GHz。

仿真结果显示,425G-PAM4(212.5 Gbd)在1.2m长度下仍能满足3dB COM(通道裕度)要求,插入损耗极限约41dB;448G-PAM4(224 Gbd)则支持1.1m长度,插入损耗极限约42dB,且100-110GHz频段串扰<-50dB,对整体性能影响较小(448G PAM4 CPC传1.1m与之前华为报道的也接近448G/lane接口新突破:华为ECOC报告拆解FEC与可靠性核心技术,首次披露1.1m CPC铜缆的448G信道数据)。

五、CPO与NPO:Broadcom的AI网络光互联架构创新

Broadcom业务发展经理Tzu Hao Chow聚焦AI网络的光互联架构,将其分为三大场景:Front-End网络(CPU与云)以DAC和光可插拔模块为主,单CPU光带宽较低;AI Scale-Up(机架内)当前以高带宽铜缆为主;AI Scale-Out(跨机架)则依赖光可插拔模块或CPO。

Broadcom的核心突破在于CPO技术,已规划四代产品:2022年第一代TH4(Humboldt)为100G/lane,2024年第二代TH5(Bailly)仍为100G/lane,2026年第三代TH6(Davisson)将升级至200G/lane,2028年第四代将实现3.5倍能耗降低与100倍集成度提升。

TH5(Bailly)CPO的可靠性数据已得到验证:在100万设备小时测试中无链路中断,年度链路故障率(ALFR)仅0.4%,较400G FR4可插拔模块(1.8%)降低5倍;平均无故障时间(MTBF)显著优于可插拔模块,能为24K GPU AI集群提升训练效率。

ECOC 2025:Meta实测博通Bailly 51.2T CPO交换机,超百万小时可靠性验证支撑超大规模AI数据中心

针对AI Scale-Up场景,Broadcom提出两种方案:VCSEL NPO(近封装光学)与硅光CPO。VCSEL NPO功耗低至1pJ/bit,成本接近铜缆,依托100G VCSEL的高量产能力(已出货10亿级通道,5万亿设备服务小时故障率<0.1 FIT),可支持6.4Tbps(双光学引擎)与12.8Tbps(多排引擎)的I/O带宽;硅光CPO则具备最高带宽密度(51.2Tbps/芯片边缘,2Tbps/mm Shoreline密度)与最长传输距离(达2km),适合大规模集群的跨机架互联。Broadcom的Scale up光互联方案:VCSEL NPO与硅光CPO

铜缆在AI Scale-Up场景的局限日益明显:100G/lane铜缆最大传输距离4米,200G/lane仅2米,且二者功耗均为4-5pJ/bit,无法满足跨机架需求。Broadcom预测,2027年后随着VCSEL NPO与CPO技术的功耗持续降低(如LRO Gen3、VCSEL Gen3),光互联将逐步替代铜缆,实现更大规模的集群拆分与灵活部署。

六、400G/lane光模块:海信的TFLN调制技术与实测验证 海信宽带的J. Zhou聚焦400G光模块的技术选择、挑战与机遇,指出AI数据中心对400G/lane解决方案的天然需求——这类方案能支持3.2T(8×400G)、6.4T(16×400G)高速率,同时降低800G(2×400G)、1.6T(4×400G)方案的成本与复杂度,还可适配CPO/NPO的N×400G PAM4线性接口。

400G/lane光模块的核心是调制技术,需在材料(TFLN vs InP)、调制方式(MZM vs EAM)、集成形式(离散 vs 异质集成)间做权衡。海信重点验证了TFLN MZM(Mach-Zehnder调制器)的性能:该器件3dB带宽超140GHz(实测1dB滚降点在67GHz),半波电压(Vπ)仅2.7V,线性度优异。

实测数据显示:180Gbaud PAM4调制下,搭配KP4+Hamming码FEC与23抽头FFE,通道代价(TDECQ)低至2.28dB;160Gbaud PAM4调制下,仅用KP4 FEC与23抽头FFE,TDECQ为3.73dB;PAM6调制下,164Gbaud(总速率425Gbps,含KP4 FEC开销)与176Gbaud(总速率453.75Gbps,含KP4+Hamming码开销)均能实现清晰眼图,满足400G/lane净速率要求。

仿真数据进一步验证可行性:227Gbaud PAM4(KP4+Hamming码)的TDECQ为1.52dB,接收灵敏度-6.3dBm;212.5Gbaud PAM4(KP4 FEC)的TDECQ为2.22dB,接收灵敏度-4.7dBm,二者误码率(BER)均低于1e-6。当前速率扩展的主要限制来自测试设备——AWG(任意波形发生器)在100GHz时的RF损耗达25dB,且最大校准频率仅90GHz。

七、AI/ML网络光组件:Lumentum的OCS、高功率激光器与VCSEL技术 Lumentum VP兼CTO Matt Sysak分享了三类核心光组件在AI/ML网络中的应用:光电路交换机(OCS)、超高功率激光器与Scale-Up VCSEL互联。Lumentum的300×300端口OCS基于MEMS技术,可替代Spine交换机并提供网络冗余/故障切换,在100K规模GPU部署中,能降低前端与Scale-Out网络65%的功耗,其插入损耗<2.3dB、隔离度>40dB、回波损耗>48dB、偏振相关损耗<0.28dB,性能指标领先。

超高功率激光器是CPO的关键支撑——CPO需用光学引擎替代可插拔模块,功耗较可插拔模块降低40%以上,且对激光器的功率与能效要求极高。Lumentum的CPO激光器可实现400mW输出功率,功率转换效率(PCE)达20%,线宽与相对强度噪声(RIN)表现优异(50℃下RIN<-150dB/Hz),已与NVIDIA合作开发Spectrum-X CPO交换机,该合作涉及微环调制器(MRM)、TSMC光子引擎优化、可拆卸光纤连接器等创新,拥有数百项专利。

Scale-Up场景(GPU集群机架内互联)的核心需求是高带宽、低功耗与高可靠性,Lumentum的堆叠VCSEL(垂直腔面发射激光器)技术成为优选:通过将VCSEL与驱动芯片堆叠的2.5D封装,实现高量产能力(历史出货超千亿颗)与超100年可靠性,同时功耗低至0.8pJ/bit。

当前GPU Scale-Up带宽正快速增长:Blackwell GPU支持7.2Tbps/72 GPU,Rubin GPU预计达14.4Tbps/144 GPU,Feynman GPU将进一步提升至28.8Tbps,而VCSEL互联能突破铜缆的传输距离与带宽限制,成为Scale-Up场景的核心方案之一。 八、AI集群缩放与散热:Ciena的448G生态与液冷技术 Ciena的Bilal Riaz提出AI集群的三大缩放策略:Scale-Up(提升单lane速率至448G,优化封装与连接器,提高Shoreline密度)、Scale-Out(增加模块并行lane数,如8/16/32 lane)、Scale-Across(构建相干fabric,保障延迟可预测性与容错性)。随着AI模型规模增长(2025年模型参数超1.5T,较2018年增长16倍),铜缆已难以满足超高速需求,光互联正逐步从长距场景向短距场景渗透,形成“铜光协同、逐步替代”的格局。

448G是AI集群缩放的关键速率节点——单lane速率从100G→200G→448G的提升,可减少lane数量与组件成本,使光模块能效pJ/bit降低30%,同时支撑3.2T模块(8×448G)的开发。Ciena已验证448G生态的关键组件:3nm CMOS芯片(2024年OCP发布)、100GHz柔性互联、PAM6 85GHz连接器、TIAs/Drivers原型,且在OFC 2025展示了TFLN 3.2T模块(8×448G)与448G EML。3.2T传输测试中,基于225Gbaud PAM4调制与TFLN DRS PIC,实现2km单模光纤传输,误码率达标。

散热是超高速光模块的另一核心挑战——3.2T可插拔模块功率已超50W,传统空气冷却难以应对。Ciena开发了直接插拔式液冷方案(Direct-to-Plug LCO),将冷板直接集成到模块壳体,内部发热组件与冷板直接接触,无需外部散热器或干滑动接口,散热效率较空气冷却提升3倍,可支持80W+模块。

同时,Ciena通过OCP、OSFP MSA等组织推动液冷标准,确保方案兼容性。此外,Ciena还收购了Nubis,整合其线性重驱动器(ACC方案)与高速SerDes,形成差异化CPO/NPO解决方案,覆盖数据中心内多场景需求。

结语:IPEC引领,AI光互联进入技术协同与标准落地关键期 本次IPEC OCP专题论坛,不仅是全球AI光互联技术成果的集中展示,更是产业共识的重要凝聚。从IPEC的标准布局(448G、1.6T、液冷、可靠性),到Google TPU的集群应用验证,再到Arista、Broadcom、海信、Lumentum、Ciena的技术突破,448G/Lane光互联已从实验室走向产业化临界点,2026-2027年将迎来关键量产窗口。 作为开放、公平的国际标准平台,IPEC正通过技术研讨、联合测试、标准制定,打破企业间的技术壁垒,推动“标准-技术-场景”的闭环。未来,随着TFLN、CPO、液冷等技术的成熟,光互联将成为AI算力增长的核心支撑,为千亿参数模型训练、实时推理等场景提供高带宽、低功耗、高可靠的互联保障,开启下一代AI数据中心的全新发展阶段。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档