

◆ 研究背景:AI算力爆发驱动光学Scale-Up核心刚需

Meta全球平台拥有34亿日活跃用户,其业务稳定运行高度依赖AI基础设施的可靠性、性能与成本效益。当前Meta正处于AI基础设施爆发式增长周期:2025年已部署超130万H100等效GPU,未来还将新增数百万片;资本开支从4年前的350亿美元增长至2025年的700亿美元,2026年目标超1150亿美元;已发布路易斯安那州Hyperion数据中心,建成后总功率达5GW,占地面积相当于曼哈顿的显著区域,同时在俄亥俄州、得克萨斯州、印第安纳州规划了多个1GW级数据中心。

AI算力的持续扩容对单机架加速器密度与集群Scale-Up域规模提出了更高要求。当前主流的铜背板/铜缆互连方案已接近物理瓶颈:单宽机架可支持72个加速器节点,双宽机架可实现144节点的电互连Scale-Up域,但256节点及以上的更大规模Scale-Up,面临着功耗、体积、可靠性与工程实现的多重挑战,光学互连成为解决超大规模AI集群Scale-Up需求的核心技术路径。


共封装光学(CPO)技术将光学IO与交换机芯片紧密集成,可大幅减少电通道损耗、支持更高的端口密度,是突破数据中心网络能效瓶颈的核心方案。但该技术的可靠性、可用性与可服务性(RAS)长期缺乏大规模实测验证,这也是Meta连续两年在行业顶会发布测试成果的核心聚焦点。

◆ ECOC 2025:首轮大规模验证结果
在2025年欧洲光通信会议(ECOC)上,Meta团队已发布基于Broadcom Bailly 51.2Tbps CPO交换机的首轮大规模实测结果,完成了CPO技术从实验室验证到规模化场景测试的关键跨越。
ECOC 2025:Meta实测博通Bailly 51.2T CPO交换机,超百万小时可靠性验证支撑超大规模AI数据中心

本次评估的Bailly CPO交换机基于Broadcom Tomahawk5交换基板设计,硬件架构上集成8个6.4Tbps硅光子光学引擎,可提供128个400Gbps FR4端口,采用标准单模光纤即可实现51.2Tbps的总交换容量。物理设计上,CPO封装与交换机主板直接互联,整机集成于4U机架,前面板配备128个LC双工光纤连接器;特别设计了可现场更换激光源(PLSs),每个PLS支持8个400Gbps端口,解决了光模块核心故障点的运维问题;激光器结温在最坏情况下低于50℃,远低于传统可插拔模块约80℃的工作结温,从设计上提升了激光器的长期可靠性,整机通过后部8个风扇实现空冷散热,风扇转速由软件根据温度自动调节。
首轮验证的核心测试结果如下:
- 功耗优势显著:在40℃环境下,Meta对15台CPO交换机与传统2×400Gbps FR4可插拔光模块开展对比测试,结果显示CPO技术相比带重定时器的传统可插拔方案,单通道功耗从15W降至5.4W,功耗降低65%,全配置系统可节省超500W功耗;即便在40℃的应力温度条件下,光学引擎芯片温度升高对功耗的影响可忽略不计,验证了CPO在高温环境下的功耗稳定性。
- 光学性能符合行业标准:发射机侧的消光比、发射机TDECQ、光调制幅度等核心指标,在标称温度与高温环境下均满足400GBASE-FR4标准规范;所有通道的误码率均低于5×10^-8,性能一致性良好,充分验证了CPO与现有光模块生态的互操作性。
- 可靠性完成超百万小时验证:在40℃应力环境下的持续测试中,系统完成了超过100万小时的400Gbps端口运行,未出现不可纠正的码字;75%的端口在运行105万小时后,最大非零前向纠错(FEC)bin小于7,实验期间仅出现1次FEC bin>10的情况。实测结果表明,光链路平均无故障时间的下限,足以支撑24k GPU AI集群实现>90%的训练效率,且不会因互联故障成为性能瓶颈。
◆ OFC 2026升级验证:超9000万小时测试体系与全维度结果
在ECOC 2025的基础上,Meta在OFC 2026发布了升级后的大规模可靠性测试成果,进一步扩大了测试规模、延长了测试周期、升级了系统版本。
① 升级后的测试体系
Meta搭建了更大规模的硬件监控测试基础设施,采用远严于行业通用标准的测试规则,完整测试体系如下:

1. 严苛的故障定义:将任何传输未校正码字(UCW)、误码超过阈值的事件均记为故障,而非仅统计完全中断的“死链”,最大程度还原真实业务场景下的链路健康风险。
2. 测试分组与规模:
- CPO Phase1系统:基于初代Bailly CPO设计,在40℃高温应力环境下持续测试,累计完成超4000万小时的400G端口等效设备小时测试;
- CPO Phase2系统:升级了制造标准的优化版本,在常温正常工况下持续测试,累计完成超5000万小时的400G端口等效设备小时测试;
- 对照组:2x400G FR4可插拔光模块,在与CPO Phase1相同的40℃高温应力环境下测试,累计完成约800万小时的400G端口等效设备小时测试。
3. 全维度监控方案:对所有链路的发射光功率、接收光功率、激光器偏置电流、FEC统计量、信噪比(SNR)等关键参数进行持续监控,采样粒度为每5分钟一次,覆盖所有通道、所有端口、所有测试系统,实现故障机制的精准定位。
② 光学性能长期稳定性测试结果
针对CPO系统在长期高温应力环境下的性能稳定性,Meta开展了全周期持续监控,完整测试结果如下:

1. 长期稳定性验证:在9个月的持续测试周期内,随机抽取的单端口单通道数据显示,发射光功率、接收光功率等核心光学参数虽有符合预期的正常波动,但始终处于设计指标范围内,无任何性能退化趋势。

2. FEC链路健康度统计:分别在累计运行100万小时、1800万小时、3600万小时三个关键节点,对所有测试系统的128个端口开展24小时连续FEC统计,结果显示:75%的端口最大非零FEC bin值小于4,FEC bin超过6的情况极少,全程未出现接近纠错极限的16号bin事件,链路性能预留了充足的裕量,无系统级可靠性退化。

③ 功耗测试升级结果
在ECOC 2025验证的基础上,Meta补充了不同光学方案的横向功耗对比,完整结果如下:

- 对比带重定时器的传统可插拔光模块,CPO系统单链路功耗降低65%,单台51.2Tbps交换机全配置场景下可节省超500W功耗;
- 100Gbps每通道规格下,对比线性直驱光模块(LPO),CPO系统仍实现35%的功耗降低,进一步验证了集成架构的能效优势;
- 40℃高温应力环境下,光学引擎芯片温度升高对CPO系统功耗的影响可忽略不计,高温场景下的功耗稳定性符合设计预期。
④ 可靠性MTBF全量测试结果
基于累计超9000万小时的全量测试数据,Meta发布了完整的MTBF(平均无故障时间)测试结果,所有数据均来自实测统计,无理论推算:

- 对照组2x400G FR4可插拔光模块:40℃高温应力环境,累计约800万设备小时测试,实测MTBF为0.71M小时;
- CPO Phase1系统(全故障统计):40℃高温应力环境,累计超4000万设备小时测试,实测MTBF为1.47M小时,较传统可插拔模块实现2倍可靠性提升;
- CPO Phase1系统(排除可修复的PLS非根本性问题):40℃高温应力环境,累计超4000万设备小时测试,实测MTBF达8.2M小时,较传统可插拔模块实现超10倍的可靠性提升;
- CPO Phase1系统(整机级):40℃高温应力环境,累计超4000万设备小时测试,实测MTBF超过20M小时;
- CPO Phase2系统(整机级):常温正常工况,累计超5000万设备小时测试,因全程故障数量过少,暂无法输出具有统计意义的MTBF数据,侧面印证了优化后系统的极高运行可靠性。
◆ 故障模式与故障范围(爆炸半径)深度分析
① 统一故障定义标准
本次测试采用远严于行业通用标准的故障判定规则,明确:故障≠完全中断的死链,任何传输未校正码字(UCW)、误码超过阈值的事件,无论是否可复现、是否影响链路持续运行,均记为故障事件。该定义比行业通用的“链路抖动(link flap)”标准更为严苛,可最大程度提前识别潜在故障风险,匹配超大规模AI集群的高可靠性要求。
② 传统可插拔模块故障模式全解析
基于对照组800万设备小时的测试数据,Meta完整梳理了可插拔光模块的故障Pareto分布,按故障占比从高到低排序为四大类:
1. 不可归因的模块故障(含不可复现的瞬时故障):为第一大故障来源,这类故障的典型特征为:出现单次或少数几次不可纠正的码字,但模块温度、pre-FEC BER等所有核心参数全程保持稳定,故障后链路恢复正常且全程无复现,无法定位明确的硬件或软件根因。

2. 接收侧硬件故障:为第二大故障来源,属于可定位的硬件失效问题,目前仍在持续开展根因分析,是可插拔模块硬件设计的核心优化方向。

3. DSP固件相关问题:为第三大故障来源,属于可通过固件升级解决的问题家族,新版本固件可覆盖绝大多数此类故障。
4. 脏光纤与连接器问题:为第四大故障来源,是所有光纤接口的共性问题,在CPO系统、可插拔模块、实验室测试与现网部署中均有出现,并非CPO技术的特有问题。
③ CPO系统故障模式全解析
基于Phase1系统4000万设备小时的测试数据,Meta完整梳理了CPO系统的故障Pareto分布与根因定位,核心内容如下:
1. 主导故障来源:PLS模块激光驱动电路SMT组件退化:该故障为Phase1系统的核心故障来源,典型故障特征为:出现可重复的链路抖动与不可纠正码字,可关联到对应ELSFP光子层(PLS)模块的激光偏置电流异常波动。经与合作伙伴联合分析,根因为PLS模块激光偏置电路中的一个SMT组件出现性能退化,属于可通过设计优化解决的非根本性缺陷,并非CPO集成架构的固有问题;重新设计剔除该缺陷组件的PLS模块,以及经过严格筛选的PLS模块,均未出现此类故障。

2. 次要故障来源:不可复现的瞬时故障:此类故障的特征与可插拔模块的瞬时故障一致,但占比显著低于可插拔模块,对系统可靠性的影响极小。

3. 共性故障来源:脏光纤与连接器问题:与可插拔模块的故障特征完全一致,属于光纤接口的共性问题,并非CPO技术的特有缺陷。
④ 故障范围(爆炸半径)与RAS影响分析
针对超大规模AI集群的Scale-Up场景,Meta完整分析了不同故障类型的爆炸半径(故障影响范围)与业务影响,核心前提与分析如下:

1. AI Scale-Up场景的高敏感性前提:AI集群Scale-Up域的GPU互联带宽是“极度珍贵”的,当前并未做超额配置,AI Zone的收敛比为1:7,链路冗余能力有限,因此互联故障对AI训练任务的影响远大于普通数据中心场景,任何链路中断都可能导致训练任务效率下降甚至中断。
2. 不同故障类型的爆炸半径对比:
- 传统可插拔收发器故障:1个收发器模块仅支持2条及以下链路,故障仅影响对应端口,可通过port-to-port路由实现冗余,爆炸半径最小,对系统整体影响最低;
- CPO PLS模块故障:1个PLS模块支持8条及以上链路,故障影响的链路数远大于单收发器,需要更大范围的端口路由冗余,爆炸半径中等,是CPO系统运维的核心关注对象;
- 交换机整机/ASIC故障:1台Bailly CPO交换机支持128条链路,故障需要交换机节点级冗余,爆炸半径最大,会直接影响整个Scale-Up域的带宽能力,是CPO系统可靠性设计的核心底线。
3. 核心RAS问题与解决方案:CPO商用的核心RAS顾虑为“若CPO交换机的故障率与可插拔模块相当,其更大的爆炸半径会导致系统整体可用性大幅下降”。而Meta的实测数据验证了CPO系统的端口级故障率远低于可插拔模块,同时可现场更换的PLS模块设计,大幅缩小了单点故障的爆炸半径,将绝大多数故障的影响范围控制在8条链路以内,避免了整机级故障的频繁发生,有效解决了CPO系统的运维与可用性顾虑。
◆ CPO高可靠性的核心驱动因素
基于两轮累计超9000万小时的实测数据,Meta总结了CPO系统可靠性优于传统可插拔模块的四大核心驱动因素:

1. 更少的物理接口与更深的系统集成,减少了潜在的硬件故障点,符合“组件数量越少,可靠性越高”的基本工程逻辑;
2. 系统级协同设计,优化了激光器等关键器件的工作条件,大幅降低了激光器的工作结温,减少了长期运行的性能退化风险;
3. 光学组件在制造流程的更早阶段完成集成,可实现全流程的系统级测试与筛选,提前剔除潜在缺陷器件,提升了出厂系统的一致性与可靠性;
4. 减少了部署与运维环节的人工干预,同时可现场维护的PLS模块设计,大幅降低了运维操作带来的额外故障风险。
◆ 观众问答核心内容
演讲结束后,现场观众围绕测试细节与技术对比展开提问,Meta团队的回应核心内容如下:
1. 针对观众提出的“测试对比的光学类型、以及可插拔模块SNR更高但故障更多的原因”问题,Meta回应称,本次对比测试的CPO与可插拔模块均采用FR4光学方案。可插拔模块故障更多的核心原因,一方面是不可复现的瞬时问题在故障占比中权重很高,同时各类制造相关的问题,比如组件、胶水、贴片工艺等带来的缺陷,都会带来额外的故障点,符合“组件数量越多,潜在故障点越多”的基本逻辑;另一方面,可插拔模块配套的多源DSP与固件也是故障的重要来源。同时,CPO方案减少了重定时器对应的DSP环节,也是可靠性提升的潜在因素。
此外,单通道100G规格下没有链路训练机制,一定程度上也加剧了可插拔模块的链路稳定性问题,而单通道200G规格下即将引入的链路训练,可能会改善这一问题。此外,可插拔模块的多厂商互操作性优势,也带来了链路调优的局限性,而CPO的集成系统可完成全流程联合测试,进一步优化了链路稳定性。
2. 针对观众提出的“CPO与可插拔模块的可靠性对比是否为公平的同条件对比,若可插拔模块也完成与交换机的联合测试,MTBF是否会有显著变化”问题,Meta回应称,这个问题本质上和链路训练的影响类似,100G每通道规格下目前没有对应的链路训练机制,200G规格下的链路训练可能会带来可插拔模块链路稳定性的提升,最终结果需要数据验证。同时,本次测试得到的数据,与Meta在实际数据中心集群中观测到的运行数据高度相关,测试场景完全复现了Meta实际部署的标准流程,测试结果具有代表性,能够反映真实部署场景下的可靠性表现。如果后续链路训练等技术能带来可插拔模块的可靠性提升,Meta也会同步跟进测试与部署。
3. 针对观众提出的“是否有LPO模块的相关测试数据”问题,Meta回应称,目前暂无LPO模块的相关测试数据可以分享,这也是团队后续重点关注的测试方向,后续有进展会同步向行业更新。
◆ 总结与展望

从ECOC 2025的首轮验证,到OFC 2026累计超9000万设备小时的大规模严苛测试,Meta针对博通51.2T CPO系统开展的全维度长期实测,为行业评估共封装光学技术的商用可行性提供了关键的一手数据,大幅缓解了业界对CPO技术长期可靠性的核心顾虑。
需要客观指出的是,本次可靠性对比的基准为当前规模商用的100G per lane重定时可插拔光模块,而传统可插拔光模块技术本身仍在持续迭代演进。进入单通道200G时代,LPO(线性直驱光模块)、优化型重定时架构、标准化链路训练机制等技术路线,均有望进一步补齐可插拔方案的可靠性及能效短板、提升长期运行可靠性,新一代可插拔方案与成熟化CPO技术的长期综合表现对比,仍有待后续更大规模、更长周期的产业级实测验证,目前尚无确定性结论。
从现有测试结果来看,CPO技术在功耗、带宽密度上展现出集成架构带来的固有优势,在规模化量产后具备全生命周期成本优化的潜力,且已通过Meta的超大规模测试,验证了其满足超大规模AI集群部署要求的可靠性能力。目前Meta正联合行业5家合作伙伴推进OCI MSA标准,旨在构建开放的光学Scale-Up技术生态,后续也将在OCP、ECOC等行业会议上更新Phase2 CPO系统的完整可靠性数据,持续推动集成光学技术在超大规模数据中心的产业化落地。