今天来看看OFC 2025上那些明星初创公司都介绍了哪些有意思的进展。主要介绍的公司之前都有陆续写过,包括Ayar labs,、Lightmatter、Celestial AI、OpenLight、Xscape、Lucidean等。Lightmatter和Celestial AI的验证结果展示感觉是脚步最快、最惊艳的(也体现到他们的融资上),Ayar Labs在瞄准大规模制造优化耦合封装方案,而Xscape、Lucidean公司也有了不俗的进展,Nubis展示了新的应用场景,奇点光子开始露面,Openlight平台在持续演进,昨天Tower新闻稿提到的400G/lane技术看会不会在会场有介绍。
◆ Ayar Labs: OIO光连接器方案
① Th3H.2 Connectorized Optical I/O Chiplet with v-Groove for AI and High Performance Computing
针对 AI 和 HPC 应用中计算带宽的挑战,提出了带 V 型槽连接器MOLA(多通道光学连接器带透镜阵列)的OIO方案,旨在解决光学芯片集成到多芯片封装(MCP)时的良率和成本问题。该方案采用 Ayar Labs 的 TeraPHY™光学 I/O 芯片,通过 V 型槽实现光纤的无源连接,支持大规模制造(HVM)。
1. 光学封装架构设计
一级接口: 采用永久键合(UV 固化环氧树脂)与 V 型槽光纤端面耦合,利用 GlobalFoundries Fotonix 平台成熟的 V 型槽工艺确保光纤精确对准。(另外一条潜在路径是可插拔的光纤接口,比如Teramount的设计)光学互连: 选择光纤束作为传输介质,因其技术成熟且适合早期产品推广。二级接口: 提出 MOLA(多通道光学连接器带透镜阵列)作为下一代接口方案,其紧凑设计兼容 HVM 流程。2. MOLA 连接器性能优化
设计特点: 12 通道光纤束(可扩展至 24 通道),硅透镜阵列通过有源耦合集成到 MOLA 插芯中,未来计划实现无源耦合。性能指标: 平移公差 ±6 µm(0.2 dB 插入损耗)、角度公差 ±0.2 度,距离公差 ±600 µm,支持即插即用。可靠性测试: 10 次插拔循环的重复性标准偏差小于 0.1 dB,采用硅胶密封和防尘帽解决灰尘防护问题。3. 已知良品连接器芯片(KGCC)工艺
流程创新:将光纤连接和测试提前至封装前阶段,通过晶圆级电 / 光测试、MOLA FAU 集成测试,确保芯片功能正常后再与 CPU/GPU 等昂贵组件集成。 优势: 减少 MCP 级光纤连接的良率损失,避免传统工艺中基板切口设计,最大化布线空间。
◆ Lightmatter: 10.7 Tb/mm²密度的微环收发机/片上OCS系统验证
Lightmatter这次来介绍了他的收发/封装方案和OCS的系统验证结果,微环收发CPO方案采用了TSV的3D集成+无电感DRV实现超高带宽密度(前天曦智发布的天枢产品也是采用了相同的TSV三维集成路径)。另外就是OCS实现了更灵活的机架级的计算资源调度。
① Tu3J.6 Monolithically Integrated Microring Transmitter and Receiver for High-Density 3D CoPackaged Optics
针对 AI 和高性能计算(HPC)对超带宽通信的需求,传统电子互连因传输距离限制成为瓶颈。3D CPO 解决方案通过将光电器件集成在 XPU(处理器)下方的中介层中,可显著提升带宽密度。然而,其关键挑战在于光电器件及其驱动电路需极致紧凑,以避免占用宝贵的 XPU 计算资源。本文提出基于 45nm CMOS 硅光子工艺的单片集成微环 Tx/Rx,总面积仅 0.006 mm²,为现有技术的 1/10 。
1. 器件设计与架构 微环调制器(Tx)
采用总线波导耦合微环结构,集成无电感的 CMOS 驱动电路(单端反相器缓冲链),实现 1.3V 供电下 1.3Vpp 输出摆幅。Tx 面积仅 0.0028 mm²,支持 56 Gbps NRZ 信号。微环谐振器(Rx)
集成锗光电探测器(56 GHz 带宽)和模拟前端(AFE),包括跨阻放大器(TIA)、CTLE和DCOC。AFE 采用主动电感扩展带宽,面积 0.0032 mm²,实现 86 dBΩ 增益和 6.4 pA/√Hz 噪声密度。波长管理
微环设计为 O 波段操作,FSR为1.8 THz,兼容 200 GHz 间隔的 8 波长 WDM,并集成加热器实现波长调谐(0.44 nm/mW)。2. 测试结果与性能 光电器件特性 MRM 在 - 2V 偏压下 3dB 带宽达 34.1 GHz,消光比 > 18 dB。 PD 在 - 1V 偏压下带宽 56 GHz,调制插入损耗 4.9 dB。 系统级验证 Tx/Rx 通过片上波导互连,输入光功率 4 dBm,在 56 Gbps NRZ 下实现无均衡眼高 105 mV,3 抽头 FFE 后提升至 270 mV,误码率 < 10⁻¹²。 64 Gbps 下需 3 抽头 FFE 补偿,眼高仍达 270 mV。 能效与密度 总功耗 84.4 mW(不含激光器),能效 1.51 pJ/bit(56 Gbps)。 面积效率达 10.7 Tbps/mm²,为现有技术的 10 倍以上。 3. 对比与优势 与同类微环 Tx/Rx 相比,本文方案在 45nm 工艺下实现了最高的比特率密度(10.7 Tbps/mm²) ,且能效优于多数 3D 集成方案(如 7nm 工艺下 1.61 Tbps/mm²)。其无电感器设计和紧凑布局为高密度 3D CPO 提供了关键支撑。
②Th1F.2 Chip-to-Chip Photonic Connectivity in Multi-Accelerator Servers for ML
提出了一种用于机器学习的机架级计算架构,该架构采用通过片间硅光子组件连接的多加速器服务器。该架构实现了:
(1)多租户资源切片而不产生碎片;
(2)机架级集体通信速度提升 74%;
(3)端到端机器学习训练吞吐量加速 1.7 倍。
这篇文章的细节之前已经做过介绍了,详细内容参见:OFC 2025前瞻:Lightmatter的硅光互连+光交换实现机柜级通信速度/训练吞吐量提升
◆ Celestial AI: 基于EAM+2.5D封装的内存池化光互连,相比NVLink实现22.8x训练加速
Celestial AI前两周刚宣布又融到资了,采访中说跟几家巨头有很好的初步验证结果。不知道是不是跟他的这个验证结果有关,他们家采用的是电吸收调制器的方案,相比微环主要卖点是高温稳定性更好。不过感觉他们家方案的价值主要还是在于内存池化,内存共享的光互连架构 ,可以先看下之前三星的这个报告(三星:光互连+分层网络架构+内存优化,打造百万卡算力集群 ),他们与三星也是有合作的。除了利用光互连实现内存加速,他们也在联合惠普实验室开发速度更快的可寻址光存储技术(光计算)。
① W3D.1 Photonic Fabric for Memory and Compute Disaggregation
1. 技术背景与挑战 内存限制 :大型语言模型(LLMs)和深度学习推荐模型(DLRMs)的参数规模已达万亿级,需 TB 级内存存储,而现有 GPU(如 NVIDIA H100)的 HBM 容量仅约 100GB,导致分布式计算中通信开销剧增。光子技术优势 :传统电子互连的带宽和能效难以满足需求,光子互连通过高密度、低延迟特性成为突破内存墙的关键。2. 光子结构设备(PFA)设计 架构组成 :光子结构模块(PFM) :集成有源光子中介层(PIC)、先进 ASIC、2 个 HBM3e 堆栈(共 36GB)和 8 Tbps 网络交换机,通过 2.5D 封装实现高带宽密度。PFA 系统 :16 个 PFM 组成全连接网络,支持 256 端口,为 16 个加速器(XPUs)提供共享内存(32TB)和统一地址空间。关键技术 :GeSi 电吸收调制器(EAM) :相比微环谐振器,EAM 具有热稳定性和紧凑尺寸(<100μm),支持高密度集成。2.5D/3D 封装 :分离 PIC 与 ASIC,利用 4/5nm CMOS 工艺优化模拟电路,消除 DSP 需求并降低功耗。3. 光电器件性能验证 链路测试 :发射器(Tx) :56 Gbps NRZ 信号(PRBS13),调制器驱动提供 1.8Vpp 摆幅,误码率 < 10⁻¹²。接收器(Rx) :集成锗硅光电探测器,通过 4 相采样和 FFE 均衡实现稳定信号恢复。
4. 性能基准与优势 DLRM 推理加速 :嵌入池化操作 :在 10TB 模型上(128张H100,每张GPU是80GB内存),PFA 相比 NVLink GPU 集群实现 22.8 倍加速,相比 PCIe 集群实现 28.3 倍加速。 能效与扩展性 :支持 HBM3e 全带宽,能效优于传统电子互连方案。 5. 结论与意义 PFA 通过光子互连实现内存与计算的高效分离,突破了传统 GPU 的 “内存墙” 限制,为 AI 模型的扩展性提供了关键支撑。未来可进一步优化系统集成和控制算法,推动光子技术在数据中心的规模化应用。
② Th1F.3 A 50 Gb/s WDM Silicon Photonic Ternary Content Addressable Memory Cell
这篇是跟惠普实验室HP Labs合作的,HP labs这两年热衷于光存储技术,之前对他家的平台也做过详细介绍,可以先看一下这个。
惠普实验室:大规模III-V/Si异质集成光子器件平台助力下一代光计算(一)
惠普实验室:大规模III-V/Si异质集成光子器件平台助力下一代光计算(二)
1. 技术背景与挑战 传统电子可寻址存储器 CAM 的局限: 现有电子 TCAM 的搜索速度仅达数 GHz,难以满足低延迟网络和计算需求。光子技术优势: 通过硅光子学实现光域并行搜索,突破电子瓶颈。此前基于 InP 和微环谐振器的方案速度有限(最高 10 Gb/s),而本文通过 WDM 技术将速度提升至 50 Gb/s。2. 光 WDM TCAM 架构设计 核心原理 利用波长分配实现三态存储(0、1、X),每个波长对应一种逻辑状态。 通过硅锗电吸收调制器(EAMs)控制光信号的通断,结合相位调整实现相干重组,计算搜索向量与存储向量的点积。 结构创新 Xbar架构: 支持 N 位搜索字并行比较,通过 WDM 将存储容量扩展至波长维度,减少插入损耗超 60%。搜索字编码单元: 生成互补的 NRZ 信号(Bit 和 Bit̄),驱动 EAMs 调制光信号,实现高效匹配线(ML)操作。3. 实验验证与性能 芯片实现 采用 IMEC 硅光子平台,集成 56 GHz SiGe EAMs 和热光相位调制器(TO PS),实现低损耗复用 / 解复用(IL=1.5 dB)。 单波长通道间距 3 nm,支持 1548.4 nm(0)、1554.9 nm(X)、1558 nm(1)三态操作。 测试结果 速度与误码率 :在 50 Gb/s 下成功验证三态匹配,眼图清晰,Q 因子达 4.9-7.62,误码率满足前向纠错(FEC)要求。能效 :计算得能效 38 fJ/bit,优于同类光子方案(如 InP 基 10 Gb/s 方案)。4. 优势与意义
性能突破: 相比此前 20 GHz 光 TCAM,速度提升 2.5 倍,能效接近电子方案(如 45 nm CMOS 的 25 fJ/bit)。扩展性: 通过 WDM 架构,未来可扩展至更多波长,进一步提升存储密度和并行处理能力。应用前景: 适用于网络地址查找、深度学习推荐模型(DLRM)等内存密集型场景,助力构建低延迟 AI 硬件。5. 结论与展望 该研究通过硅光子与 WDM 技术结合,成功实现了高速、低能耗的光 TCAM 单元,为突破传统内存访问瓶颈提供了新路径。 未来需优化器件集成和波长管理,以支持更大规模的光计算系统。
◆ Xscape: 可编程光频梳技术/微腔调制器
Xscape公司是哥伦比亚大学的三位大佬创建的,旨在将氮化硅光频梳技术应用到短距光互连中。光源采用的是转换效率更高的暗孤子光频梳,缺点是光功率分布不均匀以及Tx/Rx的波长对准,因为这个工作就是为了优化光功率的不均匀性,开发了波长选择和对准的方法。
OCP 2024:Xscape多波长光频梳光源技术
而调制器他们之前采用的是微盘调制器,比微环容差大,波长间距FSR大,但会存在多模(高阶模谐振)和插损大的问题,这次OFC又带来了新的结构,实现了单模工作,更低的损耗和更好的工艺鲁棒性。
① W1E.1 Order-Preserving Channel Calibration of Kerr Comb–Driven Microresonator-Based DWDM Link
1. 技术背景与挑战 多 FSR 架构优势: 通过在克尔梳光谱中放置共振混叠(aliases),突破单 FSR 限制,实现超宽光谱(覆盖多个 FSR)的 DWDM 链路,提升带宽密度。 校准难题: 工艺偏差和热调谐导致谐振器与梳状通道的对准复杂,需全局校准策略以避免通道顺序混乱和跨 FSR 干扰。2. 通道校准算法设计 两阶段方法 锚点定位: 利用克尔梳中心的高功率泵浦残留作为基准,选择最接近该残留的谐振器作为锚点。顺序校准: 通过相邻通道调谐功率差
,从锚点向上下游依次匹配光电流峰值,确保光谱顺序不变。搜索阶段: 热调谐每个谐振器,记录光电流峰值(主共振或混叠对齐梳状通道)。匹配阶段 关键创新 仅需少量调谐范围(每个谐振器扫描几个梳状通道)。 在晶圆级工艺偏差带来的波长偏差(全局 σ=0.65 nm,局部 σ=0.17 nm)下,支持 64 通道以上的大规模链路校正。
3. 实验验证 设置 采用SiN双环谐振器生成 200 GHz 克尔梳,结合硅微环滤波器验证 8 通道校准。 热调谐效率 0.38 nm/mW,对应单通道功耗4 mW(200 GHz 通道间隔)。 结果 成功校准 6 个微环滤波器(设备受限),通道对准误差 < 0.1 nm,保持光谱顺序。 光电流峰值匹配验证算法在实际条件下验证可行。 4. 优势与意义 鲁棒性: 通过锚点和顺序匹配策略,有效处理多 FSR 混叠和工艺变化。扩展性: 支持 4×16 链路架构(64 通道),并可跳过梳状光谱中的低功率通道 。应用前景: 为未来计算系统中嵌入光子学的可扩展 DWDM 链路提供初始化解决方案,支持波长相关优化。5. 结论 该算法通过全局锚点和顺序匹配,实现了多 FSR 克尔梳光频梳驱动 DWDM 链路的有序通道校准,验证了其在实际场景中的可行性。未来可进一步优化算法以适应不同梳状技术和链路架构。
② W2A.21 Tapered-Hybrid Bend, Interior-Ridge Modulator and Filter Supporting Tbps-Scale Links
1. 技术背景与挑战 需求驱动: 数据中心和高性能计算对高带宽、低能耗光互连的需求激增,现有微谐振器(如环形、盘形)存在自由光谱范围(FSR)受限、插入损耗
高或制造偏差敏感等问题。THB 结构优势:通过混合欧拉弯曲和宽中心波导减少模式失配和辐射损耗,结合内部脊形设计优化热调谐效率和调制性能。
2. 器件设计与创新 THB 脊形调制器 结构: 采用跑道形结构,内部脊形同时作为射频接触和加热器,垂直结设计降低电阻并提升调制效率。性能:FSR 达 37.5 nm(4.65 THz),消光比 30.5 dB,热调谐效率 0.25 nm/mW,支持 32 Gbps NRZ 信号(眼图张开度 430 µW,动态消光比 4.2 dB) 。THB 脊形滤波器 结构: 替换调制区为加热器,利用硅脊的高热导率提升热调谐效率至 1.3 nm/mW(6.2 µW/GHz)。优势: 静态IL低至 0.025 dB,制造偏差导致的共振波长漂移减少 45%,支持更密集的通道部署。 3. 性能验证与对比 实验数据 调制器 Q 因子~6000,耗尽响应 45 pm/V(5.7 GHz/V),32 Gbps 下误码率满足要求。滤波器 FSR 37.5 nm,3 dB 带宽 0.44 nm(55 GHz),热调谐效率 1.3 nm/mW。链路能力 通道间隔 114 GHz,在 1 dB 插入损耗限制下,支持 1.3 Tbps 链路。 相比盘形滤波器静态插损0.1 dB,THB 滤波器在相同带宽下允许更大的信号质量裕量。
4. 优势与意义 综合性能: 结合微环和微盘谐振器的优点,实现高 FSR、低静态插损、单模操作和抗制造偏差能力。 应用潜力: 支持 Tbps 级 DWDM 链路,适用于未来带宽密集型计算系统。兼容 CMOS 工艺,适合大规模生产(300 mm SOI 晶圆)。 ◆ Nubis : 用于 6G 前传的1.6 T高密度光引擎(OE)设计
W1C.5 Real-Time 1.6-Tbps Transmission Over 10 km for 6G Fronthaul in Co-Packaged Optics Radio Access Networks Using Eye-Safe Standard-Single-Mode-Fiber-Fed Remote Laser Sources
1. 研究背景
6G RAN 需求 高容量、低功耗光引擎是实现 6G 无线接入网(RAN)的关键,需适应高温环境和激光解耦需求。 挑战包括:散热限制、远程激光源共享、非保偏光纤(SMF)传输中的极化管理,以及眼安全机制。 2. 光引擎设计 高密度集成 堆叠芯片(SDA): 集成 16 个MZM和 16 个接收机(RX),实现 16×106.25 Gbps 全双工传输,芯片边缘密度达 246 Gbps/mm,面积密度 29 Gbps/mm²。封装模块: LGA 插座式封装(15×15 mm)支持二维平铺,密度 664 Gbps/cm²,兼容商业 BiCMOS 工艺驱动电路。3. 远程光源与光分配
去偏振激光方案 通过将两个正交偏振的激光器(波长差 300-350 GHz)进行偏振合波,实现 SMF 传输中稳定的去偏振光,避免偏振管理需求。 人眼安全机制 采用 1550 nm 监控光与 1311 nm 业务光复用,光纤断裂时通过回波信号触发激光关闭(响应时间 < 5 ms),确保公共区域安全(段落)。
4. 实验验证与性能 传输测试 10 km SMF 传输: 所有 16 通道误码率(BER)<1E-4(45°C),支持高温(85°C)操作,验证实际部署可行性。远程激光传输: 通过 560 m SMF 实现无性能损失,等效于保偏光纤(PMF)传输,证明 SMF 光分配方案的有效性。5. 结论与意义 技术突破: 首次实现 1.6 Tbps 实时传输,为 6G 前传提供高密度、低功耗解决方案。应用前景: 支持开放式 RAN 架构,降低部署成本,推动光互连在无线通信中的规模化应用◆ SCINTIL Photonics:CPO异质集成光源
W3A.4 Integrated Versus External Laser Sources in Pluggable and Co-Packaged Optics Applications
评估硅基单片集成激光源的优缺点:在可插拔和共封装光学应用中,将对比讨论性能、功耗、热管理以及实施难度 / 成本。
◆ OpenLight: III-V/Si异质集成推动400G/lane
M3K.3 Silicon Photonics Platform with Heterogeneously Integrated Lasers and EAMs for 1.6/3.2T
OpenLight是跟Tower合作的一个平台,正在大力推广他的硅光/III-V异质集成平台,OFC 2025的邀请报告数据似乎跟之前的数据差不多,可以参考之前这2篇的细节。但值得注意的是昨天刚出了新闻,说是他也搞定了400G/lane的技术 ,也是用的InP EAM异质集成到SiN-on-SOI平台上实现的,看看到时候会不会介绍新的进展。
① OpenLight & Tower:III-V on Si异质集成实现更高性能+更低成本
② OpenLight的300Gb/s硅光异质集成InP电吸收调制器(EAM)
◆ Quintessent: 基于量子点激光器的多波长光源技术
W1G.3 Multi-Wavelength Quantum Dot Comb Lasers
内容参考这篇
Quintessent:基于量子点激光器的多波长光源及短距光互连
◆ Lucidean: IMDD/简化相干兼容的硅光收发技术
这家主要是提出了一种兼容IMDD/相干互操作的架构,兼顾当前数据中心的IMDD和未来数据中心潜在的相干下沉,之前主要做了发端的架构设计,这次带来了TIA的流片验证结果。详细架构信息可以参考这篇。
Lucidean:兼容IMDD/相干互操作的200G/lane硅光收发
M2H.3 A 100 Gbps, sub-pJ/bit Transimpedance Amplifier in 90-nm SiGe in a Reconfigurable IMDD/Coherent Optical Receiver
首次在 90nm SiGe 中验证 100 Gbps TIA,证明该工艺在光接收领域的潜力。该 TIA 通过 SiGe 工艺优化和架构创新,为可重构光接收器提供了高能效解决方案,适用于数据中心短距相干通信和 PAM4 链路。未来可进一步优化带宽和集成度,支持更高速率和复杂调制格式。 结果分析 PAM4 性能 在 - 6.6 dBm ROP 下,BER<2.2e-4(KP4-FEC 阈值),眼图张开度满足要求。QPSK 星座图 -3.6 dBm ROP 下实现清晰星座点,验证高阶调制可行性。NRZ 模式 -7.3 dBm ROP 下 BER<1e-11,展示优异噪声抑制能力。◆ 奇点光子:光互连的演进
Tu3G.5 Optical Interconnects for AI Computing Applications
1. 光互连技术发展背景 云计算驱动: 过去十年,超大规模数据中心推动光互连速度提升超 20 倍,交换机容量从 1 Tb/s 增至 100 Tb/s,光收发器从 40G 演进至 800G。AI 计算需求: LLM 训练需要大规模分布式集群(数十万台 GPU),推动光互连向更高带宽、更低延迟和更高可靠性发展。2. 云计算数据中心光互连演进
速度与容量增长 交换机容量通过 SerDes 速率提升(Scale-up)和通道数增加(Scale-out)实现指数增长。 光收发器速度受限于离散组件集成,通道数仅增加 2 倍。 阿里巴巴数据中心案例 网络架构从 3.x 代演进至 7.x 代,双工带宽增长千倍,光技术从多模(SR4)转向单模(DR4)。 3. AI 计算对光互连的新要求 带宽需求是通用计算的 2 倍以上,可靠性要求更高,功耗和延迟更敏感。 技术创新 线性可插拔光学(LPO) 去除光模块中的 DSP,降低功耗 50%。线性接收光学(LRO) 减少一半 DSP,功耗降低 30%。4. 未来挑战与趋势 高速率演进 200G / 通道即将商用,400G / 通道已进入验证阶段(如薄膜铌酸锂调制器),800G / 通道需新材料和调制技术。 可靠性与成本 AI 集群对单点故障更敏感,需提升光互连可靠性;高密度集成和低成本制造是关键。 5. 结论 AI 计算推动光互连技术向更高速度、更低功耗和更高可靠性发展,未来需突破材料、调制技术及高密度集成的瓶颈,以满足 AI 集群的极端需求。
◆ Teramount: 光连接器方案
W4A.3 Scalable Detachable Fiber Connectivity for Seamless Integration with Advanced Semiconductor Packaging
重点介绍 Teramount 在晶圆级光学技术以及将其集成到标准半导体代工厂和外包半导体组装测试(OSATs)流程中的技术进展。