首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TSMC下一代晶圆级AI系统SoW-X:16颗 ASIC+80颗HBM4+260Tb/s总片间带宽

TSMC下一代晶圆级AI系统SoW-X:16颗 ASIC+80颗HBM4+260Tb/s总片间带宽

作者头像
光芯
发布2025-07-20 10:26:17
发布2025-07-20 10:26:17
4150
举报
文章被收录于专栏:光芯前沿光芯前沿

在生成式人工智能(GenAI)和LLM快速发展的背景下,对计算能力、带宽和能效的需求呈指数级增长。在ECTC 2025会议上,台积电介绍了下一代SoW-X(System-On-Wafer, eXtreme)技术,它作为一种新型晶圆级3DIC结构,通过异构集成与系统级协同优化,重新定义了高性能计算(HPC)和AI应用的硬件架构边界。本文将全面解析SoW-X的技术架构、性能优势及核心实现细节。(原文标题:SoW-X: A Novel System-on-Wafer Technology for Next Generation AI Server Application)

一、技术背景与核心定位

随着AI模型参数规模突破万亿级,传统分布式计算集群面临三大瓶颈:数据传输延迟(由网络互连引入)、功耗膨胀(通信链路能耗占比超30%)、带宽效率不足(内存与计算单元的速率失配)。为解决这些问题,SoW-X采用晶圆级集成思路,将计算、存储与互连功能重构为一个有机整体,实现"集群级算力、芯片级效率"的突破。

作为2.5D结构的创新演进,SoW-X融合了InFO_SoW(晶圆级系统集成扇出)与CoWoS-L(晶圆级先进封装)技术优势:前者提供低延迟、高带宽密度和低阻抗电源分配网络(PDN),后者支持高带宽存储器(HBM)集成与局部硅互连(LSI)增强。此外,SoW-X引入了系统工艺协同优化(STCO),以优化局部硅互连(LSI)互连的金属堆叠和晶圆扇出再分布层(RDL),从而显著提高计算能力和数据传输总带宽。这种融合使SoW-X能够打破传统封装的物理限制,实现16个 full reticle尺寸的ASIC、80个HBM4模块及2800个224Gb/s SerDes通道的高密度集成,总片间带宽达260TB/s,外部带宽达80TB/s,较同规模分布式集群性能提升46%,功耗降低17%,能效比提升1.76倍。

二、整体方案概述

SoW-X的核心是重构晶圆,通过晶圆级再分布层(RDLs)与局部硅互连(LSI)的协同设计,实现跨晶圆的高速信号与功率传输。其结构呈现分层异构特征:

◆ 顶层功能区:由专用ASIC和HBM组成,它们可在SoW-X晶圆上重复布局,并被IO芯片环绕以实现外部连接;

◆ 互连层:RDL通过局部硅互连(LSI)和嵌入在模塑中的绝缘体通孔(TIV)分为背面和正面,形成重构的中介层。通过STCO实现针对不同应用的布局定制、RDL厚度调整,以及针对UCIe、XSR 224G SerDes等不同连接协议配置。SoW-X通过LSI或RDL提供更直接的传输路径,大幅减少传统package-to-package传输过程中基板引起的串扰。

这种结构赋予SoW-X两个主要优势:更高的系统功率效率,以及消除了超大尺寸封装基板工艺中面临的C4焊点难题。利用这种架构,SoW-X通过XSR 224G SerDes实现ASIC之间5TB/s的通信速度,通过LSI UCIe Gen6实现ASIC-to-ASIC和ASIC-to-memory之间10TB/s的通信速度。

如图2所示,在一款测试载体中,SoW-X的结构配置以4x4的ASIC阵列为核心,其外围布置有5x16的HBM,最外侧则包含16个IO裸片以实现外部通信。SoW-X正面RDL采用聚酰亚胺以构建细间距连接,背面采用多层RDL构建,所用材料为聚酰亚胺和类ABF材料,各层厚度不同,且嵌入了用于XSR 224G SerDes的收发器(Tx-Rx),同时实现从稳压器到各组件的高效供电。 该结构中包含三种通过扇出技术重构的LSI:一是集成UCIe协议实现ASIC间桥接,二是借助HBM4 PHY协议实现ASIC与存储器的通信,三是作为独立电容发挥电源去耦作用。多个TIV围绕在LSI周围,为ASIC和HBM提供高速信号的直接通信路径及供电传输。此外,晶圆内均匀分布着贯穿整个结构的圆形通孔以满足组装需求,组装时先将电源模块和连接器模块安装在晶圆上,随后再安装冷板和控制板组件。

三、SoW-X的系统工艺协同优化

优化的思路如下:首先,SoW-X旨在优化晶圆面积利用率,以实现多功能裸片的集成,同时满足机械固定要求。其次,它力求最大化ASIC间、ASIC与存储器间以及外部IO的带宽,同时最小化延迟和功耗。通过对这些考量因素进行严格评估,有助于理解它们对SoW-X技术的开发和改进所产生的影响。 1. 当前CoWos-L 5.5X的性能及互连瓶颈 优秀的AI系统会最大化每瓦性能(TFLOPS/W)和每TFLOPS的存储器带宽。前者用于应对训练先进大模型时不断增长的计算和功耗需求,后者则确保平台能适应具有不同数据重用率的各类应用场景。

图3所示的基线配置代表了当前最先进的AI计算平台。该系统的核心是一个基本的CoWoS-L单元,其采用5.5x 光罩尺寸,可容纳2个ASIC裸片、12个HBM模块和2个外部IO裸片。这些组件通过中介层内的嵌入式大规模集成电路(LSI)实现互联。ASIC间连接采用UCIe高级协议,在8mm的连接长度上实现10TB/s的带宽。此外,ASIC与存储器的连接采用HBM4物理层(PHY)协议,总存储器带宽达19.2TB/s。外部IO对于不同重复单元间的数据传输至关重要,它集成了多个PCIe Gen6通道,在2米铜缆范围内可为机架内及相邻机架连接提供高达20TB/s的带宽。 当考虑从任意HBM访问数据的概率均等的工作负载时,由8个通过PCIe连接的单元,尽管ASIC计算能力是单个5.5x 光罩CoWoS-L单元的8倍,但由于数据延迟显著增加且PCIe带宽有限,其性能仅为单个单元的4.32倍。加之PCIe的高功耗,每瓦性能降至0.44倍。 2. SoW-X中的高速互连

SoW-X技术借助CoWoS-L技术的LSI桥接器,提升ASIC与存储器之间的互连效率。该LSI桥接器具备多达9层铜金属布线,最小间距为1.6μm,可支持南北向(N-S)ASIC间连接及东西向(E-W)ASIC与HBM连接。

南北向桥接器采用UCIe x64高级协议,目标比特率为32 Gb/s。由于裸片间隙小于300μm,总通道长度可控制在该标准推荐的2mm以内。图4展示了采用6层金属实现的单个x64通道的横截面,图6(a)则显示,在32 Gb/s速率下,仿真眼图的张开度超过0.7 UI。

同时,东西向桥接器实现了ASIC-to-memory的连接,包含2048个8 Gb/s的IO通道,符合JEDEC HBM4标准。图5呈现了采用9层金属实现的2个四分之一通道的横截面,最大通道长度为6.5mm。图6(b)为其模拟眼图,显示在8 Gb/s数据速率且无电源噪声的情况下,眼图张开度超过0.6 UI。

除互连功能外,LSI裸片本身集成了eDTC(嵌入式去耦电容),其最新版本的有效电容密度可达2000 nF/mm²,以此增强电源分配网络(PDN)的完整性。图7对比了有无eDTC时PDN的交流响应,结果显示峰值阻抗显著降低50%,这与最坏情况下的电压跌落改善直接相关。

与短距离的南北向桥接器相比,东西向ASIC-to-ASIC桥接器更具挑战性——它需要跨越两个HBM4阵列,总跨度达30mm(包含裸片间隙及PHY深度)。为解决这一问题,系统通过224 Gb/s SerDes在22mm的连接长度上支持高达5TB/s的带宽。该配置要求在56GHz奈奎斯特频率下,通道损耗控制在-6dB以内。

同样,外部IO裸片设计可容纳多达100个长距离SerDes,每个裸片在相同的22mm连接长度上实现5TB/s的SoW间带宽。这一设置需满足相似的布线要求,以确保背面电缆连接器的损耗在-10dB预算范围内。

为满足这些严苛的性能标准,系统采用厚型类ABF布线层来构建差分对,如图8所示。该图呈现了目标特征阻抗为90Ω的通道横截面,并提供了30mm(用于东西向ASIC桥接器)和50mm(从外部IO裸片到电缆连接器)通道的模拟插入损耗曲线,分别如图9和图10所示。

四、SoW-X的功耗、算力和热分析

1. 功耗分析

功耗分析给出了包含16个ASIC、相关接口IO裸片及HBM的单个SoW-X的全面功耗细分,具体如表1所示。ASIC的计算部分分配了890W的热设计功耗(TDP)预算。此外,根据ASIC上UCIe物理层(PHY)和XSR接口各自10TB/s和5TB/s的带宽,结合其能量系数(分别为0.5 pJ/bit和1.5 pJ/bit)计算了二者的功耗。另外,HBM4的功耗设定为2.6 pJ/bit,相较于当前HBM3的4.4 pJ/bit,功耗改善约70%。

汇总所有链路实例和计算部分的功耗估算,单个SoW-X的总功耗为17,104W。这一数值比8集群基础型CoWoS-L的功耗需求低3000瓦,而后者还需承担单元间通信所需的PCIe互连功耗。

2. 性能分析

表2中的分析对比了SoW与由8个5.5倍掩模版尺寸的CoWoS-L重复单元构成的集群(代表最先进的AI封装架构)的关键性能指标。SoW-X在延迟方面有显著改善:南北向(N-S)和东西向(E-W)数据桥的延迟分别约为32ns和45ns。这使得平均延迟仅增加2倍,而整体计算性能相较于单个单元却实现了6倍的大幅提升。

由于SoW-X的ASIC间链路(南北向桥采用UCIe,东西向桥采用XSR)功耗极低(分别为0.4 pJ/bit和1.2 pJ/bit),远低于PCIe链路及交换机的24 pJ/bit,因此其功率效率显著优于最先进的基准架构。最终,SoW-X的整体每瓦性能达到单个单元的0.73倍,相较于8集群配置的0.44倍,提升约70%。不过,由于需要预留用于机械固定的螺丝孔,每个ASIC需减少一个HBM,导致每计算单元的存储器带宽较单个CoWoS单元降低17%3. 热分析 在SoW-X中,由于边界条件复杂,在晶圆级进行计算流体动力学(CFD)分析并不现实。简化边界条件后,温度分布图如图11所示,HBM的热点远离单元边界,而ASIC的热点则彼此靠近。

单元级CFD分析中,采用鳍片式冷板结构及PG25冷却液,入口温度为30°C,每个单元的流量为2升/分钟。ASIC的热点集中在南北向物理层(PHY)区域,功率密度为2 W/mm²(图12a)。将分流板朝向设为南北向(图12b)时,较冷的冷却液能更快到达热点,可降低过热风险——与东西向朝向相比,最高结温(Tj, max)降低12°C(如表3所示)。

如图13b、c、d所示,IO裸片区域2.7 W/mm²的较高功率密度导致边缘和西侧单元温度升高。表4显示北侧和中心单元存在优化空间。采用表5详述的冷板部分串联连接方式(流量路径为“流入→边缘→北侧→流出”和“流入→西侧→中心→流出”),可将总流量减半,同时保持热状态可控。

五、总结

SoW-X作为一个创新的技术平台,其在功耗效率和性能表现上超越了现有行业标准,目标是服务于下一代高性能计算(HPC)和人工智能(AI)应用,进而推动整体技术进步。 SoW-X依托CoWoS-L这一现有先进封装技术,保留了其大部分核心价值(比如成熟的封装架构优势);同时在此基础上实现了突破:能够集成数量远超传统方案的ASIC和HBM,这直接提升了系统的能效;此外,它还解决了传统封装中“C4凸点与基板连接”的工艺难题。通过STCO,SoW-X实现了金属布线方案和晶圆布局的优化,满足了高带宽需求以及SI/PI的要求;并通过“定向分流板”设计实现了高效的热管理。这种技术思路不仅适用于HPC和AI领域,还可推广到其他场景(如网络处理器),有望突破当前先进封装技术的性能瓶颈,为更多领域的技术升级提供支撑。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档