分享一篇来自UCLA的Puneet Gupta教授的报告,题目是“Scale-out Chiplet-based Systems:Architecture, design and Pathfinding”。该报告中,Gupta教授分享了他们过去几年在利用细间距2.5D集成和chiplet构建大型系统方面的工作。首先从架构角度概述为何要构建此类系统,然后讨论他们尝试设计的系统、流片过程中的挑战,最后探讨如何进行系统技术协同优化(STCO),即为此类系统与技术同步探索技术路径与架构设计。
一、先进集成技术的背景与动机
在讨论系统设计前,需要先明确“先进封装”或“先进集成”的定义。这张图表展示了数十年来封装尺寸与芯片尺寸的缩放趋势:芯片内部尺寸的缩放速度远超封装,直到最近几年,封装尺寸才开始以可比拟的速度缩小,这一阶段即“先进封装”或“先进集成”时代。
此时,关于Chiplet的讨论开始出现——通过基板紧密连接的芯片,其核心在于细间距、近距离的封装技术,目标是缩小片上与片外互连的差距,简化芯片间信号传输,使高性能多芯片系统成为可能。这不仅包括本报告重点阐述的2.5D集成,也可能涉及3D集成,并支持在同一基板上混合不同技术的异构性。
先进集成的核心优势包括:
1. 异构性:可在同一基板上集成不同代次的CMOS技术、非CMOS技术(如针对内存、逻辑、网络接口等定制的技术),甚至支持全新的电源传输与连接机制。
2. 选择性升级:允许对系统IP进行局部升级,无需重新设计整个系统,降低成本与周期。
3. 突破单芯片尺寸限制:通过小芯片集成在大型基板上构建超大规模系统,例如从800mm²的单芯片(SOC)扩展到1.5倍、2倍、3倍晶圆尺寸的封装,甚至未来50倍晶圆尺寸的“晶圆级系统”(已有企业展示相关技术)。
以晶圆级处理器为例,其面积可达300mm晶圆的70,000mm²(对比当前最大单芯片约800mm²),核心优势在于更廉价、快速的芯片间互连。右侧图表显示,晶圆级互连(WSI)的每比特通信能耗与延迟已接近片上水平,远优于传统封装或机架级互连。
为何迫切需要这种技术?因为计算需求的增长速度已远超摩尔定律,尤其是机器学习(如大语言模型)的推动——黑线为过去十年的摩尔定律趋势,蓝线为视觉/语言模型的算力需求(已超越摩尔定律),绿线为大语言模型的算力需求(增速远高于摩尔定律)。单芯片算力已无法满足需求,迫使我们构建更大规模、高互联密度的系统。
二、晶圆级集成系统的设计挑战与案例
1. 晶圆级GPU的理论与现实
以GPU为例,假设在晶圆上集成大量GPU模块:
◆ 理想场景:单个GPU die约500mm²,每个HBM堆叠约100mm²,模块总面积700mm²,功耗270W。300mm晶圆可集成约72个模块,相当于一整个机架的GPU算力。
◆ 实际限制:
① 散热挑战:72个模块总功耗超20kW,功率密度极高。即使采用双面风冷(硅基板导热性较好),仅能支持约34个模块;结合功率传输优化(如电压堆叠技术,利用GPU工作负载均衡特性),可提升至40个模块。
② 功率传输:20kW功率若以1V供电需20kA电流,几乎不可能实现,需通过高压供电(如2.5V)并在负载端转换为1V,但转换损耗显著。
③ 互联拓扑:需设计高带宽网络(如网格或2D环面拓扑),但硅基板金属层数受限(如4层),需在良率与带宽间权衡。
2. UCLA的晶圆级系统实践
鉴于高校条件限制,本工作调整架构,设计面向随机图应用的低功耗系统(内存密集型,计算相对简单):
◆ 架构设计:每个小芯片包含14个低功耗ARM核心(处理器小芯片)或标准SRAM(内存小芯片),目标在200mm晶圆基板上集成1000个模块。芯片采用台积电N40工艺流片,当前已完成8个小芯片的10微米间距热压键合测试(芯片间距100微米)。
3. 关键设计挑战与解决方案
(1)功率传输优化
◆ 方案:采用边缘2.5V供电,每个芯片通过LDO降压至1V。因基板不支持片上电容,约1/3芯片面积用于去耦电容(后续基板技术可集成高密度电容)。
◆ 代价:功率传输损耗高达15%-20%,但设计简单,适合实验室验证。
(2)跨晶圆时钟分配
◆ 挑战:在15,000mm²面积上分配时钟,传统片上PLL方案不可行。
◆ 方案:仅在边缘芯片部署PLL生成高频时钟,通过容错网状结构分发——每个芯片从4个邻居获取时钟,采用多数表决机制,若邻居中至少一个活跃则同步,大幅降低时钟中断风险;相邻芯片采用异步接口,避免时钟偏移问题。
(3)芯片测试与良率保障
◆ 预键合测试:10微米间距焊盘无法直接探针测试,因此复制少量大尺寸“牺牲焊盘”(含JTAG、时钟、电源等信号),用于筛选坏芯片。
◆ 网络容错:采用二维路由(XY路由),每对芯片预设两条路径,5个坏芯片可使通信中断率从12%降至2%。
(4)IO与EDA工具挑战
◆ IO设计:定制10um间距IO,简化ESD保护电路(仅基础二极管),降低负载与面积。
◆ EDA工具:商用工具无法处理大规模布线,自研定制路由工具。
三、系统技术协同优化(STCO)框架
1. DeepFlow:性能与瓶颈分析框架
◆ 功能:建模机器学习加速器架构(如GPU微架构、HBM配置、片上/片间网络),并集成三种并行策略(数据并行、层并行、内核并行),量化工作负载执行时间(含计算与通信开销)。
◆ 验证:对比英伟达硬件(V100、P4、DGX),大集群场景误差<5-6%。以GPT-3(75亿参数)训练为例,发现:
① N12工艺下系统为“计算受限”,内存优化价值有限;
② N5工艺时计算与内存瓶颈各占50%;
③ N3工艺完全转为“内存受限”,需同步升级HBM2→HBM3→HBM4及网络带宽(InfiniBand 100G→400G)。
2. 成本与良率建模工具
◆ 模型维度:涵盖晶圆加工、键合、测试、封装全流程,量化良率、面积、测试成本对系统总成本的影响。
◆ 关键结论:
① 小芯片尺寸非越小越好:成本最优区间为10-50mm²——过小会增加键合与测试成本,过大则良率下降;
② 异构集成成本优势:对比“单一大规模SOC”与“小芯片+基板”方案,后者在千级芯片规模下因良率优势成本更低。
五、总结
基于chiplet的大规模系统已成为必然趋势,但需突破热管理、功率传输、互联拓扑、EDA工具等多重挑战。系统技术协同优化(STCO)框架是平衡性能、成本与良率的关键。未来,先进封装将推动半导体行业从“单芯片设计”向“系统级异构集成”转型,而这需要学术界与产业界在工艺、架构、工具链等层面深度协作。