首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于Chiplet的晶圆级处理器架构设计与路径探索

基于Chiplet的晶圆级处理器架构设计与路径探索

作者头像
光芯
发布2025-07-03 15:05:36
发布2025-07-03 15:05:36
1760
举报
文章被收录于专栏:光芯前沿光芯前沿

       分享一篇来自UCLA的Puneet Gupta教授的报告,题目是“Scale-out Chiplet-based Systems:Architecture, design and Pathfinding”。该报告中,Gupta教授分享了他们过去几年在利用细间距2.5D集成和chiplet构建大型系统方面的工作。首先从架构角度概述为何要构建此类系统,然后讨论他们尝试设计的系统、流片过程中的挑战,最后探讨如何进行系统技术协同优化(STCO),即为此类系统与技术同步探索技术路径与架构设计。

一、先进集成技术的背景与动机

      在讨论系统设计前,需要先明确“先进封装”或“先进集成”的定义。这张图表展示了数十年来封装尺寸与芯片尺寸的缩放趋势:芯片内部尺寸的缩放速度远超封装,直到最近几年,封装尺寸才开始以可比拟的速度缩小,这一阶段即“先进封装”或“先进集成”时代。

       此时,关于Chiplet的讨论开始出现——通过基板紧密连接的芯片,其核心在于细间距、近距离的封装技术,目标是缩小片上与片外互连的差距,简化芯片间信号传输,使高性能多芯片系统成为可能。这不仅包括本报告重点阐述的2.5D集成,也可能涉及3D集成,并支持在同一基板上混合不同技术的异构性。

      先进集成的核心优势包括:

1. 异构性:可在同一基板上集成不同代次的CMOS技术、非CMOS技术(如针对内存、逻辑、网络接口等定制的技术),甚至支持全新的电源传输与连接机制。

2. 选择性升级:允许对系统IP进行局部升级,无需重新设计整个系统,降低成本与周期。

3. 突破单芯片尺寸限制:通过小芯片集成在大型基板上构建超大规模系统,例如从800mm²的单芯片(SOC)扩展到1.5倍、2倍、3倍晶圆尺寸的封装,甚至未来50倍晶圆尺寸的“晶圆级系统”(已有企业展示相关技术)。

      以晶圆级处理器为例,其面积可达300mm晶圆的70,000mm²(对比当前最大单芯片约800mm²),核心优势在于更廉价、快速的芯片间互连。右侧图表显示,晶圆级互连(WSI)的每比特通信能耗与延迟已接近片上水平,远优于传统封装或机架级互连。

      为何迫切需要这种技术?因为计算需求的增长速度已远超摩尔定律,尤其是机器学习(如大语言模型)的推动——黑线为过去十年的摩尔定律趋势,蓝线为视觉/语言模型的算力需求(已超越摩尔定律),绿线为大语言模型的算力需求(增速远高于摩尔定律)。单芯片算力已无法满足需求,迫使我们构建更大规模、高互联密度的系统。

二、晶圆级集成系统的设计挑战与案例

1. 晶圆级GPU的理论与现实

图片
图片

      以GPU为例,假设在晶圆上集成大量GPU模块:

◆ 理想场景:单个GPU die约500mm²,每个HBM堆叠约100mm²,模块总面积700mm²,功耗270W。300mm晶圆可集成约72个模块,相当于一整个机架的GPU算力。

图片
图片
图片
图片

◆ 实际限制:

① 散热挑战:72个模块总功耗超20kW,功率密度极高。即使采用双面风冷(硅基板导热性较好),仅能支持约34个模块;结合功率传输优化(如电压堆叠技术,利用GPU工作负载均衡特性),可提升至40个模块。

图片
图片

② 功率传输:20kW功率若以1V供电需20kA电流,几乎不可能实现,需通过高压供电(如2.5V)并在负载端转换为1V,但转换损耗显著。

③ 互联拓扑:需设计高带宽网络(如网格或2D环面拓扑),但硅基板金属层数受限(如4层),需在良率与带宽间权衡。

图片
图片

2. UCLA的晶圆级系统实践

      鉴于高校条件限制,本工作调整架构,设计面向随机图应用的低功耗系统(内存密集型,计算相对简单):

图片
图片
图片
图片

◆ 架构设计:每个小芯片包含14个低功耗ARM核心(处理器小芯片)或标准SRAM(内存小芯片),目标在200mm晶圆基板上集成1000个模块。芯片采用台积电N40工艺流片,当前已完成8个小芯片的10微米间距热压键合测试(芯片间距100微米)。

图片
图片

3. 关键设计挑战与解决方案

(1)功率传输优化

图片
图片

◆ 方案:采用边缘2.5V供电,每个芯片通过LDO降压至1V。因基板不支持片上电容,约1/3芯片面积用于去耦电容(后续基板技术可集成高密度电容)。

◆ 代价:功率传输损耗高达15%-20%,但设计简单,适合实验室验证。

(2)跨晶圆时钟分配

图片
图片

◆ 挑战:在15,000mm²面积上分配时钟,传统片上PLL方案不可行。

◆ 方案:仅在边缘芯片部署PLL生成高频时钟,通过容错网状结构分发——每个芯片从4个邻居获取时钟,采用多数表决机制,若邻居中至少一个活跃则同步,大幅降低时钟中断风险;相邻芯片采用异步接口,避免时钟偏移问题。

(3)芯片测试与良率保障

图片
图片

◆ 预键合测试:10微米间距焊盘无法直接探针测试,因此复制少量大尺寸“牺牲焊盘”(含JTAG、时钟、电源等信号),用于筛选坏芯片。

◆ 网络容错:采用二维路由(XY路由),每对芯片预设两条路径,5个坏芯片可使通信中断率从12%降至2%。

图片
图片

(4)IO与EDA工具挑战

◆ IO设计:定制10um间距IO,简化ESD保护电路(仅基础二极管),降低负载与面积。

图片
图片

◆ EDA工具:商用工具无法处理大规模布线,自研定制路由工具。

三、系统技术协同优化(STCO)框架

1. DeepFlow:性能与瓶颈分析框架

图片
图片

◆ 功能:建模机器学习加速器架构(如GPU微架构、HBM配置、片上/片间网络),并集成三种并行策略(数据并行、层并行、内核并行),量化工作负载执行时间(含计算与通信开销)。

图片
图片

◆ 验证:对比英伟达硬件(V100、P4、DGX),大集群场景误差<5-6%。以GPT-3(75亿参数)训练为例,发现:

图片
图片

① N12工艺下系统为“计算受限”,内存优化价值有限;

② N5工艺时计算与内存瓶颈各占50%;

③ N3工艺完全转为“内存受限”,需同步升级HBM2→HBM3→HBM4及网络带宽(InfiniBand 100G→400G)。

图片
图片

2. 成本与良率建模工具

图片
图片

◆ 模型维度:涵盖晶圆加工、键合、测试、封装全流程,量化良率、面积、测试成本对系统总成本的影响。

◆ 关键结论:

① 小芯片尺寸非越小越好:成本最优区间为10-50mm²——过小会增加键合与测试成本,过大则良率下降;

② 异构集成成本优势:对比“单一大规模SOC”与“小芯片+基板”方案,后者在千级芯片规模下因良率优势成本更低。

五、总结

      基于chiplet的大规模系统已成为必然趋势,但需突破热管理、功率传输、互联拓扑、EDA工具等多重挑战。系统技术协同优化(STCO)框架是平衡性能、成本与良率的关键。未来,先进封装将推动半导体行业从“单芯片设计”向“系统级异构集成”转型,而这需要学术界与产业界在工艺、架构、工具链等层面深度协作。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档