
2026年6月1日,英伟达(NVIDIA)与台积电(TSMC)在GTC Taipei大会上联合宣布,台积电正在将英伟达的加速计算和人工智能技术全面引入晶圆厂,从计算光刻、晶体管仿真到缺陷检测和工厂运营优化,系统性地提升先进半导体制造的效率与良率。这一合作标志着全球最顶尖的芯片设计公司与最领先的半导体制造厂商,在AI时代形成了一种全新的深度协同模式。
黄仁勋指出:“英伟达与台积电携手合作近三十载,不断突破计算技术的极限。台积电将英伟达人工智能与加速计算技术落地到晶圆厂生产环节,依托仿真、优化及人工智能技术攻克全球顶尖的设计与制造难题,为新一代芯片提速、增效、提良。”
台积电董事长兼首席执行官魏哲家也表示:“台积电与英伟达建立了长期稳固的合作关系,双方始终深耕前沿技术,为下一代计算产业发展筑牢根基。在晶圆厂运营优化、光刻、制程控制与检测等环节应用英伟达加速计算和人工智能技术,将进一步巩固我们的技术领先优势与顶尖制造能力。”
一、CUDA-X库全面赋能
随着芯片向更先进的制程节点演进,将其从设计阶段推向规模化量产,已成为全球最复杂的计算挑战之一。而先进的半导体设计与制造需要庞大的计算负载和高度协调的晶圆厂运营能力,涵盖芯片设计转移、晶体管建模、工艺控制和晶圆生产力。

台积电作为全球晶圆制造龙头,目前正在利用英伟达的CUDA-X库和AI模型,在多个关键领域加速其工作负载:
1. 计算光刻:cuLitho提升20-50%成本效益
众所周知,光刻是芯片制造过程中最复杂、最昂贵、最关键的环节。数据显示,光刻环节所需的成本占据整个硅片加工成本的约1/3甚至更多。而计算光刻则是模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。

在2023年3月的英伟达GTC大会上,黄仁勋就宣布推出了面向芯片制造行业的突破性技术——NVIDIA cuLitho计算光刻库。
黄仁勋当时就解释称,“计算光刻则是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。大型数据中心24x7全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。”cuLitho能够将计算光刻的速度提高到原来的40倍。举例来说,英伟达H100 GPU的制造需要89块掩膜板,在CPU上运行时,处理单个掩膜板需要两周时间,而在GPU上运行cuLitho只需8小时。
台积电正在使用英伟达的cuLitho计算光刻库,相比传统基于CPU的方案,该技术在不增加拥有成本的前提下,将成本效益或生产周期优化了20%至50%。据行业分析,这一改进可能帮助台积电在光刻环节节省大量时间和资本支出。
2. 晶体管仿真:cuEST实现50倍加速
随着芯片制程逼近原子尺度,半导体设计已不再只是画电路图,而需要在原子层面上回答基础物理问题:电子如何键合?如何迁移?它们在仅有数个原子厚度的薄膜中如何相互作用?一个先进芯片包含超过500亿个晶体管,每一个晶体管的性能都取决于这些量子力学层面的精确控制。
传统上,业界依赖CPU集群运行密度泛函理论(DFT)仿真来评估候选材料(如栅极介电质、互连金属等),通常需要数小时甚至数天才能完成一批次计算。这种方式导致材料筛选成为芯片研发的瓶颈环节。
cuEST是英伟达专为GPU加速设计的量子化学库,它优化了基于高斯基组的DFT计算中的核心矩阵运算,包括重叠积分、动能、核吸引、库仑以及交换关联等。cuEST支持从标准广义梯度近似(GGA)到杂化泛函等多种近似方法,使工程师能够在计算成本与精度之间灵活权衡。
同时,cuEST的API设计遵循“显式构建”原则——用户需要明确定义每个基函数的角动量、指数和收缩系数,系统会“照单全收”地构建内部数据结构。这种设计虽然增加了使用复杂度,但赋予了研究人员对计算过程的完全控制权,确保了工业级仿真的可重复性和精度。
据英伟达介绍,台积电在半导体材料设计领域,已经开始使用英伟达cuEST电子结构仿真库,实现了化学仿真速度平均50倍的提升。这一突破大幅缩短了新材料的研发周期。此外,应用材料、三星、新思科技也已经采用了该技术。
3. 先进制程控制:cuML减少工艺变异
当前,一颗先进制程芯片需要经历数千道生产工序,涉及数十万项制程参数的精确控制。台积电已经借助英伟达cuML机器学习库,在GPU上加速大规模数据分析,将这些制程参数精准输入机器学习模型,实现工艺变异的显著降低。这对于3nm及以下制程尤为重要——在这些节点上,微小的工艺波动都可能导致显著的性能差异或良率损失。
具体来说,从晶圆制造到封装测试,半导体生产的每个阶段都会产生TB级数据。这些数据来自多个源头:晶圆级量测数据;电路探针测试的芯片级数据、封装单元的功能测试数据等。
传统CPU数据处理工作流程面对如此规模的数据往往不堪重负。英伟达cuML的核心价值在于:将这些数据处理和模型训练从CPU迁移到GPU,实现5到30倍的加速。
此外,半导体制造中面临一个特殊的数据科学难题:极端的类别不平衡。在某些芯片系列中,超过99%的单元通过测试,只有一小部分单元失败。这导致标准机器学习算法会偏向“多数类”——模型学会预测“全部合格”,准确率仍可达99%,但对真正有价值的“缺陷预测”毫无用处。
而英伟达cuML提供了一套完整的GPU加速机器学习工作流:
1)数据重采样技术。SMOTE(合成少数类过采样技术):生成合成的缺陷样本,平衡数据集。cuML的NearestNeighbors实现比传统scikit-learn快2到8倍;分层下采样:使用cuDF的groupby操作在GPU上快速完成
2)适合不平衡数据的评估指标。传统ROC曲线会因不平衡数据产生误导。cuML支持精确率-召回率曲线(Precision-Recall Curve)和加权精度等更适合制造场景的指标;加权精度公式:acc = (缺陷准确率 + 合格准确率) / 2,给予两个类别同等权重。
3)模型可解释性。cuML支持特征重要性分析和GPU加速的SHAP值计算。这使工艺工程师能够理解模型为何做出某个预测,识别高影响力参数,甚至消除冗余的测试步骤,直接节省成本。
总结来说,通过cuML驱动的先进制程控制,台积电能够:实时梳理数十万项制程参数之间的复杂关联;精准预测工艺波动趋势,在问题发生前进行调整;系统性地降低工艺变异,提升良率一致性。
4. 晶圆厂运营优化:GPU驱动排程计算
台积电的先进半导体晶圆厂是全球最复杂的制造设施之一,需要实现生产设备、物料、机械臂、工作人员及厂区配套系统的精密协同,这当中就会涉及到晶圆厂的排程优化问题,这是一个典型的大规模组合优化问题:
传统基于CPU的排程系统受限于计算能力,往往只能采用启发式规则进行近似优化,无法在大规模搜索空间中找到全局最优解。目前,台积电正利用CUDA架构进行GPU加速排程运算,搭配H200 GPU,台积电实现了:
1)并行搜索:GPU的数千个核心可同时评估大量排程方案,在相同时间内探索远超CPU的搜索空间;
2)复杂约束建模:H200的大容量高速内存(141GB HBM3e)使系统能够加载完整的生产状态和约束条件,进行更高精度的优化。
3)实时响应:当发生设备故障等扰动时,GPU加速的排程系统可在数分钟内生成重新优化方案,而传统系统可能需要数小时。
总结来说,利用CUDA架构进行GPU加速排程运算,搭配英伟达H200 GPU,台积电显著提升了晶圆厂的生产效率。通过优化管理复杂生产约束,台积电能够精简生产流程,在不增加产线的情况下,最大化厂区产能,提升运营效率。
二、AI视觉检测:Metropolis平台赋能纳米级缺陷检测
随着芯片工艺愈发精密,即便是微小瑕疵也会影响产品品质与良率。过去,芯片制造商主要依赖卷积神经网络(CNN)来自动执行缺陷分类。然而,随着制造业规模扩大和产品多样化,基于CNN的方法正逐渐逼近其能力极限,因为其需要大量标注数据集,频繁重新训练,仍难以应对新型缺陷实现有效泛化。
目前台积电正在采用英伟达Metropolis平台的视觉语言模型 (VLM)、视觉基础模型 (VFM) 以及英伟达TAO 微调工具包,实现缺陷分类的现代化,并具有少量样本学习、能够生成具备可解释性的结果、自动数据标记、时间序列和批次级别分析等优势。

△不同图像类型的示例,可用于通过视觉语言模型 (VLM) 和视觉基础模型 (VFM) 增强的自动缺陷分类 (ADC) 系统。图中包含晶圆缺陷图,以及在光学、电子束和光学显微镜 (OM) 图像中发现的多种裸片级缺陷。

△左侧展示了 Cosmos Reason VLM 如何自动将其分类为中心环晶圆缺陷,并归因于化学污染。右侧展示了自动标注方法如何加速训练过程,同时简化缺陷分析并减少人工视觉检查的工作量。
据介绍,这套基于视觉人工智能的方案,使台积电实现了纳米级缺陷检测能力的提升。更重要的是,当生产环境、检测设备及缺陷类型发生变化时,该方案能显著减少数据标注与模型重新训练的工作量,大幅提升了质检的适应性和效率。
英伟达也指出,一家领先的半导体制造商在一项研究中采用英伟达 TAO 工具套件,利用芯片生产过程中多层收集的无标记图像,将自监督学习(SSL)应用于 NV-DINOv2。相比未使用 SSL 训练的模型,引入 SSL 后性能实现持续提升,准确率最高提升达 8.9%,工作效率随之提高达 9.9%。
三、数字孪生:探索“FabTwin”虚拟晶圆厂
正如前面所提及的,高端半导体晶圆厂是目前结构最为复杂的工业设施之一,需要实现生产设备、物料、机械臂、工作人员及厂区配套系统的精密协同。除了导入英伟达GPU驱动排程计算之外,台积电还在探索运用英伟达Omniverse库搭建晶圆厂数字孪生“FabTwin”——一个虚拟晶圆厂环境,用于评估生产设备布局及相关仿真工作流。
在实体落地前通过数字化方式测试各类设计方案,台积电能够更灵活地对比复杂布局,提前排查潜在运行瓶颈。这种“先虚拟、后实体”的模式大幅提升了规划效率,在投入实体建设与资金前加快关键决策落地。
小结:
此次台积电全面导入英伟达加速计算和AI技术,标志着英伟达与台积电的关系进入了一个全新阶段。行业分析指出,这种合作已形成“三层锁定”:客户集中(英伟达已成为台积电最大客户)、产能锁定(英伟达预定了大部分先进制程及CoWoS先进封装产能)以及工具整合(cuLitho等制造工具深度嵌入台积电流程)。这意味着英伟达不仅作为客户购买台积电的产能,更是在与台积电共同设计制造流程本身。
值得一提的是,当前正值台积电全球产能高速扩张期,这也带来了巨大的资本支出。台积电2026年资本支出将推高至520亿至560亿美元区间,涉及在美光亚利桑那州、日本和德国同步建厂扩产,而这些海外晶圆厂建设和运营成本预计将远高于中国台湾同等设施。而AI优化制造带来的效率提升,有望帮助台积电部分抵消这些成本压力。
正如英伟达官方新闻稿所述,台积电利用英伟达AI和加速计算技术,正“应对全球最具挑战性的设计与制造难题”。随着AI从云端下沉到物理世界,这场始于芯片设计、延伸至制造流程的深度协同,正在为下一代计算奠定坚实的基础。
编辑:芯智讯-浪客剑