英伟达创始人兼CEO黄仁勋即将迎来一个关键时刻,他将在英伟达年度技术峰会GTC上发表演讲,阐述公司探索AI新前沿的战略方向。此次大会对英伟达股价的重振至关重要。
据摩根大通预测,英伟达将在峰会上推出Blackwell Ultra芯片(GB300),并可能透露Rubin平台的部分细节。大会将聚焦于AI硬件的全面升级,涵盖高性能GPU、HBM内存、强化散热和电源管理,以及CPO(共封装光学)技术路线图。
在黄仁勋发表演讲前,让我们回顾一下英伟达近年来推出的GPU架构及其背后的故事。
早在1999年底,英伟达推出了首款GPU——Geforce 256,它集成了完整的渲染管线,为图形加速带来了显著提升。然而,这款产品尚不具备可编程能力,直到2001年随着DX8引入可编程顶点着色器的概念,英伟达在Geforce 3中加入了Vertex Processor,使GPU得以编程。随后,DX和OpenGL引入了更多可编程着色器,以满足渲染开发者的需求。
GPU最初的设计并非针对深度学习,而是图形加速。在CUDA架构出现之前,GPU对深度学习运算的支持有限。真正用于人工智能算力支持的GPU是GPGPU(通用计算图形处理器),它用于处理非特定需求的计算任务。
革命始于CUDA架构的诞生。随着GPU可编程能力的发掘,其并行计算潜力被广泛认可。2003年的SIGGRAPH大会上,业界泰斗级人物探讨了利用GPU进行各种运算的可能性。尽管当时开发者只能利用着色器编程语言开发程序,但GPU并行计算的潜力已显而易见。斯坦福大学的Ian Bark看到了这一需求,投身到Brook语言的研发中,后成为GPU并行计算软件栈的先驱。2006年,他加入英伟达,两年后开发出CUDA。
同年,英伟达推出了Tesla架构的第一代产品G80,标志着GPU通用计算探索的开始。G80采用全新的CUDA架构,支持C语言编程,可用于通用数据并行计算。这是英伟达命运的转折点,开启了并行加速时代。随后,英伟达推出了第二代Tesla架构GT200,双精度FMA运算速度大幅提升。
在G80和GT200两代产品的基础上,英伟达积累了大量用户体验反馈,招募了首席科学家Bill Dally,最终推出了Fermi架构。这是首款专为计算任务设计的GPU,不仅具备强大的图形渲染能力,还重新定义了GPU的概念,旨在加速并行计算性能。GF100是首款基于Fermi架构的GPU,集成了32亿个晶体管。
之后,英伟达保持了大约两年更新一次架构的频率。2012年推出的Kepler架构支持超级计算和双精度计算,性能和功耗显著提升。2014年的Maxwell架构是Kepler的升级版,优化了低功耗和高性能需求,适用于移动设备。2016年,Pascal架构推出,专为深度学习设计,支持所有主流深度学习计算框架。
面对深度学习领域的激烈竞争,英伟达在Pascal架构推出次年就发布了Volta架构,引入了Tensor Core专门加速矩阵运算,提升深度学习计算效率。随后,Turing架构进一步增强Tensor Core功能,支持更多数据格式,并引入了光线追踪技术。2020年的Ampere架构则刷新了人们对Tensor Core的认知,支持更多数据格式,并引入稀疏矩阵计算优化。
英伟达在AI时代的领导地位日益凸显。2016年,黄仁勋将首台DGX-1超级计算机赠予OpenAI。2022年,OpenAI发布的ChatGPT成为深度学习领域的里程碑。英伟达作为“卖铲人”,发布了H100 GPU,凭借Hopper架构成为地表最强并行处理器。Hopper架构去除了RT Core,引入了Transformer引擎,专为深度学习计算优化。
2024年,英伟达推出的Blackwell架构为生成式AI带来显著飞跃。GB200超级芯片在处理LLM推理任务时性能提升高达30倍,能耗优化高达25倍。还引入了第二代Transformer引擎和第五代NVLink技术。
英伟达GPU架构的不断创新和升级,推动了深度学习技术的边界,为研究和应用提供了强大计算支持,促进了AI技术的快速发展。明日,黄仁勋将在GTC峰会上如何刷新人们的想象,值得期待。
领取专属 10元无门槛券
私享最新 技术干货