在北京时间今天凌晨召开的英伟达2025 GTC AI大会上,NVIDIA创始人兼CEO黄仁勋在主题演讲中发布了Nvidia Blackwell Ultra B300数据中心GPU,又一次提高了在人工智能模型速度和能力竞争中的门槛。此外,还更新了数据中心路线图,展示了即将推出的Rubin(以天文学家Vera Rubin命名)和Rubin Ultra的计划配置,以及将以理论物理学家Richard Feynman的名字命名的下一代产品。英伟达还宣布推出DGX Spark个人 AI计算机。
英伟达表示,Blackwell Ultra GPU是为了满足推理时扩展的需求而设计的,其FP4计算能力提高了1.5倍。新的B300 GPU将提供比B200更高的计算吞吐量。多出50%的片上内存将能够支持更大参数量的AI模型,而相应的计算能力也肯定会有所帮助。Blackwell Ultra B300预计将在今年年底前开始发货。
除了基础的B300构建模块外,还将推出新的B300 NVL16服务器机架解决方案、GB300 DGX工作站和GB300 NV72L全机架解决方案。将8个NV72L机架组合在一起,就构成了完整的Blackwell Ultra DGX SuperPOD:288颗Grace CPU、576块Blackwell Ultra GPU、300TB HBM3e内存和11.5 ExaFLOPS的FP4计算能力。这些可以连接在一起,形成英伟达所称的“AI工厂”超级计算机解决方案。
在2025年GTC大会上,英伟达展示即将推出的DGX SuperPOD
除了B300,英伟达已经着眼于未来两年,展示了即将推出的Rubin。一个有趣的点是黄仁勋表示“Blackwell的命名是错误的”。Blackwell B200实际上每个GPU有两颗芯片,尽管公司目前将当前解决方案称为Blackwell B200 NVL72,但将其称为NV144L会更合适。这也是英伟达即将推出的Rubin解决方案将采用的命名方式。
2025年英伟达数据中心GPU路线图,展示了Vera Rubin NVL 144芯片
B300 NVL72提供1.1 PFLOPS的密集FP4计算能力,而Rubin NVL144(同样是总共144个GPU芯片)将提供3.6 PFLOPS的密集FP4计算能力。Rubin还将提供1.2 ExaFLOPS的FP8训练能力,相比之下,B300仅为0.36 ExaFLOPS。总体而言,计算性能提升了3.3倍。
Rubin还将标志着从HBM3/HBM3e向HBM4的转变,Rubin Ultra将使用HBM4e。每个GPU的内存容量将保持在288GB,与B300相同,但带宽将从8TB/s提高到13TB/s。此外,更快的NVLink将使总吞吐量翻倍至260TB/s,并引入新的CX9机架间链接,带宽为28.8TB/s(是B300和CX8的两倍)。
Rubin家族的另一半将是Vera CPU,它将取代当前的Grace CPU。Vera将是一款相对较小且紧凑的CPU,拥有88个定制的ARM内核和176个线程。它还将通过NVLink内核到内核接口与Rubin GPU连接,带宽为1.8TB/s。
Rubin Ultra将于2027年下半年推出,在Rubin之后,英伟达的下一个数据中心架构将以理论物理学家理查德·费曼(Richard Feynman)的名字命名。
黄仁勋展示将出现在DGX Spark/Station系统中的主板
NVIDIA还发布了由NVIDIA Grace Blackwell平台驱动的DGX个人AI超级计算机DGX Spark,为AI开发将数据中心级别的性能带到桌面端。DGX Spark的核心是NVIDIA GB10 Grace Blackwell超级芯片,已针对台式电脑外形规格进行了优化。GB10配备的NVIDIA Blackwell GPU,支持第五代Tensor Core和FP4,每秒计算次数高达1000 万亿次,适用于借助前沿的AI推理模型(包括NVIDIA Cosmos-Reason 世界基础模型和 NVIDIA GR00T N1机器人基础模型)进行微调和推理。
领取专属 10元无门槛券
私享最新 技术干货