“生成式AI的iPhone时刻已来”——随着英伟达下一代GH200超级芯片平台的发布,AIGC领域有望开启新的成长阶段。
01
英伟达推出超级芯片
“生成式 AI 时代即将到来,如果你愿意的话,那将是 iPhone 时代。”
在美国洛杉矶Siggraph计算机顶级会议上,英伟达CEO黄仁勋发布一系列专为大模型打造的最新算力产品。
其中包括英伟达最新 AI 处理器GH200 Grace Hopper Superchip芯片,专为处理世界上最复杂的生成工作负载而生,今年5月起生产,预计将于2024年第二季度交付;同而且英伟达还推出一种专为简化模型部署打造的新的统一软件工具包NVIDIA AI Workbench,以及搭载全新L40S Ada GPU的新款服务器等。
不少业内人士认为,这是英伟达对于AI数据中心芯片市场最大竞争对手AMD的“反击”,英伟达此前就已经预告将发布与AMD的Insight MI300X CPU + GPU对打的产品,后者是今年6月AMD刚刚发布的大模型专用芯片。
02
成本降低至十二分之一
GH200全球首发采用HBM3e高带宽内存,与英伟达目前最高端的AI芯片H100使用同样的GPU,但不同之处在于,GH200将同时配备高达141G的内存和72核ARM中央处理器,每秒5TB带宽。和现有Grace Hopper型号相比,最新版本的GH200超级芯片能够提供3.5倍以上的内存容量和3倍以上的带宽。和H100相比,GH200超级芯片的内存增加了1.7倍,带宽增加了1.5倍。全新一代的GH200预计明年二季度开始生产。
黄仁勋表示,一台服务器可以同时装载两个GH200超级芯片,大型语言模型的推理成本将会大幅降低。
据介绍,投资800万美元Grace Hopper,就相当于8800个价值1亿美元的x86 GPU,意味着成本降低12倍,能耗降低20倍。
GH200专为加速计算和生成式AI时代而打造,以巩固英伟达在AI界的主导地位,应对其老对手AMD于6月推出的数据中心APU(加速处理器)Instinct MI300系列的更新。
更厉害的地方在于,在内存和运算能力得到大幅度提升的基础上,GH200超级芯片还可以基于NVLink技术继续拓展互连,让GPU有能力访问全部的CPU内存,帮助客户减少机器数量并更快地完成工作。为了突出产品的这一特性,黄仁勋在演讲中屡次幽默地重复自己的口头禅:“你买得越多,就省得越多(The more you buy, the more you save)。”
03
能够自动推理的芯片
“你几乎可以在GH200上运行任何你想要的大型语言模型,它会疯狂地进行推理。”黄仁勋说,“大型语言模型的推理成本将大幅下降。”
英伟达还发布了一个系统,将两个GH200芯片组合成一台计算机,适用于更大的模型。黄仁勋称之为“全球最大的单体GPU”。
通常,使用人工智能模型的过程至少分为两个部分:训练和推理。首先,使用大量数据训练模型,这个过程可能需要数月时间,有时需要数千个GPU;然后,模型在软件中使用推理来进行预测或生成内容。与训练一样,推理的计算成本很高,并且每次软件运行时都需要大量处理能力。
与训练不同的是,推理几乎持续进行,而训练只有当模型需要更新时才需要重新进行。
04
AI性能突破1 Exaflop
NVIDIA此前的 DGX A100 系统只能将八个 A100 GPU 联合起来作为一个单元,面对生成式人工智能大模型对于算力的爆炸式增长,NVIDIA的客户迫切需要更大、更强大的系统。DGX GH200就是为了提供最大的吞吐量和可扩展性而设计的。
DGX GH200通过定制的NVLink Switch System(包含 36 个 NVLink 开关)将256个GH200超级芯片和高达144TB的共享内存连接成一个单元,避免标准集群连接选项(如 InfiniBand 和以太网)的限制,这种新的互连方式使DGX GH200系统中的256个H100 GPU作为一个整体协同运行,使其成为了专为最高端的人工智能和高性能计算工作负载而设计的系统和参考架构。可支持数万亿参数AI大模型训练。
DGX GH200系统中的每个Grace Hopper Superchip 都与一个NVIDIA ConnectX-7网络适配器和一个NVIDIA BlueField-3 NIC配对。DGX GH200 拥有 128 TBps 对分带宽和 230.4 TFLOPS 的 NVIDIA SHARP 网内计算,可加速 AI 中常用的集体操作,并通过减少集体操作的通信开销,将 NVLink 网络系统的有效带宽提高一倍。ConnectX-7 适配器还可以互连多个DGX GH200 系统,以扩展到超过256个GPU的更大的解决方案。
黄仁勋表示,DGX GH200是“巨型 GPU”,这也是NVIDIA第一次使用 NVLink Switch 拓扑结构来构建整个超级计算机集群,这种结构提供了比前一代系统高出10倍的GPU到GPU带宽,以及7倍的CPU到GPU的带宽。它还设计了提供比竞争对手高出 5 倍的互连功耗效率和高达 128 TB / s 的对分带宽。该系统有 150 英里(约 241.4公里)的光纤,并且重达 4 万磅(约18.14吨),但是呈现出来就像一个单一的 GPU。
05
任何人都可以成为程序员
生成式AI成为了被黄仁勋挂在嘴边的一大关键词。他在演讲中展示了图像和AI之间的不可分割性,表示AI既能够在虚拟世界中学习,也能够帮助搭建虚拟世界。
“大型语言模型是一个新的计算平台……人类就是新的编程语言,我们已经使计算机科学民主化,现在任何人都可以成为程序员,”黄仁勋在会议上说道,“时隔15年左右,终于有新的计算平台出现了,计算机本身必然会以截然不同的方式处理信息。”
有意思的是在这之前,英伟达已经同苹果、克斯、Adobe和Autodesk联合成立一个名为OpenUSD的组织,该组织目标是有一天可能成为“元宇宙”的3D图形标准。该组织正通过促进3D工具和数据更大的互操作性,使开发者和内容创作者能够描述、编写和模拟大型3D项目,并构建范围不断扩大的3D产品和服务。现在,DGX GH200显然让该组织的愿景开始加速落地。
对于开发者而言,英伟达将发布的全新统一工作空间是一个值得关注的话题。该空间被命名为NVIDIA AI Workbench,能够为开发者提供一个统一、易用的工作空间,使他们有能力在个人电脑或工作站上快速创建、测试和微调生成式 AI 模型,然后将这些模型扩展到几乎所有数据中心、公有云或 DGX Cloud。
美国科技媒体TechCrunch评价道,作为一款最新的、专门面向数据中心的AI开发硬件,在性价比高且耗能低的GH200即将推出的当下,再花费数百万美元为CPU机架等上一代计算资源进行投资研发将成为一种愚蠢的行为。虽然黄仁勋并未在演讲中提及AI目前面临的许多挑战、监管乃至概念上的变化,但他为观众展现了一个属于AI的积极前景。
对于在AI芯片领域拥有绝对话语权的英伟达而言,DGX GH200推动AIGC生态成长的同时,也进一步巩固了英伟达在该领域的话语权。
编辑|张毅
审核|吴新
领取专属 10元无门槛券
私享最新 技术干货