编辑:小咸鱼 好困
近日,在英伟达团队发表的新论文中提到了一个神秘的显卡:GPU-N。
据网友推测,这很可能就是下一代Hopper GH100芯片的内部代号。
https://dl.acm.org/doi/10.1145/3484505
英伟达在这篇「GPU Domain Specialization via Composable On-Package Architecture」(通过可组合式封装架构实现GPU领域的专业化)的论文中,谈到了下一代GPU设计。
研究人员认为,当前要想提升深度学习性能,最实用的解决方案应该是最大限度地提高低精度矩阵计算的吞吐量。
简单来说,GPU-N有134个SM单元(A100中为104个SM);8576个CUDA核心(比A100多24%);60MB的二级缓存(比A100多50%);2.687TB/秒的DRAM带宽(可扩展至6.3TB/秒);高达100GB的HBM2e(通过COPA实现可扩展到233GB),以及6144位内存总线。
全新COPA-GPU架构
「GPU-N」采用了一种叫COPA的设计。
目前,当GPU以扩大其低精度矩阵计算吞吐量的方式来提高深度学习(DL)性能时,吞吐量和存储系统能力之间的平衡会被打破。
英伟达团队最终得出一个结论,基于FP32(或更大)的HPC和基于FP16(或更小)的DL,两者的工作负载是不一样的。那么,运行两种任务的GPU架构也不应该完全一样。
而如果非得要求GPU满足不同的架构要求,去做一个融合设计,会导致任何一个应用领域的配置都不是最优的。
因此,可以给每个领域提供专用的GPU产品的可组合的(COPA-GPU)架构是解决这些不同需求的最实用的方案。
COPA-GPU利用多芯片模块分解,可以做到最大限度地支持GPU模块复用,以及每个应用领域的内存系统定制化。
英伟达表示,COPA-GPU可以通过对基线GPU架构进行模块化增强,使其具有高达4倍的片外带宽、32倍的包内缓存和2.3倍的DRAM带宽和容量,同时支持面向HPC的缩减设计和面向DL的专业化产品。
这项工作探索了实现可组合的GPU所必需的微架构设计,并评估了可组合架构为HPC、DL训练和DL推理提供的性能增益。
实验表明,与一个融合的GPU设计相比,一个对DL任务进行过优化的COPA-GPU具有16倍大的缓存容量和1.6倍高的DRAM带宽。
每个GPU的训练和推理性能分别提高了31%和35%,并在扩展的训练场景中减少了50%的GPU使用数量。
从纸面上的性能来看,「GPU-N」的时钟频率为1.4GHz(与A100的理论值相同),可以达到24.2 TFLOPs的FP32(是A100的1.24倍)和779 TFLOPs的FP16(是A100的2.5倍)。
与AMD的MI200相比,GPU-N的FP32的性能还不到一半(95.7 TFLOPs vs 24.2 TFLOPs),但GPU-N的FP16的性能却高出2.15倍(383TFLOPs vs 779TFLOPs)。
规格 | NVIDIA V100 | NVIDIA A100 | GPU-N |
---|---|---|---|
SMs | 80 | 108 | 134 |
GPU频率(GHz) | 1.4 | 1.4 | 1.4 |
FP32(TFLOPS) | 15.7 | 19.5 | 24.2 |
FP16(TFLOPS) | 125 | 312 | 779 |
L2缓存(MB) | 6 | 40 | 60 |
DRAM带宽(GB/s) | 900 | 1,555 | 2,687 |
DRAM容量(GB) | 16 | 40 | 100 |
根据以往的信息可以推断,NVIDIA的H100加速器将基于MCM解决方案,并且会基于台积电的5nm工艺。
虽然不知道每个SM中的核心数量,但如果依然保持64个的话,那么最终就会有18,432个核心,比GA100多2.25倍。
Hopper还可以利用更多的FP64、FP16和Tensor内核,这将极大地提高性能。
GH100很可能会在每个GPU模块上启用144个SM单元中的134个。但是,如果不使用GPU稀疏性,英伟达不太可能达到与MI200相同的FP32或FP64 Flops。
此外,论文中还谈到了两种基于下一代架构的领域专用COPA-GPU,一种用于HPC,一种用于DL领域。
HPC变体采用的是非常标准的设计方案,包括MCM GPU设计和各自的HBM/MC+HBM(IO)芯片,但DL变体真的是一个很特殊的设计。
DL变体在一个完全独立的芯片上安装了一个巨大的缓存,与GPU模块相互连接。具有高达960/1920 MB的LLC(Last-Level-Cache),HBM2e DRAM容量也高达233GB,带宽高达6.3TB/s。
但是网友表示,英伟达似乎已经决定将重点放在DL性能上,因为FP32和FP64(HPC)性能的增长仅仅是来源于SM数量的增加。
这很可能在最后达不到传闻中的3倍性能。
鉴于英伟达已经发布了相关的信息,Hopper显卡很可能会在2022年GTC的大会上亮相。
规格预测
Tesla V100 (SXM2) | NVIDIA A100 (SXM4) | NVIDIA H100 (SMX4?) | |
---|---|---|---|
GPU | GV100 (Volta) | GA100 (Ampere) | GH100 (Hopper) |
制程 | 12nm | 7nm | 5nm |
晶体管 | 21.1亿 | 54.2亿 | TBD |
芯片尺寸 | 815平方毫米 | 826平方毫米 | TBD |
SMs | 80 | 108 | 134 |
TPCs | 40 | 54 | TBD |
FP32 CUDA核心 | 5120 | 6912 | 8576 |
FP64 CUDA核心 | 2560 | 3456 | 4288 |
张量核心 | 640 | 432 | TBD |
纹理单元 | 320 | 432 | TBD |
频率 | 1530 MHz | 1410 MHz | ~1400 MHz |
TOPs(DNN/AI) | 125 TOPs | 1248 TOPs | TBD |
FP16计算 | 30.4 TFLOPs | 312 TFLOPs | 779 TFLOPs |
FP32计算 | 15.7 TFLOPs | 19.4 TFLOPs | 24.2 TFLOPs |
FP64计算 | 7.80 TFLOPs | 19.5 TFLOPs | 24.2 TFLOPs |
显存类型 | 4096-bit HBM2 | 6144-bit HBM2e | 6144-bit HBM2e |
显存容量 | 16 GB @ 900 GB/s | 最高 40 GB @ 1.6 TB/s最高 80 GB @ 1.6 TB/s | 最高 100 GB @ 2.687 TB/s |
L2缓存 | 6144 KB | 40960 KB | 81920 KB |
TDP | 300W | 400W | ~450-500W |
参考资料:
https://wccftech.com/mysterious-nvidia-gpu-n-could-be-next-gen-hopper-gh100-in-disguise-with-134-sms-8576-cores-2-68-tb-s-bandwidth-simulated-performance-benchmarks-shown/