前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >英伟达神秘「变形」GPU曝光!5nm工艺,两种形态随心变

英伟达神秘「变形」GPU曝光!5nm工艺,两种形态随心变

作者头像
新智元
发布2021-12-31 16:29:09
发布2021-12-31 16:29:09
6110
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:小咸鱼 好困

【新智元导读】英伟达似乎把明年要发的新GPU提前自曝了!一个出现在论文里的神秘显卡GPU-N有着779TFLOPs的FP16性能,是A100的2.5倍。非常接近传闻中比A100强3倍的下一代Hopper GH100。

近日,在英伟达团队发表的新论文中提到了一个神秘的显卡:GPU-N。

据网友推测,这很可能就是下一代Hopper GH100芯片的内部代号。

https://dl.acm.org/doi/10.1145/3484505

英伟达在这篇「GPU Domain Specialization via Composable On-Package Architecture」(通过可组合式封装架构实现GPU领域的专业化)的论文中,谈到了下一代GPU设计。

研究人员认为,当前要想提升深度学习性能,最实用的解决方案应该是最大限度地提高低精度矩阵计算的吞吐量。

简单来说,GPU-N有134个SM单元(A100中为104个SM);8576个CUDA核心(比A100多24%);60MB的二级缓存(比A100多50%);2.687TB/秒的DRAM带宽(可扩展至6.3TB/秒);高达100GB的HBM2e(通过COPA实现可扩展到233GB),以及6144位内存总线。

全新COPA-GPU架构

「GPU-N」采用了一种叫COPA的设计。

目前,当GPU以扩大其低精度矩阵计算吞吐量的方式来提高深度学习(DL)性能时,吞吐量和存储系统能力之间的平衡会被打破。

英伟达团队最终得出一个结论,基于FP32(或更大)的HPC和基于FP16(或更小)的DL,两者的工作负载是不一样的。那么,运行两种任务的GPU架构也不应该完全一样。

而如果非得要求GPU满足不同的架构要求,去做一个融合设计,会导致任何一个应用领域的配置都不是最优的。

因此,可以给每个领域提供专用的GPU产品的可组合的(COPA-GPU)架构是解决这些不同需求的最实用的方案。

COPA-GPU利用多芯片模块分解,可以做到最大限度地支持GPU模块复用,以及每个应用领域的内存系统定制化。

英伟达表示,COPA-GPU可以通过对基线GPU架构进行模块化增强,使其具有高达4倍的片外带宽、32倍的包内缓存和2.3倍的DRAM带宽和容量,同时支持面向HPC的缩减设计和面向DL的专业化产品。

这项工作探索了实现可组合的GPU所必需的微架构设计,并评估了可组合架构为HPC、DL训练和DL推理提供的性能增益。

实验表明,与一个融合的GPU设计相比,一个对DL任务进行过优化的COPA-GPU具有16倍大的缓存容量和1.6倍高的DRAM带宽。

每个GPU的训练和推理性能分别提高了31%和35%,并在扩展的训练场景中减少了50%的GPU使用数量。

从纸面上的性能来看,「GPU-N」的时钟频率为1.4GHz(与A100的理论值相同),可以达到24.2 TFLOPs的FP32(是A100的1.24倍)和779 TFLOPs的FP16(是A100的2.5倍)。

与AMD的MI200相比,GPU-N的FP32的性能还不到一半(95.7 TFLOPs vs 24.2 TFLOPs),但GPU-N的FP16的性能却高出2.15倍(383TFLOPs vs 779TFLOPs)。

规格

NVIDIA V100

NVIDIA A100

GPU-N

SMs

80

108

134

GPU频率(GHz)

1.4

1.4

1.4

FP32(TFLOPS)

15.7

19.5

24.2

FP16(TFLOPS)

125

312

779

L2缓存(MB)

6

40

60

DRAM带宽(GB/s)

900

1,555

2,687

DRAM容量(GB)

16

40

100

根据以往的信息可以推断,NVIDIA的H100加速器将基于MCM解决方案,并且会基于台积电的5nm工艺。

虽然不知道每个SM中的核心数量,但如果依然保持64个的话,那么最终就会有18,432个核心,比GA100多2.25倍。

Hopper还可以利用更多的FP64、FP16和Tensor内核,这将极大地提高性能。

GH100很可能会在每个GPU模块上启用144个SM单元中的134个。但是,如果不使用GPU稀疏性,英伟达不太可能达到与MI200相同的FP32或FP64 Flops。

此外,论文中还谈到了两种基于下一代架构的领域专用COPA-GPU,一种用于HPC,一种用于DL领域。

HPC变体采用的是非常标准的设计方案,包括MCM GPU设计和各自的HBM/MC+HBM(IO)芯片,但DL变体真的是一个很特殊的设计。

DL变体在一个完全独立的芯片上安装了一个巨大的缓存,与GPU模块相互连接。具有高达960/1920 MB的LLC(Last-Level-Cache),HBM2e DRAM容量也高达233GB,带宽高达6.3TB/s。

但是网友表示,英伟达似乎已经决定将重点放在DL性能上,因为FP32和FP64(HPC)性能的增长仅仅是来源于SM数量的增加。

这很可能在最后达不到传闻中的3倍性能。

鉴于英伟达已经发布了相关的信息,Hopper显卡很可能会在2022年GTC的大会上亮相。

规格预测

Tesla V100 (SXM2)

NVIDIA A100 (SXM4)

NVIDIA H100 (SMX4?)

GPU

GV100 (Volta)

GA100 (Ampere)

GH100 (Hopper)

制程

12nm

7nm

5nm

晶体管

21.1亿

54.2亿

TBD

芯片尺寸

815平方毫米

826平方毫米

TBD

SMs

80

108

134

TPCs

40

54

TBD

FP32 CUDA核心

5120

6912

8576

FP64 CUDA核心

2560

3456

4288

张量核心

640

432

TBD

纹理单元

320

432

TBD

频率

1530 MHz

1410 MHz

~1400 MHz

TOPs(DNN/AI)

125 TOPs

1248 TOPs

TBD

FP16计算

30.4 TFLOPs

312 TFLOPs

779 TFLOPs

FP32计算

15.7 TFLOPs

19.4 TFLOPs

24.2 TFLOPs

FP64计算

7.80 TFLOPs

19.5 TFLOPs

24.2 TFLOPs

显存类型

4096-bit HBM2

6144-bit HBM2e

6144-bit HBM2e

显存容量

16 GB @ 900 GB/s

最高 40 GB @ 1.6 TB/s最高 80 GB @ 1.6 TB/s

最高 100 GB @ 2.687 TB/s

L2缓存

6144 KB

40960 KB

81920 KB

TDP

300W

400W

~450-500W

参考资料:

https://wccftech.com/mysterious-nvidia-gpu-n-could-be-next-gen-hopper-gh100-in-disguise-with-134-sms-8576-cores-2-68-tb-s-bandwidth-simulated-performance-benchmarks-shown/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 新智元报道
    • 【新智元导读】英伟达似乎把明年要发的新GPU提前自曝了!一个出现在论文里的神秘显卡GPU-N有着779TFLOPs的FP16性能,是A100的2.5倍。非常接近传闻中比A100强3倍的下一代Hopper GH100。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档