前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AMD将成全球首个E级超算供应商?美国Frontier超算全AMD架构,超千万GPU核心

AMD将成全球首个E级超算供应商?美国Frontier超算全AMD架构,超千万GPU核心

作者头像
新智元
发布2022-04-06 11:45:00
8900
发布2022-04-06 11:45:00
举报
文章被收录于专栏:新智元


新智元报道  

编辑:LRS

【新智元导读】最近几年E级超算的呼声越来越高,但始终还没有哪个国家推出百亿亿次超算。美国Frontier超算近期开启公开测试,采用全AMD的架构,含超千万GPU核心,美国能全球首发E级超算吗?

超算排行榜,明年可能要迎来大变化!

美国橡树岭领先计算设施(OLCF)项目最近发布一条新消息,计算设施的测试平台系统已经成功启动,并有代码正在Crusher上运行测试。 

2019年时,美国能源部宣布投资6亿美元打造一台名为Frontier的超级计算机,以AMD处理器+AMD加速卡的架构进行搭建,预期计算能力将是Summit系统的7倍,并计划在2021年上线。

Crusher就是Frontier的一部分,可以看作是Frontier超算的「缩小版本」,科学家目前可以通过Crusher访问Frontier。

Crusher拥有和Frontier完全相同的计算架构,但只包含1.5个机柜,总计128+64=192个计算节点,总面积不过44平方英尺(约4平米)。和2013年上线的美国泰坦超算相比,占地面积仅为泰坦的百分之一,性能却更强,具体算力官方没有透露。

目前正在运行的4个科学项目已经成功通过Crusher在Frontier架构上完成优化,包括癌症分布学习环境(CANDLE)项目、并行架构上计算流体动力学(Cholla)项目、局部自洽多重散射(LSMS)项目、橡树岭的核电耦合集群(NuCCOR)项目。

由于Frontier进度不及预期,2021年底才开展安装工作,所以Frontier系统的实际上线时间可能要等到2023年1月1号。

根据官方文档来看,每个Crusher计算节点都配备了AMD专门优化过的第三代EPYC 7A53 64核心处理器CPU,每个物理核心有2个硬件线程,可以访问512GB DDR4内存。

每个节点还包含4个AMD MI250X计算加速卡,每张MI250X加速卡内部集成两颗核心,可以看作是2个GPU,也就是每个节点都相当于是八卡。

MI250X加速卡号称在同类产品中拥有世界上最快的HPC性能、AI性能,使用新的CDNA2计算架构,搭配升级的6nm FinFET工艺,580亿个晶体管,并使用2.5D双芯整合封装,14080个流处理器核心,80个二代矩阵核心,8192-bit 128GB HBM2e内存,峰值560W。

计算下来,Crusher总共192颗处理器(12288核心)、768块加速卡(10813440核心),也就是超过1082万核心,还有32TB内存、250PB硬盘。

玩「扫雷」的话,应该是不会卡了。

新王登基还是群雄争霸

百亿亿次超级计算机一直是兵家必争之地,也就是计算机每秒运算次数需要达到1后面18个0,达到这个量级就称为1 exaflops,所以百亿亿次超级计算机也称为E级超算。

E级超算也被视为人类超算发展的一个里程碑,有望在解决全球能源危机、气候变化、环境污染等重大难题上发挥巨大作用。

2018年,美国橡树岭国家实验室(ORNL)推出的Summit,理论峰值可以达到200 petaflops,2020年的日本富岳超算理论峰值达到537 petaflops.

富岳就这样霸榜了两年,万众期待的E级超算还没有出来屠榜。

超算榜单的计算是使用64位浮点为基准,主要是因为解决物理模拟所需的三维偏微分方程需要这个精度。现在超级计算机的主要用途已经转为训练深度神经网络了,只需要16位的浮点精度即可,所以不严格的讲,富岳已经是E级超算了,只不过榜单上没有承认。

比如特斯拉2021年公布的超级计算机Dojo,它的算力就号称达到1.8Eflops,不过它是基于FP16的低精度,而日本富岳如果使用FP16测试,速度可以达到2Eflops以上。

并且一些专用的超算,比如有一个模拟蛋白质折叠的分布式计算的项目,因为所有的计算都可以分开计算,也不涉及多个计算机之间的计算通信等等问题,只需要堆电脑就能达到E级。2020年时项目官方在推特上发文表示,他们已经跨越E级。

但各个国家对超算的需求没有止步,各种科学仿真实验都需要更强大的超算,负责ORNL计算设施的Justin Whitt表示,Summit超算需求量大概相当于实际能力的4-5倍,所以组装新超算Frontier也被提上了日程。

Frontier完成后预期可以达到1.5 exaflops的峰值理论性能,也就是比Summit快7倍以上。更强的是,Frontier的能耗预计为29000千瓦,耗电量增长不到三倍,和当前富岳的能耗差不多。

除了全AMD架构的Frontier,美国还有其他方案,如Intel处理器+Intel加速卡的Aurora(极光)和AMD处理器+NVIDIA加速卡的Polaris(北极星)

Aurora超算系统是美国能源部阿贡国家实验室的超级计算机项目,旨在处理高性能计算、AI/ML和大数据分析工作负载,基于Sapphire Rapids和Ponte Vecchio构建,预计可以实现2 exaflops的峰值计算性能。

不过英特尔由于研发问题,7nm Ponte Vecchio GPU 芯片延期交付而不得不推迟一年,预计今年或明年才能正式上线。

所以阿贡国家实验室暂时选择购买另一台超算Polaris,由Hewlett Packard Enterprise负责建造,预计今年前半年即可交付给早期用户,也是阿贡国家实验室最大的基于GPU的超算。

英伟达表示,Polaris拥有560个计算节点,每个节点有4个 Nvidia A100 GPU,可以实现约44petaflops的峰值双精度性能,理论 AI 性能可以达到1.4 exaflops,所以Polaris并非是一台严格意义上的E级超算。

闷声发大财

早在去年6月超算榜单公布之前,就有消息传出国内已经部署了两套新一代的超级计算机。

一位不愿透露姓名的权威人士表示,去年3月,在申威Sunway Oceanlite架构上跑过一次LINPACK,也就是目前超算排行榜排名第4的神威太湖之光的下一代产品,其峰值计算性能达到了1.3 exaflops,持续计算能力1.05 exaflops,功率约为35000千瓦。

LINPACK是一个可以用来衡量超级计算机性能的测试,LINPACK的编写人之一Jack Dongarra也获得了2021年ACM图灵奖。

其实早在2018年,由江南计算所、国防科大和中科曙光公司根据不同技术路线研制的三台E级原型系统已经完成并分别安装在济南、天津和深圳国家超级计算中心。

三台E级原型机,即神威E级、曙光E级及天河三号性能都进入了中国高性能计算机TOP100的前十位。

在原型机基础上升级的E级超算系统原计划在2020年交付,目前还没有任何公开的信息,很可能已经推迟。

2021年12月,为充分发挥新一代国产E级超算系统强大计算能力,研发适配国产超级计算系统的关键技术和应用软件,国家超级计算天津中心和国防科技大学,联合数十家合作团队,共同发布「面向新一代国产E级超级计算系统的十大应用挑战」。

种种消息都在暗示国产E级超算即将面世。

虽然各国都在争夺「首发」E级超算,但超算的研发并没有想象中那么简单。

比如能耗问题,E级计算机除了运算速度快之外,对能耗也有严格要求。如果仅是不断增加处理器,那么体积和功耗会不断增加,这并不是超算可持续的出路,目前业内公认的E级超算能耗标准是在40MW以下达到每秒百亿亿次。

前面提到的Aurora超算设计功率就是40MW,而欧洲更是致力于将其首套E级超算能耗控制在10MW内。

还有近两年芯片行业短缺、产能不足也会影响超算的组装和研发进展。

Hyperion Research公司按照系统验收的时间估算,2021至2026年期间,全球将建成28~38台E级或接近E级的超级计算机,总价值约在100~150亿美元。

所以今明两年极有可能是E级超算大爆发的元年,届时人类的计算能力将再上一个新台阶!

参考资料:

https://news.mydrivers.com/1/823/823148.htm

https://www.cnbeta.com/articles/science/1196065.htm

https://new.qq.com/rain/a/20220315A0CXRT00

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 新王登基还是群雄争霸
  • 闷声发大财
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档