美国斥巨资研发E级超算Frontier,中美超算竞争再度白热化!

近日,美国能源部宣布,即将投入六亿美元建设E级(百亿亿次)超级计算机Frontier。Frontier将会由Cray、AMD联合打造,计划在2021年建成,届时将成为全球最快的E级超级计算机。这是继Aurora和El Capitan之后,美国开建的第三台E级超级计算机。

而我国在E级超级计算机上也没有放慢脚步,目前也有天河三号、神威E级和曙光E级三大E级超级计算机正在紧锣密鼓地研制中,并且都有望在2020年完成研制与部署。

可以说,未来2-3年时间内,中国与美国各自三台E级超级计算机将会把中美之间的超算竞争再度推向白热化。

美国Frontier:Cray和AMD唱戏

据悉,Frontier的计算性能将超过1.5 exaflops,目前全球超级计算机Top 500排名第一的美国Summit超级计算机的交付性能达到200 petaflops,Frontier的性能可谓是大幅提升。

Frontier将会在美国橡树岭国家实验室建造,基于Cray公司的Shasta架构和Slingshot互连技术,采用AMD的EPYC CPU和Radeon Instinct GPU。橡树岭国家实验室已经部署了目前性能最好的Summit超级计算机,该实验室也是美国超级计算机部署的“首选”,先后部署了Jaguar、Titan和Summit等机器。

在3月份,美国能源部还宣布投入5亿美元在阿贡国家实验室建设E级超级计算机Aurora,主要计划利用超级计算将高性能计算和人工智能技术用于癌症研究、气候模拟等领域。

值得关注的是,Summit超级计算机组合是IBM Power9+Nvidia Tesla GPU+Mellanox 100Gb/s Infiniband网络。而美国在E级超级计算机的建设之路走了分散投资的路线,Frontier是Cray+AMD的组合,Aurora则是Cray+Intel,El Capitan则预计是IBM Power 10+Nivida的组合。

据悉,Frontier系统中的Shasta机架每个机柜可以提供300千瓦的功率密度。相比之下,超大规模数据中心可以达到15千瓦到30千瓦。Frontier的计算密度部分由Cray和AMD共同开发的新型异构CPU-GPU刀片设计实现。 Frontier将坐在一个40兆瓦的功率范围内,这大约是五年前人们担心百亿亿次级系统可能消耗的一半。

图:2018年最新一期Top 500超级计算机排名前五的机器

此外,Frontier系统的计算部分完全由AMD来完成,包括CPU和GPU加速器。考虑到之前,IBM和Nivida组合在Summit性能和服务上的出色表现,很多人认为Frontier也将会采用IBM Power+Nvidia GPU的组合,但是现实却是AMD完成了Frontier计算部分的通吃。

AMD在Frontier中提出的另一个秘诀就是在CPU和GPU之间增强了Infinity Fabric互连,可以跨设备提供连贯的内存访问,就像IBM和Nvidia通过NVLink互连在Power9 CPU和Volta GPU上完成的那样。

事实上,保持这个胖节点计算和一致性的方法对于橡树岭国家实验室来说至关重要Frontier的设计将为每个Epyc处理器提供四个Radeon Instinct GPU,这比Summit更为激进,Summit是每对Power9处理器配备了六个Volta GPU。

中国E级超级计算机:三足鼎立

去年7月底,我国刚刚宣布了天河三号E级原型机在国家超级计算天津中心完成研制部署,并顺利通过验收,将逐步进入开放应用阶段,未来有望在2020年完全建成。此外,神威E级超级计算机原型机也国家超级计算济南中心研制成功,预计将在2020年完成研制部署。

天河三号实现了从处理器、互联借口、路由器芯片、基础电路板等硬件,到操作系统、并行开发、应用支撑等软件均实现自主设计,在核心关键技术上整体实现了自主可控。据悉,天河三号原型机采用全自主创新,自主飞腾CPU,自主天河高速互联通信,自主麒麟操作系统等。

目前,天河三号原型机已为国内多家科研机构完成了大规模并行应用测试,涉及航空、生物工程等领域50余款大型应用软件。

神威E级超算原型机由国家并行计算机工程技术研究中心联合国家超级计算济南中心等团队联合研制,该原型机硬件、软件和应用三大系统中,处理器、网络芯片组、存储和管理系统等核心器件全部为国产化,分别是神威26010+众核处理器、申威网络交换芯片和申威消息处理芯片等。

据悉,神威E级超算原型机预计于2020年完成研制部署,建成之后将性能会是“神威·蓝光”的三倍,体积仅为后者的九分之一,能耗同比下降75%。目前,神威E级超算原型机已完成包括全球气候变化、海洋数值模拟、生物医药仿真、大数据处理和类脑智能等12个领域的35项重大计算任务。

曙光的E级计算机则并未透露太多信息,之前有媒体报道曙光E级可能会采用中科院体系内研发的CPU和加速器(比如龙芯系列),其最终部署时间也将会在2020年以后。

总体而言,E级计算的时代已经到来,在人工智能、大数据等应用日趋普及的今年,E级计算带来的将会是强有力的基础支撑。目前,中美两国在超级计算机领域的竞争将日趋白日化,中美各自三大E级计算机正在快马加鞭地建设中,而日本、英国等国家也在积极投身E级超级计算机的建设中,试图追赶上中美的步伐。

原文发布于微信公众号 - 大数据在线(dobigdata)

原文发表时间:2019-05-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券