首页
学习
活动
专区
工具
TVP
发布

装上软硬协同“推进器” 英特尔加速HPC与AI的融合之路

《数字化生存》的作者尼葛洛庞帝曾提到,技术创新是互联网发展的源动力,人工智能则是从技术与商业的十字路口走向行业纵深,这与HPC的发展颇为相似。从阳春白雪到形成完整的产业链,超算作为AI的强载体,其代表的计算力是行业智能化转型的核心燃料,而有了指数级增长的大数据之后,AI与HPC变得前所未有的紧密,二者在硬件系统方面对高性能网络和GPU架构同等渴求,又对软件同样重视,彼此交叉的产业应用正呈现螺旋式演进。

作为全球半导体行业的引领者,英特尔所代表的x86架构在TOP500中始终处于主导地位。在2019 CCF全国高性能计算学术年会期间,英特尔分享了对于HPC和AI融合趋势的最新见解,阐释了英特尔凭借以数据为中心的产品组合变革高性能计算、转变IT系统范式的洞察和实践,并展现了与产、学、研各界的深度合作。

2019 CCF全国高性能计算学术年会

Trish A. Damkroger曾是美国能源部NNSA下属劳伦斯利弗莫尔国家实验室计算部副主任, 自2006年起一直是SC的领导成员,并担任过2014年SC国际大会主席,在HPC领域有着很高的声望。两年半以前,她加入了英特尔,如今是英特尔公司副总裁兼数据中心事业部E级计算业务总经理,主要负责公司在HPC领域包括产品规划在内的整体业务,领导着一支由计算工程师和高性能软件工程师组成的庞大团队。在她看来,HPC正在利用AI技术为最复杂的科学难题提供高效、精准的解决方案。

AI促进超算产业价值

人工智能在语音识别、图像处理、计算机视觉等领域逐渐解放了传统生产力,虚拟和物理世界的边际变得越来越模糊。目前来看,深度学习可以说是超算与人工智能结合点,一方面前者能够利用神经网络训练机器模型,赋予其逻辑能力,另一方面这种训练也需要强大的计算力支持,让模型算法更快、更精准。当前TOP500的榜首Summit,不仅拥有很高的Linpack值,另一大创新应用就是其训练的神经网络模型可以帮助理解惯性约束核聚变(ICF)仿真的结果,预测内聚变的行为,这种模型-训练-仿真的迭代推进使得较传统方法可以大幅缩短仿真的时长和次数。

类似的例子还发生在国内,“π 2.0”是浪潮帮助上海交通大学打造的超算系统,选择了第二代至强可扩展处理器(Cascade Lake 6248),组建了656个计算节点、1316颗金牌6248、超过2.6万核的大规模集群系统,计算性能达到2.1PFLOPS,VNNI、DL Boost的加入使得这套系统在测试天文、海洋、材料基因组大规模应用时的性能,较以往有着2-4倍的提升。在ISC 2019期间,浪潮也发布了支持16颗英特尔Cascade Lake处理器和Omni-Path网络的AI HPC融合一体机,AI性能比上一代至强处理器提升14倍。浪潮AI与HPC副总经理赵帅认为,AI与HPC的发展是相互借鉴的过程,例如Lustre、BeeGFS等并行文件系统的调用,以及同样的节点、网络、存储、调度系统,“从本质上而言就是一套系统。”

由此,也可以看到像化学、数学、物理、生命科学、气象、能源这些HPC相对传统的领域都在尝试用AI来解决问题。在气象行业,AI可以帮助HPC根据实时的温度、湿度、风力、风速,结合历史数据在预测前期的6-12个小时进行高效预热,进而对海啸、风暴等自然因素做出判断,使其对生产生活产生正向作用;在医疗行业,利用HPC做基因检测或基因拼接,借助AI进行辅助医疗(分析X光片等)已经成为精准医疗的重要补充;在能源行业,石油勘探典型的传统计算方式是用地震波反演,而使用AI可以做油藏模拟和油井模拟,找到第一个地震波到达地面的时间点,比仅用HPC来计算要快得多、准得多。

在会后采访中,浪潮AI与HPC副总经理赵帅谈到:“我们希望成立一个AI的生态联盟,浪潮提供软硬件的平台,这里面不只是服务器,也包括我们与英特尔合作的FPGA卡、最新的Cascade Lake处理器,以及我们对这些算法进行的并行化的调优和优化等等,我们会把我们所有能力都附加进去,促进产业AI化的进程。”

聚能生态的全栈能力

早在2011年,浪潮就与英特尔共同成立了联合创新实验室,在计算、存储、网络等方面从技术和应用角度进行研发测试,并且在AICC大会、AIC大赛中与英特尔保持了多年的深度合作。同样的,作为全球最大的HPC供应商,联想与英特尔的合作也是由来已久,双方更是在8月初达成了长期的合作协议:关注HPC和AI融合领域快速增长的机会,以加速解决全球范围内最富挑战性的问题。这一合作专注于三个领域:

系统和解决方案层面,汇集了联想TruScale基础架构服务,英特尔Xe计算架构、英特尔傲腾数据中心级持久内存、英特尔oneAPI编程框架,以及当前和下一代的英特尔至强可扩展处理器;软件层面,扩展联想的智能软件产品,包括为英特尔下一代技术优化联想的LiCO HPC/AI软件堆栈,并与英特尔oneAPI 编程框架保持同步,以及实现DAOS高级存储框架和其它百亿亿次级软件优化;生态层面,创建面向HPC和AI融合的全新生态系统,包括在世界各地建立联合“高性能计算与人工智能卓越中心”,支持科研机构和高校开发解决方案,应对基因组学、癌症、天气和气候、太空探索等全球性挑战。

“我认为英特尔的处理器将是All in one的最终极的解决方案,其实不仅是HPC、云计算,还有包括人工智能,我认为99%以上的应用是完全可以跑在CPU上的,而且随着CPU的能力越来越强,这也完全可以做到。”联想数据中心集团全球高性能计算和人工智能技术高级总监Scott Tease对笔者说:“IA这个生态系统是比较开放的,除了CPU,如果说客户想跑别的(架构),无论是加速器、FPGA,还是GPU、网络加速卡,都可以完整被集成到IA的生态系统当中。”

Scott Tease进一步表示,联想与英特尔的合作维度将更加广泛。首先,双方会进行面向未来的长期的产品设计,如当前正在测试2-3年后的新品;其次,建立更多的联合实验室将新技术不断的推向客户和合作伙伴;此外,帮助客户将新技术和新产品进行快速落地。“超算中心不仅是看CPU的能力,更多还会看其他的方面,包括整体的阶梯式存储能力等等,从这个角度来说,英特尔在超算领域里提供了最丰富的产品线。”Scott Tease说。

软硬兼备的HPC生态

就像Scott Tease所说的,不管是计算、网络、存储的基础设施,还是SVMS这样丰富的计算架构,英特尔提供的产品组合是业界最全的。为了持续推动HPC领域的“千倍定律”,英特尔对新一代硬件架构和软件开发工具进行了大量投入,one API渲染工具包综合路线图便是即将实现的投入之一。

“你拥有的算力并不代表就是能被使用的计算能力。对于超算中心很多用户来说,更重要的是你能帮他解决问题。从英特尔很长的历史来看,在英特尔的软件或硬件架构上做优化,会使最终用户的应用使用起来更加有效,这是我们在过去这些年来的强项之一,我也希望我们可以继续这样去帮助客户。”Trish认为,与通用的硬件资源相比,HPC在软件层面的挑战更大,这也是为什么英特尔在力推one API——让开发者可以横跨各类架构进行开发,借助统一的开发工具组合实现“一次开发 任意部属”,使得不同的应用可以跑在相同的软件层上,调动起每一个晶体管的能量。

英特尔公司副总裁兼数据中心事业部E级计算业务总经理Trish A. Damkroger

除此之外,英特尔也在构建完善的HPC生态系统,Trish从三个方面向笔者进行了诠释。第一,吸引更多的人才加入到生态体系中,例如多年来对PAC(全国并行应用挑战赛)的支持。不仅免费提供英特尔最新研发的高性能计算设备,还提供软件工具以及培训指导服务,以培养更多的高性能计算人才,挖掘更多高性能计算创新应用;第二,整合one API在内的全套工具,并且将其在HPC领域耕耘20年所积累的经验和方法论贡献出来,推动生态系统建设;第三,开放规范,通过CXL、Open HPC等开源或开放标准的形式,为生态系统内的合作伙伴带来更多的创新活力。

正如Trish在演讲中所提到的:“在这个以数据为中心的世界,先进的高性能计算系统同时借助传统的高性能计算数据分析和人工智能技术,来高效处理最为复杂的科学问题。英特尔通过以数据为中心的软硬件产品组合,从数据中心到云,驱动整个IT系统范式的变革,并以产品技术创新和广泛的生态优势,全方位推动高性能计算和人工智能的融合。”

(7263033)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190904A0NB1C00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券