前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >闲话高性能计算

闲话高性能计算

原创
作者头像
cristina
修改2019-01-08 14:27:12
7270
修改2019-01-08 14:27:12
举报

第三个千年开始之际,人类醒来,伸展手脚……来瞧瞧今天有什么重要的事吧   ---《未来简史》

我们总需要时常回顾过去,不只是为了怀念,更多是为了找寻通往未来的一点线索。如果运气再好一些,说不定能发现一些点(leng)子(fan)可以被翻出来再引人注目。例如AI的发展,就经历了若干次热潮,最近的一波我们还身在其中。与此相比,高性能计算似乎一直很热,又一直离我们很远。说高性能计算一直很热,是因为从天河超级计算机开始,中国就加入了超级计算机的全球军备竞赛,年年争夺超算世界冠军;说离我们远,是因为我们在日常的工作生活中见识超级计算机的机会并不多。事实上,高性能计算(HPC)离我们近在咫尺:路上开的车,发动机、底盘、车架,从内到外的设计都离不开HPC;生病吃的药,研发过程是从计算模拟开始的;无数的电影特效,是在HPC上制作的……有意思的是,在过去的一年,高性能计算又频繁被提及,变成了一个热门话题。

不一样的高性能计算 

如今被频繁提及的高性能计算和传统的HPC已经大不相同了。包括AI、生命科学、计算化学家等技术的突飞猛进无疑凸显了对计算力的强烈需求,从而推动了HPC的发展和变化。在前不久结束的HPC China 2018大会上,英特尔院士、英特尔HPC战略总监Mark Seager在大会主题演讲中就提到,AI市场将从2017年的25亿美元成长为2022年的80-100亿美元,年复合增长率达到30%,但是现有的平台技术(包括HPC)依然不能很好的满足AI的算力需求。那么问题具体出现在哪里?我们觉得至少有以下几点值得注意:

  • 异构的计算单元——以AI辅助研发为应用场景的HPC,必然涉及大量异构的计算单元,包括各种性能的CPU节点、GPGPU节点、专用ASIC计算模块、FPGA模块、TPU和新兴的AI专用芯片等
  • 更大的计算规模——以计算机辅助药物研发为例,涉及高通量筛选的计算过程,常常需要数以万计的CPU核做并行计算。设想如果同时提交多个这样的计算任务,计算规模又会成倍增长
  • 多样化的数据存储——与传统HPC环境不同,越来越多的企业的数据来源于不同的数据源,存放在不同的存储介质,存储的性能和容量可能差别巨大。单一的一套分布式文件系统已经不能满足多样化的存储需求了
  • 硬件更新异常迅速——仅2018年,全球至少发布了约10款AI芯片,2代GPGPU,加上FPGA解决方案等,硬件的更新已经不是以年,而是以月计。为了跟上硬件的更新,需要更迅速有效的系统方案,动辄几个月的部署上线时间是不能接受的
  • 融合网络——也许软件定义网络还不是HPC必须的配置,但无疑更快速灵活的网络管理和动态优化是必须的

总之,应用场景的变化和对计算力的极度渴求正赋予HPC全新的使命。

为什么是现在?

AI早就不是一个新学科了,生命科学也持续在发展,那为什么这些领域的用户似乎是一夜之间都对算力如此饥渴?我们觉得一个很重要的原因在于数据。

这个表是Gartner评选出的2010年-2017年间最酷的存储公司。其中Pure,Nimble和Violin Memory是上市了的。Nimble和Violin Memory先后被收购,Pure也没有实现PK掉EMC的豪言壮语。更有意思的是,EMC也在不久前与Dell合并,不再是一家独立的公司。对此,我们的解读是,数据存储依然是一个巨大且增长的市场,但是已经有很多很好的产品和解决方案(包括云存储)可供用户选择,跑马圈地式的发展已经是过去时了。同时,从用户的角度看,存储虽然不是一个已经完全被解决的问题,但在过去的这些年,用各种存储产品和方案,也能把他们需要的数据积累下来。

接下来的问题,就是这些数据如何为用户产生价值。如果把这些还在不断积累的数据看做金矿(真的是金矿),那大量的计算就是挖掘金矿的工具,更高性能的计算能力就是现代化金矿挖掘机!

拥抱改变

要用更快的速度挖出更多的金子,就必须解决我们之前提到的一系列问题。这些改变是每一个用户都需要,并希望尽快实现的:

功能与硬件的解耦——底层硬件依然在飞速发展,异构计算也方兴未艾。用户如何应对最底层硬件的更新?一个可行的方法是添加软件的抽象层,将硬件能力封装,例如TensorFlow

拥抱云计算——云的规模优势非常明显,可以提供更新更快的硬件,但也会带来额外的复杂性。对此,可以尝试从策略驱动的资源调度、负载自动溢出到云端、云原生优化等方面着手。根据Univa在2018年对超过250家企业客户的调查,相比2017年,客户对在混合云上运行HPC的兴趣增长了10倍,有61%的用户表示他们将会,或已经在使用混合云运行HPC应用

更高带宽、更低延迟的网络——这包括单个数据中心内部的高速网络和跨数据中心的网络。在这一领域的一个榜样是Equinix和一家HPC初创公司RStor共同建立的多云之间的高速网络

我们相信,更高效的计算会让我们从海量的数据中挖掘出更有价值的成果,会更深刻的改变我们所生存的世界!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档