【Big Computing】HPC大计算，挑战深度学习的计算力黑洞

新智元

发布于 2018-03-13 15:36:40

9870

发布于 2018-03-13 15:36:40

文章被收录于专栏：新智元

2015 高性能计算用户大会

9月24日，由亚洲超算协会联合浪潮等主办的2015高性能计算用户大会在北京举行。本次大会围绕目前的新技术趋势提出“大计算”理念，重点聚焦深度学习和工业应用等热点话题，分享在面向百亿亿次新的计算时代下的技术挑战和突破。

大会汇集了36位国内外权威专家，包括劳斯莱斯公司高性能计算技术总监Yoon Ho、IDC副总裁Earl C. Joseph II、美国再生能源国家实验室材料研究中心理论研究室主任魏苏淮、国际深度学习知名专家新加坡国立大学副教授颜水成等嘉宾将在大会发表主题演讲。同时，大会还汇集了阿里巴巴、百度、奇虎360、科大讯飞等国内顶级互联网公司，这几大公司的代表将首次在现场进行主题报告和圆桌对话，探讨如何用高性能计算推动互联网深度学习，让互联网生活更加智能。

来自新加坡国立大学的颜水成副教授认为，人工智能将从现在的“Brain-like”（脑模拟）向未来的“Baby-like”（人模拟）转变，推动机器突破算法的限制，实现与真实世界的交互，而高性能计算将是实现真正人工智能最有力和不可缺少的平台。

而工业4.0所倡导的工业智能化背后，也离不开高性能计算、大数据和云计算融合的“大计算”。本届大会吸引了国内外知名工业企业的参与，现场分享了利用高性能计算如何进行汽车碰撞模拟、改进发动机设计，如何精准定位油藏、大幅降低勘探成本，如何设计更安全高效的飞行器等。与会专家普遍认同，高性能计算可以显著降低工业设计、研发和生产的成本，并大幅度提升效率，是实现工业4.0最重要的创新工具之一。

“大计算”成为一种趋势，它在技术体现在两个方面

第一是云计算、大数据和高性能计算等多种计算形式在逐步融合，互联网技术、遥感技术的快速发展和对其他行业的渗透，带来了数据的爆炸式增长，也带动了人工智能等一批新技术的兴起，复杂的应用使得单一架构的数据中心难以胜任处理工作，需要将不同的计算方式予以融合。

第二是基础架构如计算、网络、存储等的界限也越来越模糊，走向软件定义的趋势。

同时，大计算也代表着一个更大计算力的时代——百亿亿次。数据的爆炸式增长带来的直接结果，就是对计算力的需求更加旺盛。就以深度学习来说，它往往意味着计算力黑洞。

当今最著名的googleBrain使用的并行计算平台使用了16000个CPU共计10亿的节点来进行深度学习模型网络的构建。然而人脑大致有1000亿神经元（对应深度学习模型中的CPU），每个神经元有大约5000个神经突触(对应计算网络中的的节点)。曾经有人估算过，如果将一个人的大脑中所有神经突触依次连成一条直线，可以从地球到月亮，再从月亮返回地球。同时，人脑的计算能耗比还非常低，相当于世界上最快的超级计算机天河2号的200万倍。

日本和德国的研究人员曾在“京”（日本最快超级计算机）上进行了历史上规模最大的一次人脑神经模拟计算——使用“京”的82944个处理器+1PB内存模拟人脑的17.3亿神经细胞。结果，京完成1秒的人脑模拟计算需要耗费40分钟，而如果假设完成时间与被模拟神经规模成线性比例的话，那么模拟整个大脑1秒的运作则需耗时2.5天。

在人类社会的数据量以EB级的速度增长的情况下，需要一种新型的低成本、高效率计算架构（主要是芯片、网络技术的颠覆性变革），才能完成数据处理的工作。

对于这个话题，浪潮高性能计算经理刘军先生给我们进行了介绍。

刘军演讲实录

【刘军】各位来宾各位朋友上午好。我是浪潮集团的刘军，非常高兴非常荣幸能够每年一度和大家相聚在高性能用户大会，一起来讨论分享我们对于HPC的产业，未来的技术发展和思考。今天想和大家汇报，今天我们提出面向大计算这样一个机遇和挑战，浪潮我们自己的思考和策略。我是97年加入到HPC的行业，现在已经是18年。应该说18年当中我们经历了太多，最开始的时候我们用基于Linux的小型机为我们用户提供HPC的设备，后来从32位处理器到64位的处理器，我们的互联网络从百兆以太网到千兆以太网，我们的文件系统从NFS到今天可以运行高度扩展的Lustre，产业在技术上面发生了天翻地覆的变化，从整个行业可以看到一个重大的转化。我们在十几年前，国内大多数的高于五百万以上的HPC的项目都是国际品牌，今天我们看到国内的HPC厂商已经在中国的市场上面拥有了最高最多份额，并且已经开始走出国门，为海外的HPC客户提供更好的产品和服务。

那么回顾过去这18年，我在过去一年的感受非常的深刻应该说一年完全不同于过去17年带来的冲击，很多时候我晚上很难入睡，因为我想着我们面临快速变化的一年，我们看到这个行业发生巨大变化给我们带来巨大机遇也带来巨大挑战。我想如果我们不能满足这个机遇，我们可能很快被淘汰。过去十几年我们更多从事着应用的领域，我们熟悉我们的石油客户、气象客户、大学科研做材料做科学做气候，和我们的航空航天、汽车制造来讨论如何用HPC帮助我们的工业和航天汽车这样一个设计。那么过去一年，应该说越来越多听到的词语就是深度学习、人工智能，有越来越多客户提出的需求，我有大数据的需求，能不能和HPC进行统一的整合给我提供管理，我在深度学习上遇到性能的问题，用HPC的技术能不能更好的解决和实现。客户说我希望用本地资源，同时在本地的HPC资源不够的时候，希望云端HPC给我们提供服务，他们有很多问题问我们。

这个时候我们思考怎么满足这些客户的需要，来满足这样一个时代变迁的产品和技术。实际上不同的计算方式给我们提出了挑战，我们很多客户也在尝试用Hadoop的系统解决传统的IO问题。我们看美国的HPC客户，已经有30%开始使用云计算，今天我们思考这些计算方式在快速进行耦合和交流。那么给我们提出了挑战，从具体基础架构的发展上，我们看到了这样一个融合进化的趋势，在企业端和后端的计算架构上，我们把它归纳成三个发展阶段。

我们现在注意到越来越多的采购模式发生了变化，中国顶尖互联网企业的采购模式不像原来招标，我需要几个服务器，一个盘阵，一个网络这样的单独采购方式，现在他往往下的订单就是我需要几个机柜，而几个机柜的配置是约定好的。采购单元已经从原来的单机变成了机柜单元，下一步可以想像他的采购模式是要布满传感器，这代表了在企业集团架构上面一个融合进化的趋势。最早的时候我们说在服务器上面，它是节点的耦合，具备自己独立的处理和存储。那么到了Rack的时候，我们看到机柜计算单元实现一个池化，我们看它的整个机柜里面实现一个互联，通过无交换机的方式实现整个网络的拓扑和设计，来实现整个数据中CPU的共享，存储式的共享，IO的共享，实现全局的供应链，三个共享以及全局的管理。

接着我们看到这样一个发展趋势。我们回想一下，HPC在若干年前已经成为了一个概念，我们现在越来越多的，我们在很多年前已经在给我们的HPC用户在构建交钥匙的工程，从整个机房设计到散热到机柜部署到计算资源的调度和分配，整个文件存储的共享和提升。这给我们一个非常大的启发，整个计算在快速的融合。我们看到高性能计算最早期已经具备了相关特性，所以说在目前的这样一个大计算的趋势和挑战下，我们希望可以做到HPC到深度学习，HPC到大数据等等。

在新计算时代我们看到不同的计算方式在耦合，那么计算架构在融合和进化。在这样一个新的计算时代我们会面临什么挑战？归纳来说有三个方面的挑战。

首先，我们希望用一个大计算解决所有的企业计算架构问题，但是我们知道不同的应用具备不同的计算特征，所以我们需要适合的计算资源提供这样的计算服务。

第二是我们统一的硬件架构需要面对多样的计算挑战，例如大数据，传统的科学工程计算和深度学习，它对后台的计算架构需求不一样的，我们在硬件架构上面应对这个挑战。

第三个就是混合的计算产品上，我们如何提供应用的灵活性？

浪潮今年4月份提出了计算+的这样一个策略，它的核心理念是什么？我们看到原来服务器是服务器，存储是存储，网络是网络，现在正在演化，那么现在会迅速实现，他们会合为一体，通过软件定义的方式实现我们后台整个计算架构。我们知道在计算这块无论是技术还是它的应用发展都是跑的最快。它离客户最近，所以这是他能够融合网络和存储一个最基础的原因，但是在以前大家也知道，今天浪潮宣布与思科成立了合资公司。那么这样的趋势我们看到过去几年已经是屡见不鲜，越来越多网络公司把自己卖给服务器公司，越来越多存储公司想把自己卖给计算公司。

这个带来一个明显信号，未来世界网络可以通过软件来定义，存储也可以通过软件定义，只要基于计算架构，我们可以通过软件来定义所有的计算架构。在这样一个策略下，浪潮高性能计算对于策略是怎样的思考？我们希望提供三方面的回答给用户。我们希望提供一个适应性的计算环境，我们希望在硬件架构上面是一个融合的基础架构，在软件设计层面我们希望能够实现软件定义HPC。

第一是适应的计算环境。我们刚才说了实际上在不同的计算中不同应用对于计算特征的需求完全不同，不可能一个环境可以做一切的事情。这样的情况下我们需要提供一个更多可能性和选择性的计算环境。我们知道浪潮现在是国内唯一能够开发32路高端计算设备的厂商，那么明年我们将发布自主开发的64路numa大机器，它单机支持一千核以上共享数据内存，那么可能会说这样的机器有什么用？

我们知道这个机器它的市场，虽然是小众，但它属于一个不可替代的细分市场。比如说这种非常大规模网格的工程仿真，这个用的非常多。我们要创建一个非常大规模的网络数据模型，它需要在超大负载类型的机器上才能运行，我们要做机器化的数值天气预报，数值天气预报它更加倾向于多CPU共享内存的大节点模式。它需要在一个优化共享的大机器上实现，我们知道在现在大数据的发展中，大型结构化的数据库以及大型的在线处理，他们需要这样一个模型来完成对于大计算的需求。

通常我们叫胖节点这个领域，它能支持12个TB，我们知道实现这样的应用需要这样的机器，现在在服务器里面基因科学，在基因测序完成以后，基因序列把它拼接起来，这个拼接需要简单可靠的机器才能满足。在物理化上面，光谱的分析，关键点的计算都是需要这样的机器来完成的。我们做云计算的虚拟化和数据服务器，也离不开这样一个胖节点。那么应用最多的产品就是集群，我们知道石油勘探、数值天气预报、预测、航空飞行器的模拟、计算物理和材料等等都是需要集群去构建。我们为了达到更好的性能功耗，我们现在有若干种的加速器技术出现，现在正在兴起的FPGA这些加速卡的技术对于我们来说是适合做大规模的分子动力学方阵的。大规模电池模拟、网络安全、深度学习这些都适合加速器的计算环境。我们给客户提供一个完善的计算环境，一定是适应性的计算环境，我们要拥有能够解决问题应用瓶颈的计算环境。

第二就是融合基础架构。现在已经很明显的趋势叫计算+，我们看到计算、存储、网络正在融合，面向计算的机柜式基础架构，它是在一个机柜里面用相同的物理规格实现不同的计算功能，有两路、四路、交换节点和存储节点，它可以通过软件定义的方式实现资源池化和共享。在整个基础设施方面，比如供电、散热，它是全机柜的统一供电和全机柜的风扇共享，以及实现一个全局管理的融合，对于整机柜所有的计算资源实现统一管理。

第三是软件定义的HPC。软件定义这个词非常热，具体到HPC上我们认为在前面的适应性计算环境和融合架构的基础上，最核心部分就是软件定义HPC，提供软件的环境。

1、软件定义的数据服务。我们有深刻体会，比如说我们做大数据的时候，用Hadoop这样一个软件系统，但是我们看到这个软件它的性能并不是很理想，可以达到我们处理大规模的数据分析所要求的IO性能。我们现在有统计说在大数据的应用里面，大概70%的时间消耗到IO上面，这对于我们来说是应该解决的问题。现在通过软件定义存储的方式，我们可以实现对于高性能计算、大数据和云计算这样不同的接口，可以实现支持不同的数据格式，为不同的应用提供统一的存储空间。这样实现软件的解耦和自动化的部署。不管前面计算集群上面运行HPC、还是大数据、还是深度学习，我们在后端存储的数据服务上是统一的存储设备，只是通过不同的软件定义的方式去提供。

2、软件定义的网络服务。这个在之前HPC里面，我们知道用业界最好的高速网络解决在计算上面API通信的问题，这也是一个非常好的契机，因为我们看到在云、大数据、互联网这个领域大家原来使用习惯是软件定义，所以这带来IO不是那么如人意。那么把HPC能够适用更高的产品上，我们希望软件定义的网络服务给不同的计算提供高速网络服务，我们希望能够通过软件定义网络服务的方式，能够实现更加接近于应用的，适合它的网络拓扑。我们可以实现3D的架构，我们现在传统习惯用2D的架构，它的节点扩展性受到比较大的制约。在3D上面我们实现极大规模的网络扩展，并且能够实现基于不同的应用环境，我们可以通过软件定义它的不同拓扑，使得通过资源感知的方式，将通讯密集的应用放在网络平台上，这样计算应用的时候保证网络通信延迟更低，带宽更高。

3、软件定义的资源服务。我称之为计算机OS，它可以在不用应用间实现资源统一分配和调配，能够在物理机和虚拟机之间实现资源分配和迁移，并且实现计算在本地和云端灵活的迁移和调度。

通过软件定义的数据服务，软件定义的网络服务和软件定义的资源服务，这三个方面加上适应性的计算环境、融合的基础架构之上实现软件定义的HPC。这就是我们目前的思考。最后一句话，我想说面向大计算，我们觉得有挑战更有机遇，让我们一起前行，谢谢大家。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2015-09-24，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

深度学习

登录后参与评论

0 条评论

热度

【Big Computing】HPC大计算，挑战深度学习的计算力黑洞

【Big Computing】HPC大计算，挑战深度学习的计算力黑洞

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐