HPC高性能计算知识:HPDA新兴技术分析

高性能数据分析(HPDA)是一个新兴技术,也是HPC的一个主要细分市场,在该领域目前活跃的主要玩家集中在云服务、大数据、存储、服务器和网络领域(像IBM、Fujistu、SGI、甲骨文、惠普企业、谷歌等)。

根据WGR报告显示,推动HPDA市场增长主要动力来自HPC数据密集型应用。在不久的将来,数据密集型业务的加速除了应用于传统的HPC模拟和空间算法外,还将用于电子商务、金融和经济领域。

目前,主要从技术和市场应用2个纬度对HPDA进行分类。

技术细分市场主要分为Graph Analytics、Streaming Analytics、Compute Intensive Analytics和Novel Architectures等。

市场应用细分为Financial Services、Manufacture、Scientific、Energy、Healthcare和Telecommunication等。

根据IDC预测,HPDA带动服务器收入的强劲增长(13.3%复合年增长率),从2012年的7.438亿美元增加到2017年的14亿美元。HPDA存储收入将在今后一年达到8亿美元。然而,HPDA存储增长的技术挑战是数据移动和管理。那么,今天以富士通的HPDA解决方案为主线,详细分析下HPDA参考架构和技术方案。

本文对大数据分析和HPC两种技术融合所带来的好处、具体应用场景和性能基准进行了深入的分析,其中包括HPC/HPDA概念、所涉及的组件,并解释了通用的解决方案体系结构,充分体现了高性能数据分析的经济价值。

同时,阐述一种成本效益参考模型,使企业能够利用和利用现有的HPC基础设施有效地运行HPDA工作负载。

高性能数据分析(HPDA)的出现

随着数据爆炸式增长,企业内服务器和存储线性扩变得越来越困难。根据Hyperion预测,到2025年,全球数据空间将增长到163ZB,这是2011年HPC产生数据16.1ZB的10倍。

数据对计算能力的要求包括三个阶段(数据捕获和过滤、分析、结果可视化展示),为了释放大数据的全部潜力,数据规模必须将其与大计算(Big Compute)或HPC配配,让更多的行业可以从大数据和HPC的结合中受益。

任何工作负载需要加速计算和数据密集型工作负载时,都可以使用HPDA体系结构提高生产率,目前来看,HPDA帮助它们在竞争中保持领先的主要行业有:

1)电子商务和商业

2)天气和气候建模

3)传统HPC环境(科学建模、教育研究环节)

高性能数据分析工作负载

根据检索的速度、数据流、数据集、信息输入和输出类型,高性能分析有着不同的类型的工作负载。这些因素的结合决定了获得最佳分析结果所需的工作量和分析过程。

在数据密集和计算密集型应用中,工作负载是大规模、并行的,同时也高度依赖网络和存储。来不同设备的结构化和非结构化分析数据使得数据采集和过滤更加复杂,这些数据来源包括物联网设备、传感器等。

高性能数据分析的流程

在Hadoop等大数据应用上使用HPC资源创建了高性能的数据分析配置。在一个标准的大数据应用工作流中,需要对数据进行收集和分析以获得近实时的洞察。分析等处理信息所需的时间取决于收集数据的速率和处理的复杂性。类似地,在标准的HPC工作流中,数据的收集和合并,也需要基于复杂的数值模型通过并行处理以获得所需的输出。

当HPC和大数据技术合并时,HPDA平台将具有HPC资源在大数据应用程序上运行复杂工作负载、处理和存储大数据集的能力,整个处理流程如下图所示:

何时实现HPDA体系结构

当谈到市面上可用的数据分析解决方案时,Hadoop和Spark已经成为这些解决方案的代名词。下面,我们将试图解释什么时候可以继续使用标准的数据分析解决方案,什么时候需要使用HPDA体系结构或解决方案。

如前所述,大数据分析Hadoop平台是一个基于Java的开源编程框架,它是Apache软件基金会发起的一个项目。它支持在分布式计算环境中处理和存储大规模数据集。

Hadoop还利用了Map Reduce框架(由谷歌开发),该框架提供调度、分发和并行服务。Map Reduce框架从Hadoop分布式文件系统(HDFS)获取输入数据。然而与HPC并行文件系统(如Fujitsu Software FEFS)、其他并行文件系统或GPFS或FEFS相比,HDFS的速度要慢得多。相比HDFS,这些HPC文件系统更有效地支持小文件的随机读取。HDFS适用于大型数据集。

另一个解决方案是Spark,它是Apache项目的第二代大数据处理架构,是一个在分布式计算集群(如Hadoop)上执行通用数据分析的框架。它为Map Reduce数据处理提供内存计算能力,因此是一个性能更高的解决方案。但是,对于要求事实、高速分析的数据集和工作负载来说,该解决方案会占用大量内存资源。

即使在消息传递接口(MPI)中重写Hadoop的通信机制、在Hadoop中支持Lustre、或者在Hadoop中实现InfiniBand通信层,都不能获得预期的高性能计算效果。因此,结合高性能计算硬件、软件资源和Hadoop或Spark,将大数据应用程序带到高性能计算配置中,才能提供高性能、敏捷和可伸缩的解决方案。在这两个领域结合方面,高性能数据分析最有可能解决这些工作负载所需的计算速度和数据规模。

富士通在为Hadoop解决方案提供数据分析解决方案方面有着丰富的经验。因此,我们认识到Hadoop在提供成本有效的数据分析解决方案方面的价值。然而,本文关注的是具有现有HPC基础设施的用户,展示了他们如何利用该基础设施构建可伸缩的、敏捷的、高性能的HPDA环境。

HPDA参考模型

HPDA参考模型结合大数据和数据分析技术,体现了HPC基础设施的智能集成和性能优势。如果客户数据中心已经运行HPC基础设施或Fujitsu的集成系统Primeflex,则可以在现有基础设施资源的基础上构建HPDA参考模型,并根据需求进行扩展。

或者,也可以从零开始构建、部署HPDA基础设施Primeflex。在这两种解决方案部署中,传统的HPC集群都增加了大数据和数据分析处理所需的Hadoop工具,使传统的HPC工作负载能够与HPDA共存。此外,HPC并行文件系统配置了HDFS连接器,使得HPDA应用程序和HPC应用程序同时无缝地访问数据。

Fujitsu的这种方法可以构建敏捷的HPDA系统,结构化和非结构化数据处理都是在HPDA体系结构中完成处理。有效地结合了HPC和数据分析工作负载,从而优化降低客户投入成本。

计算节点是一组灵活的HPC集群节点,其上运行复杂和简单的计算任务。Fujitsu PrimeRay RX2530 1U双处理器服务器是一种最优的计算服务器,它具有很大的灵活性和扩展性,它可以扩展以满足最苛刻的内存需求。

SSD用于计算节点上的本地存储,推荐的SSD大小与内存比为3:1。基于BeeGFS的单个并行文件系统配置了HDFS连接器功能,为HPC和HPDA工作负载提供尽可能好的性能。

基于InfiniBand/Omni-Path的HPC架构的高速互连用于确保节点间通信最大化,对需要持久化存储的数据移动达到了最高的吞吐量。

HPDA通用系统架构

一个共享的HPC和HPDA结合环境,HPDA组件的主要属性是将头节点上的作业提交与批处理系统集成,使HPDA用户能够直接向HPC基础设施提交工作。本地PFS被配置为HDFS兼容文件系统,为HPDA进程提供高速数据访问能力。永久存储层还使用PFS构建,以便HPC和HPDA作业都能够保存长期数据。

下面给出了基于中到超大数据大小的推荐配置。这些系统配置可以作为参考指导,以最低价格和最高性能实现最优配置。

Fujistu HPDA参考模型的优势只要体现在以下几个方面:

其中最重要的优势是该HPDA解决方案是在现有HPC平台上进行部署。

通过相同的集群管理工具(SLURM)运行密集型计算和大数据数据分析业务。

提供高性能HPC平台加速Hadoop,通过高速互连和并行文件系统带来前所未有的性能提升效率。

为了证明这个解决方案的性能优势,Fujistu在相同的硬件上运行标准的TeraSort基准测试,测试涵盖标准的Spark、HDFS环境到BeeGFS。测试遵循该HPDA参考模型的指导原则。验证使用接连到Slurm批处理的数据分析调度连接器来管理数据分析过程,比如管理HPC应用程序、带有HDFS连接器的BeeGFS,BeeGFS是负责数据存储组件,用来取代了HDFS。

TeraSort基准的是尽可能快地对大量数据进行分类,该测试基准可以全面测试存储、HDFS和MapReduce层的综合能力。然而测试表明,Fujistu的HPDA参考架构比标准HDFS配置展现出更好的吞吐量,并极大地减少数据生成和分析时间。

这个基准测试运行在Fujistu的Primeflex硬件平台上,该平台由8个计算节点组成,每计算节点包括双路Broadwell处理器和128GB主存。使用的存储设备是标准的400GB Intel SSD,采用8节点服务器构建并行文件系统作为数据存储。

结论和总结

简单地说,针对这些复杂的、时效性高的大数据工作负载,很多传统HPC并行文件系统厂商都提供了HDFD、HDF5等大数据支持选项,Fujistu的HPDA参考架构也是采用类似方案,该方案对现网影响小且投入成本低,是眼下应对HPDA不错的选择。

该HPDA参考模型利用现有的HPC基础设施和资源,在不破坏原有工作负载的情况下,运行Hadoop或启动大数据应用程序以获得这两个方面的最佳效果。

很多政府、商业组织和研究公司认为通过使用HPC资源进行数据分析,每年可以节省数百万美元。Fujistu认为其HPC的集成系统Primeflex提供了一个理想的可伸缩解决方案,可以将HPC和数据分析工作负载结合到一个HPC基础设施上。

温馨提示:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180809A068JQ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券