前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ParallelX在GPU上运行Hadoop任务

ParallelX在GPU上运行Hadoop任务

作者头像
GPUS Lady
发布2018-03-30 11:57:19
1.1K0
发布2018-03-30 11:57:19
举报
文章被收录于专栏:GPUS开发者GPUS开发者

在面对大规模计算密集型算法时,MapReduce范式的表现并不总是很理想。为了解决其瓶颈,一支小型创业团队构建了名为ParallelX的产品——它将通过利用GPU的运算能力,为Hadoop任务带来显著的提升。

ParallelX的联合创始人Tony Diepenbrock表示,这是一个“GPU编译器,它能够把用户使用Java编写的代码转化为OpenCL,并在亚马逊AWS GPU云上运行”。它的最终产品是一项与亚马逊Elastic MapReduce类似的服务,只不过不同之处在于它将利用EC2 GPU实例类型。

毫无疑问,亚马逊并不是唯一一家提供GPU服务器的云服务提供商,其他诸如IBM/Softlayer或Nimbix等公司也提供使用NVidia GPU的服务器。然而,当被问起ParallelX是否将会支持亚马逊之外的其他不同云服务提供商时,Tony的答复是“暂时还没有,不过我们将拥有一套SDK,供使用内部Hadoop集群的客户使用。大部分GPU云服务提供商在HPC云中提供GPU,但我们希望能够以比较低廉的价格使用云服务中的GPU。毕竟,这正是Hadoop的设计初衷——便宜的商用硬件。”

在更好地理解ParallelX编译器能够做哪些事情之前,我们需要了解现在有不同类型的GPU,它们配备了不同的并行计算平台,例如CUDA或OpenCL。Tony提到,ParallelX所适用的工作场景是“编译器将把JVM字节码转换为OpenCL 1.2的代码,从而能够通过OpenCL编译器编译为Shader汇编,以便在GPU上运行。现在同样也有一些FPGA硬件能够运行OpenCL代码,但是要想获得对于广义并行硬件的支持,可能还需要等到未来的某一天。”尽管ParallelX并不支持Java源代码中的反射或原生调用,它的目标依旧是确保开发者只须要对其MapReduce任务的代码进行必要的调整——越少越好。

随着ParallelX团队开始研究I/O-Bound任务的吞吐量增长,Tony发现他们的产品“也能够支持实时处理、以Pig和Hive代码表示的查询,以及针对I/O Bound任务的大数据集流。在我们测试中,使用我们的流水线框架,I/O吞吐几乎能够达到GPU计算吞吐能力的水平。”

虽然ParallelX团队目前正在专注于针对亚马逊的Hadoop版本分支的努力,但他们也在规划为其他流行的Hadoop版本分支(例如Cloudera's CDH)进行开发, 而且毫无疑问,在ParallelX的环境中,利用这些商业分支对Hive和Pig进行的诸多改进,将是一件非常有益的事情。

ParallelX拥有独一无二的演进故事,Tony在一篇文章介绍了这个已经持续了2.5年的史诗般项目的历程:首先起于为某社团开发的一个社交网络,随后是用于Facebook的Widget插件,接下来则是一个识别剽窃代码的工具。这些项目拥有一些共性:图解分析与基于GPU的算法——几乎,ParallelX的理念便由此自然而然地浮现出来了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-01-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
专用宿主机
专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档