专栏首页GPUS开发者ParallelX在GPU上运行Hadoop任务

ParallelX在GPU上运行Hadoop任务

在面对大规模计算密集型算法时,MapReduce范式的表现并不总是很理想。为了解决其瓶颈,一支小型创业团队构建了名为ParallelX的产品——它将通过利用GPU的运算能力,为Hadoop任务带来显著的提升。

ParallelX的联合创始人Tony Diepenbrock表示,这是一个“GPU编译器,它能够把用户使用Java编写的代码转化为OpenCL,并在亚马逊AWS GPU云上运行”。它的最终产品是一项与亚马逊Elastic MapReduce类似的服务,只不过不同之处在于它将利用EC2 GPU实例类型。

毫无疑问,亚马逊并不是唯一一家提供GPU服务器的云服务提供商,其他诸如IBM/Softlayer或Nimbix等公司也提供使用NVidia GPU的服务器。然而,当被问起ParallelX是否将会支持亚马逊之外的其他不同云服务提供商时,Tony的答复是“暂时还没有,不过我们将拥有一套SDK,供使用内部Hadoop集群的客户使用。大部分GPU云服务提供商在HPC云中提供GPU,但我们希望能够以比较低廉的价格使用云服务中的GPU。毕竟,这正是Hadoop的设计初衷——便宜的商用硬件。”

在更好地理解ParallelX编译器能够做哪些事情之前,我们需要了解现在有不同类型的GPU,它们配备了不同的并行计算平台,例如CUDA或OpenCL。Tony提到,ParallelX所适用的工作场景是“编译器将把JVM字节码转换为OpenCL 1.2的代码,从而能够通过OpenCL编译器编译为Shader汇编,以便在GPU上运行。现在同样也有一些FPGA硬件能够运行OpenCL代码,但是要想获得对于广义并行硬件的支持,可能还需要等到未来的某一天。”尽管ParallelX并不支持Java源代码中的反射或原生调用,它的目标依旧是确保开发者只须要对其MapReduce任务的代码进行必要的调整——越少越好。

随着ParallelX团队开始研究I/O-Bound任务的吞吐量增长,Tony发现他们的产品“也能够支持实时处理、以Pig和Hive代码表示的查询,以及针对I/O Bound任务的大数据集流。在我们测试中,使用我们的流水线框架,I/O吞吐几乎能够达到GPU计算吞吐能力的水平。”

虽然ParallelX团队目前正在专注于针对亚马逊的Hadoop版本分支的努力,但他们也在规划为其他流行的Hadoop版本分支(例如Cloudera's CDH)进行开发, 而且毫无疑问,在ParallelX的环境中,利用这些商业分支对Hive和Pig进行的诸多改进,将是一件非常有益的事情。

ParallelX拥有独一无二的演进故事,Tony在一篇文章介绍了这个已经持续了2.5年的史诗般项目的历程:首先起于为某社团开发的一个社交网络,随后是用于Facebook的Widget插件,接下来则是一个识别剽窃代码的工具。这些项目拥有一些共性:图解分析与基于GPU的算法——几乎,ParallelX的理念便由此自然而然地浮现出来了。

本文分享自微信公众号 - 吉浦迅科技(gpusolution)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-01-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • NVIDIA GPU 助信息安全厂商免除惡意程式攻擊

    電腦和行動裝置上的惡意軟體程式日漸增加,對於信息安全業界造成嚴重問題,由於資料量過於龐大,現時有部份公司陸續開始利用 NVIDIA GPU 解決惡意軟體的問題,...

    GPUS Lady
  • GOAI发布用于 GPU分析的Python 数据框架

    一支由数据分析供应商组成的团体今天在GPU技术大会上共同提出了GPU开源分析倡议(GOAI),旨在培育以GPU来进行数据科学和深度学习方面工作的社群。该团体...

    GPUS Lady
  • 基于Hadoop集群的大规模分布式深度学习

    前言 在过去的十年里,Yahoo一直持续投资建设和扩展Apache Hadoop集群,到目前为止共有超过4万台服务器和600PB数据分布在19个集群上。正如在2...

    GPUS Lady
  • LeetCode 1444. 切披萨的方案数(DP)

    给你一个 rows x cols 大小的矩形披萨和一个整数 k ,矩形包含两种字符: ‘A’ (表示苹果)和 ‘.’ (表示空白格子)。 你需要切披萨 k-1...

    Michael阿明
  • 云计算到底是怎么玩的?

    作为IT行业的热门技术,它频繁出现在各大媒体的新闻报道中。BAT这样的互联网企业,也经常把它挂在嘴边。

    鲜枣课堂
  • 看懂云计算、虚拟化和容器,这一篇就够啦!

    作为信息科技发展的主流趋势,它频繁地出现在我们的眼前。伴随它一起出现的,还有这些概念名词——OpenStack、Hypervisor、KVM、Docker、K8...

    鲜枣课堂
  • 基于selenium写微博爬虫(待续)

    萌海无涯
  • 云计算到底是怎么玩的?

    作为IT行业的热门技术,它频繁出现在各大媒体的新闻报道中。BAT这样的互联网企业,也经常把它挂在嘴边。

    用户6543014
  • Python提升“技术逼格”的6个方法

    Python中的聚合类函数sum,min,max第一个参数是iterable类型,一般使用方法如下:

    double
  • 手残手抖不再害怕,你也可以画出逼真的肖像画

    真相可能让你大跌眼镜,第二行的帅哥美女都是AI根据第一行的灵魂画作想象出来的。神奇的是AI能准确地识别出潦草的笔触画出的发型、眉毛、眼神、脸部轮廓,甚至是嘴巴的...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券