专栏首页GPUS开发者基于Hadoop集群的大规模分布式深度学习

基于Hadoop集群的大规模分布式深度学习

前言

在过去的十年里,Yahoo一直持续投资建设和扩展Apache Hadoop集群,到目前为止共有超过4万台服务器和600PB数据分布在19个集群上。正如在2015 Hadoop 峰会上介绍的,我们在自己的服务器上开发了可扩展的机器学习算法,用于分类、排序和计算词向量。目前,Hadoop集群已成为Yahoo大规模机器学习的首选平台。

深度学习(Deep Learning, DL)是雅虎很多产品的核心技术需求。在2015 RE.WORK深度学习峰会上,Yahoo Flickr团队(Simon Osindero和Pierre Garrigues)阐述了深度学习如何被应用于场景检测、物体识别和计算美学。机器学习帮助Flickr自动完成给用户图片打标签,使得Flickr终端用户能够方便的管理和查找图片。

为使深度学习技术惠及更多的Yahoo产品,最近我们把此项技术迁移到自己的Hadoop集群上。基于Hadoop的深度学习主要有这些优点:

深度学习过程可以直接在我们存储数据的Hadoop集群上完成。避免了数据在Hadoop集群和深度学习集群之间的不必要传输。

深度学习可以被定义为一流的Apache Oozie工作流,使用Hadoop进行数据处理和Spark管道进行机器学习。

YARN支持深度学习。一个集群上可以同时进行多项深度学习实验。与传统方法相比,新方法事半功倍。在过去,我们有些项目组靠“记事本”手工调度GPU资源,这是很痛苦的,而且只对少数用户有效。

基于Hadoop的深度学习是深度学习的一个创新方法。业界现有的方法要求使用专用的集群,而基于Hadoop的深度学习不仅能达到专用集群的效果,还额外多出上述几项优点。

增强Hadoop集群

为了支持深度学习,我们在Hadoop集群上添加GPU节点。每个节点有4块Nvidia Tesla K80运算卡,每块卡配置2个GK210 GPU。这些节点的处理能力是我们Hadoop集群所使用的传统CPU的10倍。

在Hadoop集群上,GPU节点有两个独立网络接口,Ethernet和Infiniband。Ethernet作为对外通信的主要接口,Infiniband在GPU之间提供10倍以上速率的数据传输,并且支持通过RDMA直接访问GPU内存。

通过利用YARN最近推出的节点标签功能(YARN-796),我们可以在jobs中声明容器是在CPU还是GPU节点加载。GPU节点的容器能使用Infiniband以极高的速度交换数据。

分布式深度学习:Caffe-on-Spark

为了在这些强化的Hadoop集群上支持深度学习,我们基于开源软件库开发了一套完整的分布式计算工具,它们是Apache SparkCaffe。我们可以利用下面的命令行向集群GPU节点提交深度学习计算任务。

http://www.gpuworld.cn/article/show/474.html

本文分享自微信公众号 - 吉浦迅科技(gpusolution)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 深度学习的三种硬件方案ASICs、FPGAs 和GPU,开发者需要知道什么?

    今年三月AlphaGo和李世石的“世纪之战”炒红了深度学习—— AlphaGo采用了人工神经网络技术,充分挖掘了深度学习的潜力。简单来说,深度学习是一个包含了许...

    GPUS Lady
  • 推荐5种让数据库快的飞起的GPU加速产品

    GPU承诺会彻底改变大数据分析领域,从当前来看,这并不是虚言,当我们数据量达到一定级别的时候,我们一定会转向使用GPU。大多数的数学密集型应用都包含机器学习框架...

    GPUS Lady
  • NVIDIA Titan RTX帮助研究人员更快速检测骨质疏松症(附代码)

    达特茅斯学院的一个研究小组在将他们的Titan Xp GPU换成Titan RTX之后,报告了有希望的结果。在新的GPU上运行他们现有的代码,当训练一对神经网络...

    GPUS Lady
  • 业界 | IBM发布新型分布式深度学习系统:结合软硬件实现当前最优性能

    选自IBM 机器之心编译 近日,IBM 发布了一种结合软件和硬件的新型分布式系统 PowerAI DDL,该系统不仅在 Imagenet 22K 任务上实现了当...

    机器之心
  • 人工智能深度学习怎么绕坑

    深度学习作为人工智能领域非常重要的一类技术实现方式,已经是目前大多数以AI为核心研究能力的企业的必修课程了。

    刀刀老高
  • GPU编程(二): GPU架构了解一下!

    http://html.rhhz.net/tis/html/20150101.htm# http://hustcat.github.io/gpu-archit...

    SeanDepp
  • 【深度分析】深度学习选GPU,RTX 20系列值不值得?

    深度学习常被戏谑为“炼丹术”,那么,GPU于深度学习研究人员而言就是不可或缺的“炼丹炉”。

    新智元
  • 两届黑客马拉松冠军:K8S深度学习平台实践经验分享

    ? 内容来源:2017年11月19日,饿了么资深后端工程师江骏在“11.19上海 | K8S Sail!系列技术沙龙”进行《饿了么Docker&K8S实践经验...

    IT大咖说
  • UEDBET曝!Mate30 Pro摄像头重磅升级,5G技术超群

    随着华为手机销量不断的上升,华为已经坐稳了全球第二的位置,成为了国产的骄傲。虽然成绩骄人,但华为并没有放慢前进的势头。这次UEDBET官方宣布9.19在柏林召开...

    微资讯
  • 出货量8亿颗!阿里系芯片公司中天微发布中国自研CPU架构RISC-V处理器

    据中天微官网9月3日消息,杭州中天微系统有限公司宣布,正式推出支持RISC-V第三代指令系统架构处理器CK902,可灵活配置TEE引擎,支持物联网安全功能。中天...

    新智元

扫码关注云+社区

领取腾讯云代金券