谢澎涛:如何评价Eric Xing实验室做的Petuum分布式机器学习平台?

Petuum是一个专门针对机器学习的分布式平台,Spark以数据流应用为主,所以二者的应用对象不同。Spark有一个机器学习库MLLib, 但构建于数据流操作之上,并非针对机器学习算法的特点而设计。

机器学习算法和计算机领域的其他算法相比,有自己的一些独特特点。例如,(1)迭代性:模型的更新并非一次完成,需要循环迭代多次; (2)容错性:即使在每个循环中产生一些错误,模型最终的收敛不受影响;(3)参数收敛的非均匀性:模型中有些参数经过几个循环便不再改变,其他参数需要很长时间收敛。等等。这些特点决定了机器学习系统的设计和其他计算系统的设计有很大不同。

Petuum的系统设计建立于机器学习的特征之上,目前包含两个主要模块:key-value store和scheduler,主要处理两类并行化方法:(1)数据并行;(2)模型并行。数据并行,简单而言,就是把数据分布到不同机器上,每台机器计算一个模型的更新(update ), 然后对这些update进行汇总并用之更新模型。模型并行,把模型参数进行切分并放置到不同机器上,每台机器对自己那部分进行更新。Key-value store模块负责数据并行,采用的架构是parameter server,一致性协议是Staleness Synchronous Parallel (SSP)。SSP的基本思想是允许各机器以不同步调对模型进行更新,但是加一个限制,使得最快的机器的进度和最慢机器的进度之差不要太大。这样做的好处是:既减轻慢的机器拖整个系统的后腿,又能保证模型的最终收敛。通过调节SSP的staleness参数,SSP可以转化成数据流系统常用的BSP(Bulk Synchronous Parallel) 协议或者早期机器学习系统(如Yahoo LDA)使用的ASP(Asynchronous Parallel)。另外一个模块scheduler用于模型并行。scheduler提供的编程接口主要包含三个操作:(1)schedule: 调度节点根据模型参数的相互依赖性和收敛的不均匀性,自动选择一个待更新的参数子集;(2)push: 调度节点令计算节点并行地为选好的参数计算update;(3)pull:调度节点从计算节点收集update,并更新参数。

Petuum的主要特性包括:

(1)高性能。这里有几个例子 http://petuum.github.io/performance.html 更多的结果可参见论文h:ttp://petuum.github.io/research.html

(2)可编程性。提供了简单易用的编程接口,用户可在Petuum上实现自己的机器学习算法。参见:https://github.com/petuum/public/blob/release_1.0/docs/ps_refman.pdf?raw=true

(3)丰富的机器学习库。我们用Petuum的统一编程接口实现了14个重要的机器学习算法。参见:http://petuum.github.io/


【预告】 首届中国人工智能大会(CCAI 2015)将于7月26-27日在北京友谊宾馆召开。机器学习与模式识别、大数据的机遇与挑战、人工智能与认知科学、智能机器人四个主题专家云集。人工智能产品库将同步上线,预约咨询:QQ:1192936057。欢迎关注。

大会官网链接:http://ccai2015.csdn.net

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-07-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏MixLab科技+设计实验室

TensorFlow.js、迁移学习与AI产品创新之道

TensorFlow 的 JS 版本终于出啦,deeplearn.js 正式收编至 TensorFlow 项目,并改名为 TensorFlow.js : 采用 ...

4634
来自专栏机器之心

教程 | 用深度学习DIY自动化监控系统

监控是安保和巡查一个不可或缺的组成部分。在大多数情况下,这项工作需要长时间去查找一些你不期望发生的事。我们做的这件事很重要,但也是一项非常乏味的任务。

1781
来自专栏新智元

解决关系推理,从图网络入手!DeepMind图网络库开源了!

DeepMind提出的简单而强大的关系推理网络“graph network”终于开源了!

5062
来自专栏AI科技大本营的专栏

机器学习不神秘!手把手教你用R语言打造文本分类器

简单安装几个R软件包,你就直接在自己电脑上打造出一个文本分类器,用进行机器来评估人类写作。 本文是一篇极简的上手教程,它想用清晰明了的步骤告诉读者,机器学习不...

37016
来自专栏PPV课数据科学社区

数据挖掘比赛通用框架

作者|穆文 报名啦CDA数据分析师认证培训Level 1 国内权威的数据分析师系统 培养学员超过上千人理论结合实际 更有多重福利提供 点击文末“阅读原文”...

4966
来自专栏算法channel

TensorFlow 入门进阶

TensorFlow is a software library for designing and deploying numerical computati...

1264
来自专栏PaddlePaddle

PaddlePaddle 版本1.1.0发布啦!

PaddlePaddle在基础框架、模型建设、分布式训练、预测引擎各个方向上完成多项更新。OP进行了全面完善和优化,模型库新增了自然语言处理、视觉和推荐等领域的...

1864
来自专栏悦思悦读

自己动手制作“平均脸”【2】

在本系列的上一篇中,我们讲解了用Image morphing方法合成人脸图片的基本原理。 所有代码都在:https://github.com/juliali/A...

4279
来自专栏IT派

干货 | 机器学习在web攻击检测中的应用实践

岳良, 携程信息安全部高级安全工程师。2015年加入携程,主要负责渗透测试,安全评审,安全产品设计。 一、背景 在web应用攻击检测的发展历史中,到目前为止...

53611
来自专栏数据小魔方

excel数据分析工具库系列三|趋势平滑

今天要跟大家分享的内容是数据分析工具库系列三——趋势平滑! 在时间序列数据中,往往存在很多周期性趋势以及随机干扰因素,给我们的分析工作工作带来很多不便。 当然有...

3156

扫码关注云+社区

领取腾讯云代金券