Fregata: Spark上支持万亿维机器学习模型

大规模机器学习工程上最大的挑战是模型的规模。在计算广告,推荐系统的场景下,运用Logistic Regression算法时常需要做特征交叉。原来两组,三组特征的数量可能并不是太大,但是通过交叉后可能会特征数会爆炸。例如,用户特征数1万,广告特征数1万,那么交叉后总特征数就是1亿,如果再与几十个广告位特征交叉,总特征数就会达到几十亿。有些情况下,特征交叉后,总数甚至能达到上千亿。特征数量的爆炸,也带来模型规模的爆炸,这给机器学习带来的挑战比庞大的训练数据量更大。

通常认为,当模型的规模超过单节点的容量后,基于MapReduce计算模型的Spark, Hadoop MapReduce就无法支持了。为了解决这一问题,Parameter Server应运而生,目前是大规模机器学习研究方面的前沿。目前Parameter Server还在发展的过程中,其使用,开发门槛相较于Spark来说都是较高的,而且在大数据平台中再引入一套新的计算平台,对整个体系的管理,运维都将带来更大点挑战。

Fregata致力于在Spark上解决大规模机器学习的问题,Fregata目前已经公开发布的版本已经能支持亿级维度的模型,而目前内部最新版本已经在一个月内连续突破了10亿,100亿,1000亿和10000亿4个台阶。在模型规模提高了4个数量级的同时保持了训练的高效性。下面是 Fregata的Logistic Regression算法在511412394个样本的训练集下的训练时间:

从上表可以看出,对于5亿多样本的训练集,在仅使用48个Executor的情况下,千亿维度以内的问题,都可在500秒内完成,而且每个Executor仅需最多2G内存。对于万亿维度的问题,训练时间也仅需800秒多一点,只是Executor的内存加到了8G。Fregata最近的突破,打破了在Spark上无法支持超大规模模型的瓶颈,将进一步降低大规模机器学习的使用门槛和成本。

Fregata 项目地址:https://github.com/TalkingData/Fregata

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2017-01-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

技术 | 强化学习入门以及代码实现

介绍 目前,对于全球的科学家而言,“如何去学习一种新技能”已经成为最基本的研究课题之一。解决这个问题的意愿显而易见——如果能够解决这个问题,那么人类就有望做到某...

34770
来自专栏HaHack

Foreground-Constrained Eulerian Video Magnification

16840
来自专栏人工智能头条

AMiner背后的技术细节与挑战

15660
来自专栏数据派THU

当你的深度学习模型走进死胡同,问问自己这5个问题

来源:量子位 编译:安妮 本文长度为2509字,建议阅读4分钟 本文为你介绍深度学习中应该思考的5个问题。 深度学习是一项庞大又复杂的工程,在建立深度学习模型时...

20090
来自专栏人工智能头条

深度学习成长的烦恼

11610
来自专栏ATYUN订阅号

谷歌MnasNet:实现移动端机器学习模型的自动化

在智能手机领域,检测对象,分类图像和识别面部的应用程序并不是什么新鲜事;它们已经被Google Lens和Snapchat等应用推广,但普遍性无法替代质量,而大...

9730
来自专栏CSDN技术头条

WSDM 2017精选论文解读

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读...

30160
来自专栏数据科学与人工智能

【算法】推荐算法--协同过滤

协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内...

17810
来自专栏AI科技评论

独家 | 腾讯优图高级研究员沈小勇:ICCV 2017 一键卸妆 &视频超分辨率论文详解

AI 科技评论按:ICCV(The International Conferenceon Computer Vision)是计算机视觉领域的三大顶级会议之一,腾...

46050
来自专栏AI研习社

如何用深度学习推荐电影?教你做自己的推荐系统!

简介 几乎所有人都喜欢与家人、朋友一起观看电影度过闲暇时光。大家可能都有过这样的体验:本想在接下来的两个小时里看一个电影,却坐在沙发上坐了20分钟不知道看什...

43460

扫码关注云+社区

领取腾讯云代金券