Spark MLlib 算法系列之 LR

Spark MLlib 介绍

Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因:

(1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果使用 Hadoop 的 MapReduce 计算框架,每次计算都要读/写磁盘以及任务的启动等工作,这回导致非常大的 I/O 和 CPU 消耗。而 Spark 基于内存的计算模型天生就擅长迭代计算,多个步骤计算直接在内存中完成,只有在必要时才会操作磁盘和网络,所以说 Spark 正是机器学习的理想的平台。

(2)从通信的角度讲,如果使用 Hadoop 的 MapReduce 计算框架,JobTracker 和 TaskTracker 之间由于是通过 heartbeat 的方式来进行的通信和传递数据,会导致非常慢的执行速度,而 Spark 具有出色而高效的 Akka 和 Netty 通信系统,通信效率极高。

MLlib(Machine Learnig lib) 是 Spark 对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。Spark 的设计初衷就是为了支持一些迭代的 Job, 这正好符合很多机器学习算法的特点。MLlib 目前支持 4 种常见的机器学习问题: 分类、回归、聚类和协同过滤,MLlib 在 Spark 整个生态系统中的位置如图下图所示。

笔者希望将上述几类算法进行整理,完成 Spark MLlib 一个系列的算法介绍,供大家一起分享参考,作者才疏学浅,资料里难免出现错误,如有发现请不吝指正,谢谢!

参考文献:

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

AI安全初探:利用深度学习检测DNS隐蔽通道

DNS 隐蔽通道简介 DNS 通道是隐蔽通道的一种,通过将其他协议封装在DNS协议中进行数据传输。 由于大部分防火墙和入侵检测设备很少会过滤DNS流量,这就给D...

2185
来自专栏机器学习之旅

Kaggle&TianChi分类问题相关算法快速实现导读理论解析如何设计一个Stacking|Ensemble的模型?案例复现

17/12/30-update :很多朋友私密我想要代码,甚至利用金钱诱惑我,好吧,我沦陷了。因为原始代码涉及到公司的特征工程及一些利益trick,所以我构造了...

562
来自专栏CreateAMind

AGI:我与世界的互动是不是如我所愿。动作条件CycleGAN好奇心探索 代码开源

Curiosity-driven Exploration by Self-supervised Prediction

842
来自专栏人工智能头条

AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术(二)

1815
来自专栏CSDN技术头条

Hadoop 2.0 上深度学习的解决方案

波士顿的数据科学团队正在利用尖端工具和算法来优化商业活动,且这些商业活动是基于对用户数据中的深刻透析。数据科学大量使用机器算法,可以帮助我们在数据中识别和利用模...

2328
来自专栏新智元

DeepMind 提出分层强化学习新模型 FuN,超越 LSTM

【新智元导读】在用强化学习玩游戏的路上越走越远的 DeepMind,今天发表在 arxiv上的最新论文《分层强化学习的 FeUdal 网络》引起热议。简称 Fu...

38112
来自专栏PaddlePaddle

AI不思议|说说那些偶尔混淆的概念

但是产品和运营两队小伙伴一不小心就遇到概念混淆的场景,有些时候是自己记模糊了、有些时候自己没记错、却被别人“拐到沟里“了…

711
来自专栏机器之心

资源 | Bloomberg推出在线免费课程:《机器学习基础》

课程链接:https://bloomberg.github.io/foml/#home

802
来自专栏思影科技

利用健康大脑的经颅磁刺激识别能够预测中风后语言能力是否异常的大脑损伤区域

伦敦大学学院神经病学研究所(Instituteof Neurology, UCL)的DietgoL. Lorca-Puls等人在BRAIN期刊上发表的一项研究使...

3595
来自专栏新智元

4分钟视频讲解DeepMind论文:AI在复杂环境中学习运动

【新智元导读】DeepMind 的论文 Emergence of Locomotion Behaviours in Rich Environments 探索了丰...

2995

扫码关注云+社区