大数据实战高手进阶之路:Machine Learning on Spark彻底揭秘学习编程拼图理论的框架整理

学习编程拼图理论的框架整理

介绍

机器学习是大数据技术的制高点,是大数据技术人员核心竞争力之所在,是企业大数据使用的灵魂,是每个想在大数据领域的有卓越价值的技术人员都必须掌握的内容!

Spark 在机器学习方面有着无与伦比的优势,特别适合需要多次迭代计算的算法。

同时 Spark 的拥有非常出色的容错和调度机制,确保系统的高效稳定运行,Spark 目前的发展理念是通过一个计算框架集合 SQL、Machine Learning、Graph Computing、Streaming Computing 等多种功能于一个项目中,其中的机器学习部分也是 Spark 从 2015 年开始开发的重心,在已有的算法的基础上会有越来越多算法存在MLLib 中,同时 Spark 本身会对自定义机器学习算法实现也提供了越来越强的支持,是目前分布式机器 学习领域最具有潜力的平台。

本课程讲解了 Machine Learning on Spark 方方面面的内容,从算法解析与实现、到算法的使用、再 到算法的源码解析,以及算法的性能优化等问题,具体如下:

  1. 广义线性模型详解与实战
  2. 推荐算法及系统详解与实战
  3. 聚类算法详解与实战
  4. 流式机器学习详解与实战
  5. 机器学习流水线详解与实战
  6. 机器学习中的科学计算详解与实战
  7. 决策树与组合学习详解与实战
  8. 机器学习算法评测详解与实战
  9. 优化算法并行化详解与实战
  10. 大数据机器学习个人和企业致胜之道

掌握上述内容,可以助您和企业轻松驾驭 Spark 机器学习,笑傲大数据时代!

适用对象

1, Spark 编程工程师; 2, 大数据算法工程师;

框架内容

Spark 编程模型

 RDD  transformation  action  persist&checkpoint  lineage  宽依赖与窄依赖

深入 Spark 内核

 Spark 集群  任务调度  DAGScheduler  TaskScheduler  Master 内部揭秘  Task 内部揭秘

广义线性模型详解与实战

 逻辑回归  线性回归  SVM  LASSO  岭回归  广义线性模型代码及示例

推荐算法及系统详解与实战

 ALS 算法  奇异值分解  Mahout 与 MLlib 的对比分析  推荐系统的搭建示例

聚类算法详解与实战

 k-means  LDA  高斯混合模型  Power Iteration 聚类  聚类算法应用示例

流式机器学习详解与实战

 Lambda 架构  参数服务器  from Freeman labs 提供的流式算法  应用示例

机器学习流水线详解与实战

 Scikit-learn 的流水线(包括 Pandas 等对比)  Spark 的流水线(如 DataFrame 以及 ML 组件)  特征提取与变换  应用示例及对比

机器学习中的科学计算详解与实战

 矩阵计算中的注意事项  矩阵计算的组件(in C/Fortran and Java)  MLlib 中的矩阵计算  MLlib 中的统计方法

决策树与组合学习详解与实战

 MLlib 中的决策树  随机森林算法  Gradient-Boosted Trees  实践中的组合学习

机器学习算法评测详解与实战

 评测方法  Cross validation 与 Grid Search  MLlib 中的实现  在线、离线测评方法

优化算法并行化详解与实战

 常用的优化算法  优化算法的串行基因  计算模型:从 BSP 到 BSP+再到 SSP

大数据机器学习个人和企业致胜之道

 机器学习/数据分析的一般步骤  实践机器学习的再思考  Mahout、Oryx、VM 以及一些 python 的包,SparkR,PySpark等的对比  机器学习个人最佳学习路径  企业使用机器学习最佳实践

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏有趣的Python

TensorFlow应用实战-16-强化学习基础理论

2255
来自专栏思影科技

EEG和fNIRS同步研究揭示年龄和神经反馈对运动想象信号的影响

注释:这篇文章相当长,请耐心看完。 来自德国奥尔登堡大学心理学部的Catharina Zich等人在Neurobiology of Aging杂志上发表了一项基...

3846
来自专栏机器之心

前沿 | 新框架SyConn利用卷积神经网络和随机森林阅读神经成像:可识别线粒体和突触等

机器之心原创 作者:Yujia 参与:Joni、Rick R、吴攀 人脑是一个智能而复杂的机器。这种类比在某些方面是准确的,并且在大脑研究领域中提供了一种方法。...

3746
来自专栏大数据挖掘DT机器学习

基于微软案例数据库数据挖掘知识点总结(Microsoft Naive Bayes 算法)

本篇文章主要是继续上两篇Microsoft决策树分析算法和Microsoft聚类分析算法后,采用另外更为简单一种分析算法对目标顾客群体的挖掘,同样的利用微软案例...

36310
来自专栏BestSDK

新框架SyConn利用卷积神经,可模拟大脑思维模型

  然而,大脑中的大多数神经行为非常复杂,不同程度上涉及了人脑的多个区域。其功能性也并不局限于对特定大脑区域的划分。歧义无所不在。因此,当发生脑部疾病并出现功能...

3737
来自专栏PPV课数据科学社区

【数据分析】R语言中用自助法求统计量置信区间

当样本不符合理论分布假设时,求样本统计量的置信区间就成为一个难题。而自助法(Bootstrap)的思路是对原始样本重复抽样产生多个新样本,针对每个样本求取统计量...

4755
来自专栏互联网高可用架构

小目标运动物体检测算法-Pipeline

2423
来自专栏数据派THU

13张动图助你彻底看懂马尔科夫链、PCA和条件概率!

[ 导读 ]马尔科夫链、主成分分析以及条件概率等概念,是计算机学生必学的知识点,然而理论的抽象性往往让学生很难深入地去体会和理解。而本文,将这些抽象的理论概念,...

1101
来自专栏一名叫大蕉的程序员

机器学习虾扯淡之特征工程(一)No.38

0x00瞎扯淡 当当当,我又来啦。 哇咔咔,很多人都说我好久好久没写机器学习的东西啦。是不是忘啦? 没有没有,记着呢。 只是最近在看很多其他的东西,比如敲敲sc...

2298
来自专栏AI研习社

Github 项目推荐 | Tensorflow.js 进化建模

这是 Siraj Raval 在 Youtube 上用 Tensorflow.js 实现Evolution建模的代码。

1614

扫码关注云+社区

领取腾讯云代金券