重磅发布 | 基于Spark训练线性回归模型实战入门教程

double

发布于 2019-08-30 13:36:17

7630

Python与算法社区原创项目教程

最开始接触分布式计算框架的是Hadoop中的MapReduce,虽然开发起来很复杂（Map与Reduce都要有相应的实现类）但是我也成功的启动了第一个“Hello word”（word count）。

由于MapReduce每个步骤都要将中间结果存到磁盘中，而且会将job jar 包分发到每个相关的Datanode上，虽然我的Txt文件不到1M, 但是启动计算加上返回结果的时间大概也有40秒左右，还能忍，毕竟是怀揣着我将要处理TB级别数据的梦想。

Spark作为分布式计算框架，采用的是一种基于内存的计算，减少了反复读取磁盘的数次，另外还提供了除了map与reduce更多的操作。这无疑是提供了最好的MapReduce替代品。然而最吸引我的不是spark的mapreduce有多么的快，而是spark集成了Machine Learning packages。

本文提供了一种接近实际生产环境，在Spark集群环境中，训练机器学习模型的完整方法，主要包括两大章节：

基于docker环境搭建spark环境
spark体验机器学习

此项目教程包括详细说明文档和完整可运行代码，项目开源地址：

https://github.com/jackzhenguo/machine-learning/blob/master/spark/spark-ml-linear_regression.md

完整代码地址：

https://github.com/jackzhenguo/machine-learning/blob/master/spark/spark-ml-linear-regression-demo.py

此项目教程主要特点：

文档齐全，代码简洁，教程操作性强，带有一步一步讲解
spark体验线性回归模型，属于最好的入门实战例子教程，初学者入门的不二之选
详细代码讲解，共分解为10个步骤，通俗易懂，操作性强：
- 导入需要的包
- 造数据，y=2x+biases
- 合并矩阵
- 数据格式
- 指定集群地址
- 转换数据并查看数据
- 将df转换为spark模型训练数据格式，实际上也就是将feature改为数组
- 划分数据集0.9与0.1，并打印coefficients与intercept
- 绘制图像，查看拟合效果
- 输入 http://localhost:4040查看job运行状况