首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >重磅发布 | 基于Spark训练线性回归模型 实战入门教程

重磅发布 | 基于Spark训练线性回归模型 实战入门教程

作者头像
double
发布2019-08-30 13:36:17
发布2019-08-30 13:36:17
7630
举报
文章被收录于专栏:算法channel算法channel

Python与算法社区 原创项目教程

01

最开始接触分布式计算框架的是Hadoop中的MapReduce,虽然开发起来很复杂(Map与Reduce都要有相应的实现类)但是我也成功的启动了第一个“Hello word”(word count)。

由于MapReduce每个步骤都要将中间结果存到磁盘中,而且会将job jar 包分发到每个相关的Datanode上,虽然我的Txt文件不到1M, 但是启动计算加上返回结果的时间大概也有40秒左右,还能忍,毕竟是怀揣着我将要处理TB级别数据的梦想。

Spark作为分布式计算框架,采用的是一种基于内存的计算,减少了反复读取磁盘的数次,另外还提供了除了map与reduce更多的操作。这无疑是提供了最好的MapReduce替代品。然而最吸引我的不是spark的mapreduce有多么的快,而是spark集成了Machine Learning packages

02

本文提供了一种接近实际生产环境,在Spark集群环境中,训练机器学习模型的完整方法,主要包括两大章节:

  • 基于docker环境搭建spark环境
  • spark体验机器学习

03

此项目教程包括详细说明文档和完整可运行代码,项目开源地址:

https://github.com/jackzhenguo/machine-learning/blob/master/spark/spark-ml-linear_regression.md

完整代码地址

https://github.com/jackzhenguo/machine-learning/blob/master/spark/spark-ml-linear-regression-demo.py

04

此项目教程主要特点:

  • 文档齐全,代码简洁,教程操作性强,带有一步一步讲解
  • spark体验线性回归模型,属于最好的入门实战例子教程初学者入门的不二之选
  • 详细代码讲解,共分解为10个步骤,通俗易懂,操作性强:
    • 导入需要的包
    • 造数据,y=2x+biases
    • 合并矩阵
    • 数据格式
    • 指定集群地址
    • 转换数据并查看数据
    • 将df转换为spark模型训练数据格式,实际上也就是将feature改为数组
    • 划分数据集0.9与0.1,并打印coefficients与intercept
    • 绘制图像,查看拟合效果
    • 输入 http://localhost:4040查看job运行状况
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档