Spark机器学习入门指南

文章来源：企鹅号 - 数模堂

Spark新版本机器学习发行笔记

不知不觉Spark已经更新到2.3.0版本了，在过去的一年里，Spark的更新速度依然无比活跃。社区的贡献者依然激情澎湃。2.3.0版本就在不久前的2月28号发布的。读者朋友们是不是觉得有点小小的out了呢。反正笔者是感觉有跟不上的节奏了。为了减小与大牛们的差距。笔者非常有意愿带领大家一起来学习一下Spark的2.3.0版本中机器学习有了哪些优化呢。

注意：以下的版本发布笔记只是2.3.0版本完整发布笔记的子集。笔者将能理解的部分翻译并总结了出来，希望对读者有所帮助。

1 新增或者改进的APIS

（1）新增读取图片的Scala/Java/Python 接口，可以返回对应的DataFrame

（2）DataFrame里向量列的统计方法

（3）聚类评估支持余弦距离误差和欧几里得距离误差

（4）特征hash转换

（5）多列多特征转化：

OneHotEncoderEstimator

QuantileDiscretizer

Bucketizer

（6）改进使用python实现自定义Pipeline组件

2 新特性

（1）CrossValidator交叉验证和TrainValidationSplit可以适用于所有的Spark模型算法

（2）模型概要统计支持多项逻辑回归

（3）增加广义线性模型的偏移量

featureSubsetStrategy参数，该参数可以显著加快模型训练的速度。该参数也是xgboost的优势所在。

3 其他重要变化

（1）矩阵参数支持json格式

（2）解决的一个bug

4 重要优化

（1）减少CrossValidator和TrainValidationSplit的内存消耗。

（2）避免频繁的为小批量驱动数据收集统计信息。

我们最后来看一看Spark Mlib方面的发行笔记原文是怎么写的。

如下图所示：

发表于: 2018-03-242018-03-24 10:08:41
原文链接：http://kuaibao.qq.com/s/20180324G0DJOX00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Spark机器学习入门指南

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐