Spark新版本机器学习发行笔记
不知不觉Spark已经更新到2.3.0版本了,在过去的一年里,Spark的更新速度依然无比活跃。社区的贡献者依然激情澎湃。2.3.0版本就在不久前的2月28号发布的。读者朋友们是不是觉得有点小小的out了呢。反正笔者是感觉有跟不上的节奏了。为了减小与大牛们的差距。笔者非常有意愿带领大家一起来学习一下Spark的2.3.0版本中机器学习有了哪些优化呢。
注意:以下的版本发布笔记只是2.3.0版本完整发布笔记的子集。笔者将能理解的部分翻译并总结了出来,希望对读者有所帮助。
1 新增或者改进的APIS
(1)新增读取图片的Scala/Java/Python 接口,可以返回对应的DataFrame
(2)DataFrame里向量列的统计方法
(3)聚类评估支持余弦距离误差和欧几里得距离误差
(4)特征hash转换
(5)多列多特征转化:
OneHotEncoderEstimator
QuantileDiscretizer
Bucketizer
(6)改进使用python实现自定义Pipeline组件
2 新特性
(1)CrossValidator交叉验证和TrainValidationSplit可以适用于所有的Spark模型算法
(2)模型概要统计支持多项逻辑回归
(3)增加广义线性模型的偏移量
featureSubsetStrategy参数,该参数可以显著加快模型训练的速度。该参数也是xgboost的优势所在。
3 其他重要变化
(1)矩阵参数支持json格式
(2)解决的一个bug
4 重要优化
(1)减少CrossValidator和TrainValidationSplit的内存消耗。
(2)避免频繁的为小批量驱动数据收集统计信息。
我们最后来看一看Spark Mlib方面的发行笔记原文是怎么写的。
如下图所示:
领取专属 10元无门槛券
私享最新 技术干货