首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark机器学习入门指南

Spark新版本机器学习发行笔记

不知不觉Spark已经更新到2.3.0版本了,在过去的一年里,Spark的更新速度依然无比活跃。社区的贡献者依然激情澎湃。2.3.0版本就在不久前的2月28号发布的。读者朋友们是不是觉得有点小小的out了呢。反正笔者是感觉有跟不上的节奏了。为了减小与大牛们的差距。笔者非常有意愿带领大家一起来学习一下Spark的2.3.0版本中机器学习有了哪些优化呢。

注意:以下的版本发布笔记只是2.3.0版本完整发布笔记的子集。笔者将能理解的部分翻译并总结了出来,希望对读者有所帮助。

1 新增或者改进的APIS

(1)新增读取图片的Scala/Java/Python 接口,可以返回对应的DataFrame

(2)DataFrame里向量列的统计方法

(3)聚类评估支持余弦距离误差和欧几里得距离误差

(4)特征hash转换

(5)多列多特征转化:

OneHotEncoderEstimator

QuantileDiscretizer

Bucketizer

(6)改进使用python实现自定义Pipeline组件

2 新特性

(1)CrossValidator交叉验证和TrainValidationSplit可以适用于所有的Spark模型算法

(2)模型概要统计支持多项逻辑回归

(3)增加广义线性模型的偏移量

featureSubsetStrategy参数,该参数可以显著加快模型训练的速度。该参数也是xgboost的优势所在。

3 其他重要变化

(1)矩阵参数支持json格式

(2)解决的一个bug

4 重要优化

(1)减少CrossValidator和TrainValidationSplit的内存消耗。

(2)避免频繁的为小批量驱动数据收集统计信息。

我们最后来看一看Spark Mlib方面的发行笔记原文是怎么写的。

如下图所示:

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180324G0DJOX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券