Spark机器学习——模型选择与参数调优之交叉验证

spark 模型选择与超参调优

机器学习可以简单的归纳为 通过数据训练y = f(x) 的过程,因此定义完训练模型之后,就需要考虑如何选择最终我们认为最优的模型。

如何选择最优的模型,就是本篇的主要内容:

  • 模型验证的方法
  • 超参数的选择
  • 评估函数的选择

模型验证的方法

在《统计学习方法》这本书中,曾经讲过模型验证的方法有三种,分别是简单的交叉验证S折交叉验证留一交叉验证

简单的交叉验证

即把全部数据按照比例分割成两部分,分别是训练集和测试集。在训练集训练模型,在测试集测试效果,最终选择一个代价比较小的结果。一般是0.75。

S折交叉验证

设置S为一个数,一般是3或者10居多。如果是3,那么前2份作为训练集,最后一份作为测试集。

留一交叉验证

如果S的个数正好是样本的容量,就是留一交叉验证。

PS: 训练集是用于训练模型,测试集适用于判断此次训练效果。

在Spark MLLib中,为我们提供了两种验证方法,分别是

  • Cross-Validation : S折交叉验证
  • Train-ValidationSplit:简单交叉验证

超参数的选择

在Spark MLLib中,超参数可以通过上面的验证方法,作为参数传进去:

// 定义超参数集合
val paramGrid = new ParamGridBuilder()
  .addGrid(hashingTF.numFeatures, Array(10, 100, 1000))
  .addGrid(lr.regParam, Array(0.1, 0.01))
  .build()
// 定义验证器
val cv = new CrossValidator()
  .setEstimator(pipeline)
  .setEvaluator(new BinaryClassificationEvaluator)
  .setEstimatorParamMaps(paramGrid)
  .setNumFolds(2)  // Use 3+ in practice

其中hashingTF给设置了3个参数、lr给了2个参数,如果正常我们想要验证这6个参数的组合,应该需要验证6次。但是在Spark中,基于Validator可以一次性验证出来,并自动选择最后代价最小的那个。

PS 上面S折交叉验证中S的参数为2,因此内部只有一个训练集;如果是3,那么最终运行的训练次数将会是 (3*2)*2 = 12次。

评估函数的确定

Spark提供了三种评估函数:

  • RegressionEvaluator用于回归预测的问题
  • BinaryClassificationEvaluator用于二分类问题
  • MulticlassClassificationEvaluator用于多分类问题

详细的代码,可以参考: http://spark.apache.org/docs/latest/ml-tuning.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

开发 | 利用卷积自编码器对图片进行降噪

AI科技评论按:本文原作者天雨粟,原文载于作者的知乎专栏机器不学习。本文获得作者授权转载至AI科技评论。 前言 这周工作太忙,本来想更把 Attention t...

28880
来自专栏Coding迪斯尼

用Python从零开始设计数字图片识别神经网络--搭建基本架构

19340
来自专栏深度学习与计算机视觉

TensorFlow 图像预处理(一) 图像编解码,图像尺寸调整

TensorFlow提供了几类图像处理函数,下面介绍图像的编码与解码,图像尺寸调整。 编码与解码 图像解码与编码:一张RGB三通道的彩色图像可以看成一个三维矩阵...

656100
来自专栏菩提树下的杨过

WPF中的MatrixTransform

WPF中的MatrixTransform            周银辉 虽然在WPF中可以使用TranslateTransform、RotateTrans...

220100
来自专栏杨熹的专栏

TensorFlow-1: 如何识别数字

识别数字在机器学习任务中的地位和 Hello World 在编程中是一样的。 主要步骤: 获得数据:from Yann LeCun's website 建立模型...

45070
来自专栏wOw的Android小站

[Tensorflow] Tensorflow卷积理解

CNN对于学习深度学习的人来说应该是比较耳熟的名词了.但很多人只是听过,但不知道是什么.

92820
来自专栏和蔼的张星的图像处理专栏

4. 经典卷积网络之AlexNet

原文:《ImageNet Classification with Deep Convolutional Neural Networks》 我没有读原文,这个已...

18620
来自专栏邹成卓的专栏

三维变换矩阵的理解

3D空间中的一个点的坐标,可以用(x,y,z)来表示。对这个点的坐标变换有三种操作:缩放、平移、旋转。

2.2K20
来自专栏宏伦工作室

动手实现notMNIST数据集图片分类

23130
来自专栏AI研习社

利用卷积自编码器对图片进行降噪

前言 这周工作太忙,本来想更把 Attention tranlsation 写出来,但一直抽不出时间,等后面有时间再来写。我们这周来看一个简单的自编码器实战...

40640

扫码关注云+社区

领取腾讯云代金券