机器学习基本概念-4

Hyperparameters

在ML中,我们常说的就是train,但是实际什么是train呢? 通俗点说,就是学习参数(hyperparameters) 那什么又是hyperparameters呢? 实际很简单,就是我们的model需要学习或者说需要update的参数,比如你使用了卷积(convolution),那么一定会有一个权重W和一个bias,这个就是你需要学习的参数,也就是model的hyperparameters. 需要注意的是,不同的learning algorithm学习到的参数是不一样的,也是不能通用的. 比如,你不能把别人fine-tune的一个cnn model,直接拿到你的项目上来用,除非你们的网络结构是一样的. 原因很简单,不同的model对应不同的hyperparameters.

Sets in ML

在ML中,我们常说的sets实际有三种:

  • 训练集(training sets)
  • 验证集(validation sets)
  • 测试集(test sets)

这个我们在前面的博客中已经说过了,下面我们从hyperparameters这个角度来解释一下这三种sets到底是做什么的.

首先,我们需要知道,如果光从training sets上去学习hyperparameters,其会使model的capacity最大,从而导致overfitting.

If learned on the training set, such hyperparameters would always choose the maximum possible model capacity, resulting in overfitting.

所以,我们很自然的想到了,如果有一个sets可以用来guide the selection of hyperparameters,那么是不是就可以避免了overfitting. So:

  • The subset of data used to learn the parameters is still typically called the training set.
  • The subset of data used to guide the selection of hyperparameters is called the validation set.

既然validation sets可以用来guide从training sets学习到的hyperparameters,所以一般在validation sets上的generatlization error是要小于training error.

Since the validation set is used to “train” the hyperparameters, the validation set error will underestimate the generalization error, though typically by a smaller amount than the training error.

当然,validation sets是从training set从分出来的,典型的形式是8-2分,也就是80%用来做training sets,20%用来做validation sets.

test sets毫无疑问是用来estimate the genaratlization error的,但是要注意的是:

无论如何,你定义为test sets的数据是不能参与到train和validation的过程中来的

最后总结下,在hyperparameters的角度下,三种sets的作用和定义:

  • training sets is used to learn the parameters.
  • validation sets used to estimate the generalization error during or after training, allowing for the hyperparameters to be updated accordingly.
  • After all hyperparameter optimization is complete, the generalization error may be estimated using the test set.

Cross Validation

当我们用来train的数据量很大的时候,我们通常不用担心test sets的大小问题,但是比如我们的数据量比较小,我们将其划分为training sets,validation sets and test sets之后,发现test sets的数量很小,比如只有50这个数量级,从统计学的角度来说这个存在statistical uncertainty,此时在test sets上的test error表现比较好的不一定可以真实的代表model的好坏.

此时,可以使用cross validation,具体是:

  1. 将training sets划分为k个不重叠的部分(k trials).
  2. 使用其中的一份数据作为test sets,剩下的所有作为training sets.
  3. 计算此时的test error.
  4. 重复多次步骤2,得到所有的test errors,取均值作为最终的test error.

这个方法叫做k-fold cross-validation.

The test error may then be estimated by taking the average test error across k trials. On trial i, the i-th subset of the data is used as the test set and the rest of the data is used as the training set.

这次就写到这,下篇继续…….

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【干货】用PyTorch进行RNN语言建模 - Packed Batching和Tied Weight

【导读】PyTorch是一个日益流行的神经网络框架,自然支持RNN。但是关于RNN,Pytorch的官方教程描述的不怎么详细,这篇文章将介绍使用Pytorch实...

2062
来自专栏程序员宝库

使用 JavaScript 实现机器学习和神经学网络

英文:JeffHeaton 译文: 云+社区/白加黑大人 https://cloud.tencent.com/developer/article/103589...

36410
来自专栏机器之心

学界 | 斯坦福提出神经任务编程NTP:让机器人从层级任务中学习

选自arXiv 机器之心编译 参与:朱乾树、蒋思源 斯坦福视觉与学习实验室与加州大学提出神经任务编程(NTP),它可以将指定任务作为输入,并递归地将该任务分解成...

3469
来自专栏SimpleAI

【DL笔记5】一文上手TensorFlow,并搭建神经网络实现手写数字识别

从【DL笔记1】到【DL笔记N】,是我学习深度学习一路上的点点滴滴的记录,是从Coursera网课、各大博客、论文的学习以及自己的实践中总结而来。从基本的概念、...

796
来自专栏机器之心

学界 | IBM、哈佛联合提出Seq2Seq-Vis:机器翻译模型的可视化调试工具

1563
来自专栏Tencentcloud

交互式数字作品教程——专为艺术家的你!

这篇文章不是对循环神经网络的综合概述。它适用于没有任何机器学习背景的读者。其目的是向艺术家和设计师展示如何使用预先训练的神经网络——使用简单的Javascrip...

2256
来自专栏企鹅号快讯

机器学习系统设计03-机器学习入门应用案例

@[Markdown, 机器学习] Github源代码下载 参考书籍:《机器学习系统设计》 应用案例说明 我们有一个数据集,是一个网站每小时的web访问量,随着...

2115
来自专栏AI科技大本营的专栏

AI实践精选:艺术家如何应用RNN(循环神经网络)创作AI化的艺术作品

文章导读:这篇文章不是为了全面深入的介绍循环神经网络(recurrent neural networks),而是为那些没有任何机器学习(machine lear...

3467
来自专栏https://www.cnblogs.com/L

【深度学习篇】--Seq2Seq模型从初识到应用

“高分辨率”聚焦在图片的某个特定区域并以“低分辨率”,感知图像的周边区域的模式。通过大量实验证明,将attention机制应用在机器翻译,摘要生成,阅读理解等问...

1074
来自专栏CreateAMind

keras中文文档

Keras是一个极简和高度模块化的神经网络库,Keras由纯Python编写而成并基于Theano或Tensorflow。Keras 为支持快速实验而生,如果你...

1785

扫码关注云+社区