PRML系列:1.3 Model Selection

PRML系列:1.3 Model Selection

模型选择

模型选择一般采用交叉验证,本节提到了S-fold cross-validation,原理如下,把数据集D随机划分成S份,其中S-1份用来训练模型,1份用来验证模型的效果。这样,一方面能充分利用所给数据集的几乎全部有用信息,另外一方面,可以有效避免过拟合现象的发生。

当S取数据集个数N时,这种技术叫做留一法,在样本稀缺的情况下尤其有用。

缺点:

  1. 随着S的增大,模型训练时间也增大,毕竟要训练S次,得到S个模型,在模型本身比较耗时的情况下,时间复杂度相当高。
  2. 对于单一模型,如果自身需要手动调节多个参数,如若干个正则化参数。在最坏情况下,探索这些参数的组合需要的训练次数可能是参数个数的指数函数。

针对第二个缺点,比如给定多项式拟合函数的阶数M和正则化系数λ\lambda, M可选择9种,λ\lambda可选择5种,那么自然有9 x 5 = 45种选择,随着需要手动调节参数的增多,训练次数也会指数上升。

这些参数的共同特点是,模型不能自动学得,需要手动调节,我们称为超参数。理想情况下,模型选择应该只依赖于训练数据,并且应该允许在一轮训练中对比多个超参数以及模型类型。因此,我们需要找到一种模型表现的度量,它只依赖于训练数据,并且不会由于过拟合产生偏移的问题。

文中提出了针对似然函数的一种”信息准则”,Akaike information criterion, 简称AIC,选择下面使这个量最大的模型:

不过令我好奇的是,是有特定的算法能够通过验证集能够自动选择最优模型么?书中暂未提到。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能算法

逻辑回归(LR)算法

一、算法介绍 Logistic regression (逻辑回归)是一种非线性回归模型,特征数据可以是连续的,也可以是分类变量和哑变量,是当前业界比较常用的机...

36013
来自专栏李智的专栏

PRML笔记

其中,除以NN让我们能够以相同的基础对比不同大小的数据集,平方根确保了ERMSE_{RMS}与目标变量tt使用相同的规模和单位进行度量。

872
来自专栏SIGAI学习与实践平台

机器学习算法地图

很多同学在学机器学习和深度学习的时候都有一个感受:所学的知识零散、不系统,缺乏整体感,这是普遍存在的一个问题。在这里,SIGAI对常用的机器学习和深度学习算法进...

3323
来自专栏Bingo的深度学习杂货店

《统计学习方法》读书笔记

【第1章】 统计学习方法概论 【第2章】 感知机 【第3章】 k 近邻法 【第4章】 朴素贝叶斯法 【第5章】 决策树 【第6章】 逻辑斯谛回归与最大...

4021
来自专栏大数据挖掘DT机器学习

深度学习实战(可视化部分)——使用keras识别猫咪

在近些年,深度学习领域的卷积神经网络(CNNs或ConvNets)在各行各业为我们解决了大量的实际问题。但是对于大多数人来说,CNN仿佛戴上了神秘的面纱。我经...

5778
来自专栏数据科学与人工智能

【机器学习】参数和非参数机器学习算法

什么是参数机器学习算法并且它与非参数机器学习算法有什么不同? 本文中你将了解到参数和非参数机器学习算法的区别。 让我们开始吧。 ? 学习函数 机器学习可以总结...

3425
来自专栏机器之心

Kaggle车辆边界识别第一名解决方案:使用预训练权重轻松改进U-Net

3728
来自专栏老秦求学

Deep Learning Tutorial 李宏毅(一)深度学习介绍

大纲 深度学习介绍 深度学习训练的技巧 神经网络的变体 展望 深度学习介绍 深度学习介绍 深度学习属于机器学习的一种。介绍深度学习之前,我们先大致了解一下机器学...

43210
来自专栏CreateAMind

CPC(representation learning with contrastive predctive coding)

摘要: 监督学习在很多应用方面有了巨大的进步,但是非监督学习却没有如此广的应用,非监督学习是人工智能方面非常重要也非常具有挑战性的领域。这篇论文提出了 cons...

1263
来自专栏AI深度学习求索

弱监督语义分割论文SEC详解(2016-ECCV):Seed, Expand and Constrain

论文SEC-Seed, Expand and Constrain: Three Principlesfor Weakly-Supervised Image Se...

2181

扫码关注云+社区