今天我们聊过拟合。
我们说过,模型的所谓“学习”,就是拟合数据,而整个学习过程,就是不断调整模型拟合数据,因此,也诞生了“过拟合”这个概念。
在机器学习中,过拟合(Over Fit)是个很重要的概念,同时也是个不太容易理解的概念。过拟合就是拟合得太好了,简单来说,就是模型学得太好,学过了。
可是,这难道不是好事?我们训练模型,不就是想要让模型尽可能拟合数据,拟合得越好,也就是预测越接近正确答案,难道不应该是说明模型训练的效果越好?
不是。这就是机器学习中最反直觉的地方:用于预测的模型,居然不是预测越准越好!
不过,要解释倒也不难:在机器学习中,模型训练的好坏,实际上是有两个重要的评价指标,一个是拟合,一个是泛化。也许一开始我们以为模型训练只有一个目标,那就是拟合,而实际上,不偏科的模型才是好模型。
下回再聊。