对于一般的统计模型来说,下图描述了训练误差和测试误差与模型的复杂度之间的关系:
当模型的复杂度增大时,训练误差会逐渐减小并趋向于 000,而测试误差会先减小,达到最小值后增大;当选择的模型复杂度过大时,过拟合现象就会出现。因此,在学习时就要防止过拟合,进行最优的模型选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。常用的两种模型选择方法:正则化与交叉验证。
正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项或惩罚项。正则化项一般时模型复杂度的单调递增函数,模型越复杂,正则化值就越大。