视频5:错误来自哪里
一、Error来自哪里?
引子:视频3有一张图片
我们发现,测试集上测试时,越复杂的model并不总是带来好的模型性能。那么,这些错误来自哪里呢?
Error来自“bias”和“variance”。
为什么要研究错误的来源?研究和分析它,是为了帮助我们更好做模型设计。
bias和variance组合,可以形成如下四种情况,如图所示:
我们所希望的模型,能够满足低Bias和低Variance,以打靶为例,靶心是目标,也就是我们理想的函数,我们所希望的模型,就是不仅瞄的准,还很稳。
通过对Bias和Variance的理解后,不同模型下测试集误差的可视化,可以表示如下图:
通过这个图,我们可以获得这些认知:
1)如果模型欠拟合,意味着有大的偏差
2)如果模型过拟合,可能是有大的方差
对于大偏差,重新设计模型:
1)考虑更多的特征
2)设计更加复杂的模型
对于大方差,重新设计模型:
1)增加更多的数据集
2)正则化技术
如图所示:
二、模型选择
错误源自Bias和Variance,因此,设计模型的时候要对这两者进行一个平衡,保证总误差最小化。
三、交叉验证
利用交叉验证的思想去选择最佳模型。
如下图所示:
思考题:
1 偏差和方差,从数学角度,怎么理解?
2 如何做模型选择和评价?