Boot strapping 自助法 | onepoint
通常,机器学习中我们希望评估的结果是由完整的训练集D,而无论是留出法还是交叉验证法,都会保留一部分数据作为测试集,因而训练集都比D小。这必然在不同程度上引入一些因训练样本规模不同而导致的估计偏差。此前唯一的解决办法是LOO链接,但是LOO又十分消耗资源。所以,一个比较好的解决方案就是本期介绍的:自助法。
自助法以自助采样法为基础:
如图,我们假设数据集D,包含m个样本。并对其采取m次采样,每次采样的结果放回数据集并记录到数据集D’。所以,必然会有一些样本重复出现。图中的右边展示的公式表示,样本在m次采样中,始终不被采样到的概率。即第一次采样不到的概率为1-1/m,第二次为(1-1/m)(1-1/m)。而推至极限的估算结果为0.368,即36.8%的样本未出现在采集数据集D’中。
所以我们用D’用作训练集,D-D’(集合的减法)用作测试集。
⚠️ D’是一个含有m个样本的数据集,m个样本,包含(1-36.8%)的D数据集。
所以,自助法能够利用m个样本做训练集,用剩余的1/3的做测试集。
总的来说,自助法在数据集较小,难以有效划分训练、测试集时非常有效。
自助法对集成学习很有好处。
但是,自助法改变了数据集的初始分布,在一些情况下很容易引入估计偏差。
在初始数据集较大时,还是前面的评估方法比较好。
数据Seminar
这里是经济学与大数据的交叉路口
作者:黄胜蓝
领取专属 10元无门槛券
私享最新 技术干货