我真的被过度适应困住了,我正在尽我所能来减少它。
我不想写一个度量来帮助在cv循环中给模型评分。我使用的是10x5倍,并且仍然从我的简历分数的平均值中获得+/- 5-8%的样本准确度分数。(即当我上传到kaggle时)
验证分数的标准差是否与过度拟合/误差相关,这是否可以用于我的评分?目前,stdev在5%左右,这似乎不算什么。
我建议,如果我减少每个k倍的验证分数的stdev,那么这应该会减少样本外预测的方差吗?
有人有这方面的经验吗?
欢迎任何帮助。
发布于 2020-02-14 00:05:07
验证分数的标准差是否与过度拟合/误差相关?
是的:高方差表明模型在不同的训练集之间不稳定,这意味着过度拟合的风险很高。
这能用在我的得分上吗?
在得分本身直接使用std开发,我不确定。我认为这更像是一种定性的指示。但是,如果两个不同的模型具有相似的性能,但其中一个具有较高的方差,通常选择后者是一个好主意。
目前,stdev在5%左右,这似乎不算什么。
它总是取决于具体的数据,但是的,我会说5%是相当高的。
我建议,如果我减少每个k倍的验证分数的stdev,那么这应该会减少样本外预测的方差吗?
我不明白你在这里的意思。
一般来说,减少过度拟合的标准方法是增加实例数与特征数目/复杂性之间的比率:
https://datascience.stackexchange.com/questions/68046
复制相似问题