我想知道,在评估测试集上分类器的性能时,“最佳实践”方法是如何找到置信区间的。
据我所见,有两种不同的方法来评估一种度量的准确性,比如精确度:
直觉上,我觉得后者会给我一个关于性能对数据变化有多“敏感”的估计,而前者会让我直接比较两种不同的模型。
我得说我有点困惑..。
发布于 2021-10-21 13:21:14
您需要区分预测的不确定性和类的不确定性。
举个例子,让我们说我们是在抛硬币。我百分之百地相信“尾巴”的概率是50%。
另一方面,明天下雨的可能性是90%,但天气预报员对此并不十分确定。
为了得到这个定义,我建议阅读本文:https://arxiv.org/abs/1910.09457
近年来,人们倾向于使用集合方法和提取一些基本统计量来计算给定的间隔。
https://datascience.stackexchange.com/questions/103285
复制相似问题