我希望得到一个1's的流行率(也就是阳性标签的比率)在一个非常大的数据集中,我有。然而,考虑到模型的不确定性,我希望将这一百分比报告为95%可信区间,而不是作为对费率的准确估计。
以下是我希望执行的步骤:
所以我的问题是:有没有一个最佳的做法来做这件事?我发现了本研究,它训练了一个二元分类器,然后利用贝叶斯流行模型将患病率作为95%的置信区间来报告,方法是将模型的不确定性与模型的特异性和敏感性相结合。然而,我很难理解他们到底在这里做了什么。我也没有发现很多其他人也做过类似的事情。因此,任何关于我可以采取的可靠方法的建议都将不胜感激。
提前感谢!
发布于 2019-01-05 02:58:12
有一个叫做量化的领域来处理这类问题。它的目的是创建“量词”(而不是量词),它将更多地侧重于估计某一类别在人口中的流行程度,而不是单个分类。一种简单的方法是“调整计数”(AC),但还有其他(可能更好)的方法。您可以在本论文或这一个中找到更多信息。
基本上,AC的想法是:
1.1)从列车数据集中学习二进制分类器
1.2)使用交叉验证方法估计训练集中的假阳性率(fpr)和真阳性率(tpr)。
2)根据测试集中观察到的流行率估计测试集的流行率,并经估计的fpr和tpr修正(我认为理想的方法是有不同的测试集和不同的概率)。
这样,您就可以根据实际为正的预测阳性率和实际为正的预测阴性部分(我猜您可以很容易地计算置信区间)来估计样本的普遍程度。
这样做的好处是,你的模型对人群中流行率的变化会更加稳健,而不是仅仅计算正面和负面的例子。(所有这些都在链接文件中得到了更好的解释)
https://datascience.stackexchange.com/questions/39936
复制相似问题