首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用二值分类器预测标签后未标记数据中类的流行率

用二值分类器预测标签后未标记数据中类的流行率
EN

Data Science用户
提问于 2018-10-19 18:26:53
回答 1查看 361关注 0票数 0

我希望得到一个1's的流行率(也就是阳性标签的比率)在一个非常大的数据集中,我有。然而,考虑到模型的不确定性,我希望将这一百分比报告为95%可信区间,而不是作为对费率的准确估计。

以下是我希望执行的步骤:

  1. 根据标注的训练数据训练二进制分类器。
  2. 使用标记测试集来评估分类器的特异性和敏感性。
  3. 使用分类器可以预测数据集中未标记记录的标签。
  4. 显然,只要简单地计算预测输出的平均值,我就能得到一个精确的流行率估计。但我希望在这里实现一种方法,将流行率估计作为间隔报告。

所以我的问题是:有没有一个最佳的做法来做这件事?我发现了本研究,它训练了一个二元分类器,然后利用贝叶斯流行模型将患病率作为95%的置信区间来报告,方法是将模型的不确定性与模型的特异性和敏感性相结合。然而,我很难理解他们到底在这里做了什么。我也没有发现很多其他人也做过类似的事情。因此,任何关于我可以采取的可靠方法的建议都将不胜感激。

提前感谢!

EN

回答 1

Data Science用户

发布于 2019-01-05 02:58:12

有一个叫做量化的领域来处理这类问题。它的目的是创建“量词”(而不是量词),它将更多地侧重于估计某一类别在人口中的流行程度,而不是单个分类。一种简单的方法是“调整计数”(AC),但还有其他(可能更好)的方法。您可以在本论文这一个中找到更多信息。

基本上,AC的想法是:

1.1)从列车数据集中学习二进制分类器

1.2)使用交叉验证方法估计训练集中的假阳性率(fpr)和真阳性率(tpr)。

2)根据测试集中观察到的流行率估计测试集的流行率,并经估计的fpr和tpr修正(我认为理想的方法是有不同的测试集和不同的概率)。

这样,您就可以根据实际为正的预测阳性率和实际为正的预测阴性部分(我猜您可以很容易地计算置信区间)来估计样本的普遍程度。

这样做的好处是,你的模型对人群中流行率的变化会更加稳健,而不是仅仅计算正面和负面的例子。(所有这些都在链接文件中得到了更好的解释)

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/39936

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档