我有一个数据集,由糖尿病患者和没有糖尿病的人组成。使用这些数据,我想训练一个模型来计算未知糖尿病患者的风险概率。我知道,大多数在培训中没有被诊断为糖尿病的人没有糖尿病,但这些人中的一些人很可能患有未确诊的糖尿病。
这似乎是一个捕获22的情况。我想识别那些处于危险中的人,或者有可能患有未确诊的糖尿病的人,但是我知道我训练数据中的一些人被错误地贴上了没有糖尿病的标签,因为他们还没有被诊断出来。有人遇到过这样的问题吗?如果数据只占数据的一小部分,还能不能继续进行下去,因为可能有一些标签错误的数据?
发布于 2018-05-21 19:49:59
解决你的问题可能有几种方法。
首先,这可能不是一个问题。如果错误标记的数据占培训集的一小部分,这可能并不重要。实际上,在某些情况下,添加错误标记的数据或只是随机噪声可以提高分类器的鲁棒性和泛化能力。
其次,您可能需要使用训练集来训练分类器,然后检查分类器给出不正确分类的数据点。有可能分类器实际上是正确的,并将您引导到错误标记的数据。如果可能的话,可以手动检查这些数据。
第三,您可以使用协商一致过滤器之类的方法预先过滤数据。本文可能是开始研究这个主题:识别错误标记的培训数据- C.E. Brody和M.A. Friedl的好方法。
https://stackoverflow.com/questions/50455527
复制相似问题