我正在使用Scikit-Learn通过LinearSVC对文本(在我的例子中是推文)进行分类。当文本与训练集中定义的任何类别不匹配时,是否有方法将文本分类为未分类?例如,如果我有体育、政治和电影的类别,并试图在一条关于计算的推文上预测分类,那么它应该保持不分类。
发布于 2016-08-05 19:22:32
在监督学习方法中,您不能添加额外的类别。
因此,我会使用一些启发式方法。尝试预测每个类别的概率。然后,如果所有4个概率或至少3个概率大致相等,则可以说样本是“未知的”。对于这种方法,LinearSVC或其他类型的支持向量分类器不太适合,因为它不能自然地给出概率。另一个分类器(Logistic回归,贝叶斯,树,森林)会更好
https://stackoverflow.com/questions/38767481
复制相似问题