我对此有点陌生,但我只是简单地问了一个关于聚类和分类的问题。我有一堆要分类的文字。目前我有4门课,但课文可以属于多个班级。到目前为止,我看到的是进行4种二进制分类,但我想知道是否有一种分类算法,可以实现属于多个类的文本。或者,我可以通过具有重叠簇的集群来实现这一点吗?
我试着用Python来做这件事。
发布于 2020-07-16 11:58:25
聚类是无监督的,这意味着您不知道类和/或没有正确标记文本的示例。
假设您有一些标签文本,那么我们将讨论一个分类问题。
您当前为每个标签分别执行二进制模型的方法是非常基本的,但仍然是合理的。您对每个模型的验证标准和评分是什么?如果性能已经很好,那么您可能不需要其他的东西。
另一种方法是训练一个预测所有类的模型,然后输出多类概率预测。这将为您提供关于最佳拟合类的信息,但是您必须相应地拟合您的损失度量,例如,精确性在这里是没有意义的。
另一种方法是建立一个新的因子变量,对所有可能的类组合进行编码,并在此基础上训练一个模型。然而,我怀疑,由于不平衡的情况和高度的复杂性,这种模式的表现会很糟糕。
发布于 2020-07-16 12:00:56
您正在处理的问题是监督学习,因为您已经知道每个示例的标签。如果尝试对数据集进行聚类,而该数据集是无监督学习的,则可能不会期望按您希望的方式对文本进行群集。因为聚类是基于模式(相似性)而不是输出标签完成的。
为了解决上述问题,您可以选择多标签分类,其中每个样本可以有超过一个类别。
https://datascience.stackexchange.com/questions/77804
复制相似问题