首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >聚类与分类

聚类与分类
EN

Data Science用户
提问于 2020-07-16 11:43:14
回答 2查看 70关注 0票数 0

我对此有点陌生,但我只是简单地问了一个关于聚类和分类的问题。我有一堆要分类的文字。目前我有4门课,但课文可以属于多个班级。到目前为止,我看到的是进行4种二进制分类,但我想知道是否有一种分类算法,可以实现属于多个类的文本。或者,我可以通过具有重叠簇的集群来实现这一点吗?

我试着用Python来做这件事。

EN

回答 2

Data Science用户

发布于 2020-07-16 11:58:25

聚类是无监督的,这意味着您不知道类和/或没有正确标记文本的示例。

假设您有一些标签文本,那么我们将讨论一个分类问题。

您当前为每个标签分别执行二进制模型的方法是非常基本的,但仍然是合理的。您对每个模型的验证标准和评分是什么?如果性能已经很好,那么您可能不需要其他的东西。

另一种方法是训练一个预测所有类的模型,然后输出多类概率预测。这将为您提供关于最佳拟合类的信息,但是您必须相应地拟合您的损失度量,例如,精确性在这里是没有意义的。

另一种方法是建立一个新的因子变量,对所有可能的类组合进行编码,并在此基础上训练一个模型。然而,我怀疑,由于不平衡的情况和高度的复杂性,这种模式的表现会很糟糕。

票数 1
EN

Data Science用户

发布于 2020-07-16 12:00:56

您正在处理的问题是监督学习,因为您已经知道每个示例的标签。如果尝试对数据集进行聚类,而该数据集是无监督学习的,则可能不会期望按您希望的方式对文本进行群集。因为聚类是基于模式(相似性)而不是输出标签完成的。

为了解决上述问题,您可以选择多标签分类,其中每个样本可以有超过一个类别。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/77804

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档