文章/答案/技术大牛

发布

社区首页 >问答首页 >尝试将文本数据分类为300个类别的分类算法

问尝试将文本数据分类为300个类别的分类算法
EN

Data Science用户

提问于 2015-05-07 08:52:40

回答 1查看 2.8K关注 0票数 8

我有40000行医疗保健领域的文本数据。数据包含文本一列(2-5句)和类别一列。我想把它分成300个类别。有些类别是独立的，而有些类别则有些相关。数据在类别之间的分布也不均匀，例如，一些类别(其中大约40个)的数据较少，大约2-3行。

我附上每个类别/类别的日志概率。(或类的分布)在这里。

发布于 2015-05-08 17:32:38

一般来说，这样的问题的一个不错的起点是使用简单的单词包模型进行朴素贝叶斯(NB)分类。下面是一些描述NB应用于自然语言处理的幻灯片。这种方法没有什么特别奇特的地方，但它很容易实现，并将为您提供一个扩展的起点。

一旦您发现了一些假设特性和输出标签之间独立的初始结果，您可能会更好地了解模型的薄弱位置。从那时起，您可以应用一些特性工程(可能是TF-以色列国防军)以及一些后处理来处理分配给相关类别的样本。

票数 8

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/5708

复制

相似问题

问尝试将文本数据分类为300个类别的分类算法EN