我有40000行医疗保健领域的文本数据。数据包含文本一列(2-5句)和类别一列。我想把它分成300个类别。有些类别是独立的,而有些类别则有些相关。数据在类别之间的分布也不均匀,例如,一些类别(其中大约40个)的数据较少,大约2-3行。
我附上每个类别/类别的日志概率。(或类的分布)在这里。
发布于 2015-05-08 17:32:38
一般来说,这样的问题的一个不错的起点是使用简单的单词包模型进行朴素贝叶斯(NB)分类。下面是一些描述NB应用于自然语言处理的幻灯片。这种方法没有什么特别奇特的地方,但它很容易实现,并将为您提供一个扩展的起点。
一旦您发现了一些假设特性和输出标签之间独立的初始结果,您可能会更好地了解模型的薄弱位置。从那时起,您可以应用一些特性工程(可能是TF-以色列国防军)以及一些后处理来处理分配给相关类别的样本。
https://datascience.stackexchange.com/questions/5708
复制相似问题