我一直在阅读关于文本分类的文章,发现了几个可用于分类的Java工具,但我仍然想知道:文本分类与句子分类是一样的吗!
有没有专注于句子分类的工具?
发布于 2012-04-19 04:37:00
“文本分类”和“句子分类”之间没有形式上的区别。毕竟,句子是一种文本类型。但一般来说,当人们谈论文本分类时,我想他们指的是更大的文本单元,如论文、评论或演讲。将一位政治家的演讲分为民主党或共和党要比对推文进行分类容易得多。当每个实例有大量文本时,您不需要从每个训练实例中获取它可以提供给您的所有信息,并且可以从词袋朴素贝叶斯模型中获得相当好的性能。
基本上,如果您在句子语料库中使用现成的weka分类器,您可能无法获得所需的性能数字。您可能需要使用POS标签、解析树、单词排序、ngram等来扩充句子中的数据。还可以获取任何相关的元数据,如创建时间、创建位置、句子作者的属性等。显然,所有这些都取决于您到底要对什么进行分类。将为您工作的功能需要对手头的问题有直观的意义。
https://stackoverflow.com/questions/10205561
复制相似问题