我对文本分类技术很陌生,我想知道N-gram文本分类方法与其他基于决策树、KNN、SVM的文本分类方法的区别。
我想知道哪一种更好,n克是否属于分类者?N-图是否克服了分类器技术中的缺点?
我在哪里可以得到有关所有这些技术的比较信息。
提前谢谢。
发布于 2013-12-03 10:16:39
我实际上会发布一个完整的答案,因为我认为这是值得的,因为很明显,您可以使用n-gram模型作为分类器(就像您可以使用任何可能的功能模型一样)。
生成分类器近似于兴趣的后验,p(类_~_
p(c) t) \propto p(C)p(t=c)
其中p(c)是c的先验概率,p(t=c)是似然。一个n克语言模型,就像朴素的Bayes或LDA或者任何你喜欢的生成模型,如果你估计每个类都有一个单独的模型,那么分类就可以被解释为概率模型p(t= c )。因此,它可以提供进行分类所需的所有信息。
当然,问题是这种模式是否有用。主要的问题是,n-gram模型往往建立在数十亿字的文本上,在这些文本中,分类器通常被训练在几千个单词上。你可以做一些复杂的事情,比如在所有类的模型的参数上放置连接先验,将超参数固定为相等(这些参数是什么取决于你如何进行平滑)。但还是很棘手。
另一种方法是建立一个n字元的字符模型(如果有用的话包括空格/标点符号)。这可以更可靠地估计(三格模型的26^3参数,而不是~20000^3),并且对于作者识别/体裁分类/其他有文体元素的分类非常有用。
发布于 2013-12-01 20:38:11
N-gram不是一个分类器,它是一种概率语言模型,对基本单元序列进行建模,其中这些基本单位可以是单词、音素、字母等。
分类器是一种算法,它可能使用或不使用n-gram表示文本.
https://stackoverflow.com/questions/20315897
复制相似问题