文章/答案/技术大牛

发布

社区首页 >问答首页 >文本分类中的n-克与其他分类器

问文本分类中的n-克与其他分类器
EN

Stack Overflow用户

提问于 2013-12-01 18:54:14

回答 2查看 5.8K关注 0票数 6

我对文本分类技术很陌生，我想知道N-gram文本分类方法与其他基于决策树、KNN、SVM的文本分类方法的区别。

我想知道哪一种更好，n克是否属于分类者？N-图是否克服了分类器技术中的缺点？

我在哪里可以得到有关所有这些技术的比较信息。

提前谢谢。

machine-learning

data-mining

classification

n-gram

text-classification

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-12-03 10:16:39

我实际上会发布一个完整的答案，因为我认为这是值得的，因为很明显，您可以使用n-gram模型作为分类器(就像您可以使用任何可能的功能模型一样)。

生成分类器近似于兴趣的后验，p(类_~_

p(c) t) \propto p(C)p(t=c)

其中p(c)是c的先验概率，p(t=c)是似然。一个n克语言模型，就像朴素的Bayes或LDA或者任何你喜欢的生成模型，如果你估计每个类都有一个单独的模型，那么分类就可以被解释为概率模型p(t= c )。因此，它可以提供进行分类所需的所有信息。

当然，问题是这种模式是否有用。主要的问题是，n-gram模型往往建立在数十亿字的文本上，在这些文本中，分类器通常被训练在几千个单词上。你可以做一些复杂的事情，比如在所有类的模型的参数上放置连接先验，将超参数固定为相等(这些参数是什么取决于你如何进行平滑)。但还是很棘手。

另一种方法是建立一个n字元的字符模型(如果有用的话包括空格/标点符号)。这可以更可靠地估计(三格模型的26^3参数，而不是~20000^3)，并且对于作者识别/体裁分类/其他有文体元素的分类非常有用。

票数 11

Stack Overflow用户

发布于 2013-12-01 20:38:11

N-gram不是一个分类器，它是一种概率语言模型，对基本单元序列进行建模，其中这些基本单位可以是单词、音素、字母等。

分类器是一种算法，它可能使用或不使用n-gram表示文本.

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/20315897

复制

相似问题

问文本分类中的n-克与其他分类器
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本分类中的n-克与其他分类器EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本分类中的n-克与其他分类器
EN