自己由于最近参加了一个比赛“达观杯”文本智能处理挑战赛,上一周主要在做这一个比赛,看了一写论文和资料,github上搜刮下。。感觉一下子接触的知识很多,自己乘热打铁整理下吧。
接着上一篇文章20 newsgroups数据介绍以及文本分类实例,我们继续探讨下文本分类方法。文本分类作为NLP领域最为经典场景之一,当目前为止在业界和学术界已经积累了很多方法,主要分为两大类:
传统机器学习的文本分类通常提取tfidf或者词袋特征,然后给LR
模型进行训练;这里模型有很多,比如贝叶斯、svm
等;深度学习的文本分类,主要采用CNN、RNN、LSTM、Attention
等。