中文短文本分类
文本分类是一种有监督学习
例如,输入一条数据,能够判断事情的主体是谁
主要步骤 为:
1. 加载数据 2. 数据预处理
分词
去停用词
词形标准化
3. 文本表示
抽取词向量特征
可以尝试 2-gram 和 3-gram
还可以使用 word2vec 和 doc2vec 等
4. 将数据分成训练集和测试集
5. 模型
进行算法建模和模型训练
评估、计算 AUC 值,进行预测
模型对比
这里可以使用的模型有:朴素贝叶斯,SVM,决策树、随机森林、XGBoost、神经网络等
学习资料:
《中文自然语言处理入门实战》