我正在从事一个数据挖掘项目,试图自动将文本分类为t类。它是一种多类监督学习,其输入特征包括标题和正文(均为文本).目前的准确率不好,请您提出一些提高准确度的方法好吗?
这是我已经试过的东西。
算法: GBDT、LR、SVM等。
发布于 2014-07-09 21:46:11
有很多工具你可以使用,以提取合理的语言基础的特征类型。这取决于您最喜欢的编程语言/环境是什么,如果您想使用机器学习套件,其中包含一些文本挖掘组件,或者只使用文本挖掘组件。
看一下:
关于停止词列表:
https://stackoverflow.com/questions/23135218
复制相似问题