文章/答案/技术大牛

发布

社区首页 >问答首页 >提高文本分类模型精度/召回率的典型方法是什么？

问提高文本分类模型精度/召回率的典型方法是什么？
EN

Stack Overflow用户

提问于 2014-04-17 13:58:46

回答 1查看 1.6K关注 0票数 1

我正在从事一个数据挖掘项目，试图自动将文本分类为t类。它是一种多类监督学习，其输入特征包括标题和正文(均为文本).目前的准确率不好，请您提出一些提高准确度的方法好吗？

这是我已经试过的东西。

预处理:术语(请您提出一种自动提取术语的方法)。
词组删除(请您建议一些设置为英语的停止词)。
堵住
莱曼化
N克
特征选择(信息增益比)

算法: GBDT、LR、SVM等。

data-mining

text-mining

algorithm

回答 1

Stack Overflow用户

发布于 2014-07-09 21:46:11

有很多工具你可以使用，以提取合理的语言基础的特征类型。这取决于您最喜欢的编程语言/环境是什么，如果您想使用机器学习套件，其中包含一些文本挖掘组件，或者只使用文本挖掘组件。

看一下：

Java：韦卡 (关于文本分类的视频)，OpenNLP
Python：Scikit-学习和NLTK。

关于停止词列表：

http://jmlr.org/papers/volume5/lewis04a/a11-smart-stop-list/english.stop
http://www.ranks.nl/stopwords
http://www.textfixer.com/resources/common-english-words.txt
http://norm.al/2009/04/14/list-of-english-stop-words/
http://snowball.tartarus.org/algorithms/english/stop.txt

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23135218

复制

相似问题

问提高文本分类模型精度/召回率的典型方法是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问提高文本分类模型精度/召回率的典型方法是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问提高文本分类模型精度/召回率的典型方法是什么？
EN