首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >提高文本分类模型精度/召回率的典型方法是什么?

提高文本分类模型精度/召回率的典型方法是什么?
EN

Stack Overflow用户
提问于 2014-04-17 13:58:46
回答 1查看 1.6K关注 0票数 1

我正在从事一个数据挖掘项目,试图自动将文本分类为t类。它是一种多类监督学习,其输入特征包括标题和正文(均为文本).目前的准确率不好,请您提出一些提高准确度的方法好吗?

这是我已经试过的东西。

  1. 预处理:术语(请您提出一种自动提取术语的方法)。
  2. 词组删除(请您建议一些设置为英语的停止词)。
  3. 堵住
  4. 莱曼化
  5. N克
  6. 特征选择(信息增益比)

算法: GBDT、LR、SVM等。

EN

回答 1

Stack Overflow用户

发布于 2014-07-09 21:46:11

有很多工具你可以使用,以提取合理的语言基础的特征类型。这取决于您最喜欢的编程语言/环境是什么,如果您想使用机器学习套件,其中包含一些文本挖掘组件,或者只使用文本挖掘组件。

看一下:

  • Java:韦卡 (关于文本分类的视频),OpenNLP
  • Python:Scikit-学习和NLTK。

关于停止词列表:

  • http://jmlr.org/papers/volume5/lewis04a/a11-smart-stop-list/english.stop
  • http://www.ranks.nl/stopwords
  • http://www.textfixer.com/resources/common-english-words.txt
  • http://norm.al/2009/04/14/list-of-english-stop-words/
  • http://snowball.tartarus.org/algorithms/english/stop.txt
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23135218

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档