首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >文本分类的区间随机林模型

文本分类的区间随机林模型
EN

Stack Overflow用户
提问于 2015-12-28 21:50:53
回答 1查看 575关注 0票数 3

我有文本数据集,其中手动将每条记录归类为两个可能的类之一。我在语料库上创建了一个TFIDF,没有英语停止词,训练/测试了一个随机森林分类器,对模型进行了评估,并将该模型应用于一个更大的文本语料库。到目前为止,一切都是好的,但如何更多地了解我的模型,即如何才能找出哪些词是“重要”的模式?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-12-28 21:58:18

经过训练的RF应该有一个属性feature_importances_。我认为您必须使用oob_score=True (在构造函数中)来训练模型。特性的重要性将告诉您哪些特性(数据矩阵列)有影响。要获得单词,您可以返回tfidf向量器并获取它的vocabulary_属性(注意后面的下划线),这是从单词到列索引的dict。

有关vocabulary_属性的说明,请参见以下文章:sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34501296

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档