我有文本数据集,其中手动将每条记录归类为两个可能的类之一。我在语料库上创建了一个TFIDF,没有英语停止词,训练/测试了一个随机森林分类器,对模型进行了评估,并将该模型应用于一个更大的文本语料库。到目前为止,一切都是好的,但如何更多地了解我的模型,即如何才能找出哪些词是“重要”的模式?
发布于 2015-12-28 21:58:18
经过训练的RF应该有一个属性feature_importances_
。我认为您必须使用oob_score=True
(在构造函数中)来训练模型。特性的重要性将告诉您哪些特性(数据矩阵列)有影响。要获得单词,您可以返回tfidf向量器并获取它的vocabulary_
属性(注意后面的下划线),这是从单词到列索引的dict。
有关vocabulary_属性的说明,请参见以下文章:sklearn : TFIDF Transformer : How to get tf-idf values of given words in document
https://stackoverflow.com/questions/34501296
复制相似问题