决策树的相关实践

相关概念

信息熵:关于信息不确定性的度量

信息增益:熵 - 条件熵

表示信息不确定性减少的程度

例子:明天下雨例如信息熵是2,条件熵是0.01(在已知阴天的情况下)

那么2-0.01=1.99就是条件熵

Gini系数:表示样本集合的不确定性

随机森林是常用的衡量特征重要度的方法,若信息增益比较大,表示在这一步选择上它的特征比较明显

#今天先拿iris数据做个小测试,

from sklearn import tree

from sklearn.datasets import load_iris

from sklearn import tree

iris = load_iris()

clf = tree.DecisionTreeClassifier()

clf = clf.fit(iris.data, iris.target)

import graphviz

dot_data = tree.export_graphviz(clf, out_file=None)

graph = graphviz.Source(dot_data)

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180106G0SGLV00?refer=cp_1026

扫码关注云+社区