前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >人工智能_5_决策树_随机森林

人工智能_5_决策树_随机森林

作者头像
Dean0731
发布2020-05-08 15:36:40
3940
发布2020-05-08 15:36:40
举报
文章被收录于专栏:blog-技术博客blog-技术博客
代码语言:javascript
复制
# 决策树,随机森林
# 决策树结构:if-then
# 信息熵:
#   例:第一届世界杯32支球队 每个队伍冠军概率1/32
#               可得 log32(程序员认为的log一般都默认是以2为底) = -(1/32*log(1/32)+1/32*log(1/32).....)
#           2018 第21届世界杯根据历史数据获胜概率不同   log32  > -(1/4*log(1/4)+1/4*log(1/4).....)
#           几个log的和即为信息熵,   当概率变化时  log的和是小于log(n)的
# 信息熵与不确定性是相联系的
#   H(X)= -(P(X1)log(P(X1))+P(X2)log(P(X2))......)   概率相同时为log(n)
#       信息熵越大表示 几率均等,不确定性大
# 决策树的划分依据:信息增益 (最大值对应的特征即为重要特征)
#   当得知一个特征条件之后,减少的信息熵的大小 (构建决策树时,放在前边)
#   得知x特征的信息,是的类y的信息的不确定性减少的程度
#   Ck表示某个类的样本数,即某类目标值的数量
#       g(D,A) 特征A对数据集D的信息增益g(D,A)
#       H(D) 数据集的信息熵 (根据目标值求) H(D) = -((|C1|/|D|)/log(|C1|/|D|)+(|C2|/|D|)/log(|C2|/|D|)+......)
#       H(D,A) 给定条件下D的信息熵 H(D,A) = -( (|Di|/|D|)*H(Di) )
#           例:特征A为年龄,有青年,中年,老年  H(D,A) 表示为 -( 青年占所有的比例*H(青年)+ 中年,老年 )
#                       H(青年) = 值看青年的数据集    根据目标值  = - ( (目标值1/所有青年数)log(目标值1/所有青年数)+....)
#    即可根据此 生成决策树
# 常用算法 (有的使用基尼系数(不在分析实现方法),有的使用信息增益)
#   ID3 使用信息增益最大的原则
#   C45 信使用息增益比最大的准则
#   CART
#       回归树:平方误差最小
#       分类树 基尼系数(划分更加仔细,可以指定数的深度等等) 最小的准则 在skleran中选择划分的默认原则
# API
#   sklearn.tree.DecisionTreeClassifier(Criterion='gini',max_depth=None,random_state=None)
#   决策树分类器
#   criterion:默认是gini系数,也可选择信息增益的熵entroy
#   max_depth:树的深度大小
#   random_state:随机数种子
#   method:
#   decision_path:返回决策树的路径
# API sklearn.tree.export_graphviz() 导出DOT格式
#   tree.export_grahviz(estimator,out_file="",features_names=[])
#   将dot转换为图片格式
#   sudo apt-get install graphviz
#   dot -Tpng tree.dot -o tree.png
# ==================================
# 案例:泰坦尼克号------>根据游客的信息,判断游客是否存活
# 数据:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
#       age 项有空缺
#   "row.names","pclass","survived","name","age","embarked","home.dest","room","ticket","boat","sex"
#   "1","1st",1,"Allen, Miss Elisabeth Walton",29.0000,"Southampton","St Louis, MO","B-5","24160 L221","2","female"
def decision():
    import pandas as pd
    """
    决策树
    :return: 
    """
    # 1,获取数据
    taitan =pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
    # 2,处理数据,获取特征值与目标值
    x = taitan[['pclass','age','sex']]
    y = taitan['survived']
    # 3,处理缺失值
    x['age'].fillna(x['age'].mean(),inplace=True) # inplace 表示填补
    # 4,分割数据
    from sklearn.model_selection import train_test_split
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)

    # 5,特征处理 (对于类别的)使用one-hot编码(将数据转换为数字的形式:例如性别,使用0,1代替)
    from sklearn.feature_extraction import DictVectorizer
    dict = DictVectorizer(sparse=False)
    # to_dict() 把原来的 数据转换为 [{'sex':"male"},{}]格式
    x_train = dict.fit_transform(x_train.to_dict(orient="records"))

    x_test = dict.transform(x_test.to_dict(orient="records"))
    # 6,决策树处理
    from sklearn.tree import DecisionTreeClassifier
    dec = DecisionTreeClassifier()
    # dec = DecisionTreeClassifier(max_depth=5)
    dec.fit(x_train,y_train)
    print("准确率:",dec.score(x_test,y_test))
    # 导出决策树结构
    from sklearn.tree import export_graphviz
    export_graphviz(dec,out_file="./tree.dot",feature_names=["age","pclass=1st","pclass=2nd","pclass=3rd","女性","男性"])
# 优点
#   简单的理解和解释 树木可视化
#   不需要归一化
# 缺点(太过于详细,有些异常点)
#   创建的树不能很好的适用于测试集:过拟合
# 改进
#   减枝cart算法 (指定叶子属性:例如若到达该叶子的样本数少于5,就不要了)
#   随机森林
# ==========================================================
# 集成学习方法----随机森林
#   集成学习方法:多个分类器或模型组合
#   什么是随机森林:包含多个分类器,最后的结果取众数
#   随机森林的过程,优势(n个样本,m个特征
#       单个树的建立过程:
#           1,随机在n个中抽取一个样本,重复n次 样本可能重复
#           2,随机在m个特征中选出M个特征 M<m
#       建立10个树,样本,特征大多不同   随机又放回的抽样 bootstrap抽样
# API sklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion="gini" 使用基尼系数
# ,max_depth=None,bootstrap=True,random_state=None)
#   n_estimators:数量个数默认是10 一般是120,200,300,500,800,1200
#   max_features="auto" 决策树最大的特征数量,(选取的特征太多,容易过拟合)
#   auto:特征数开方,sprt=auto,log2,None
def random_forest():
    import pandas as pd
    """
   随机森林
    :return: 
    """
    taitan =pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
    x = taitan[['pclass','age','sex']]
    y = taitan['survived']
    x['age'].fillna(x['age'].mean(),inplace=True)
    from sklearn.model_selection import train_test_split,GridSearchCV
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)
    from sklearn.feature_extraction import DictVectorizer
    dict = DictVectorizer(sparse=False)
    x_train = dict.fit_transform(x_train.to_dict(orient="records"))
    x_test = dict.transform(x_test.to_dict(orient="records"))
    from sklearn.ensemble import RandomForestClassifier
    rf = RandomForestClassifier()
    # 网格搜索与交叉验证
    gc =GridSearchCV(rf,param_grid={"n_estimators":[120,200,300,500,800,1200],"max_depth":[5,8,15,25,30]},cv=2)
    gc.fit(x_train,y_train)
    print("随机森林准确率",gc.score(x_test,y_test))
    print("随机森林选择的参数模型",gc.best_params_)
# 极好的准确率,有效使用在大数据,不需要降维
if __name__ =="__main__":
    #decision()
    random_forest()
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-10-07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档