R语言—Rattle包数据挖掘(6)

10963字▕ 14图▕ 预计阅读25分钟

Rattle包基于R语言开发的强大数据挖掘工具,图形交互式可视化界面,如同SPSS Molder一样,可以让很多R初学者或R语言薄弱的同学完成数据挖掘工作。Rattle提供了数据清洗、简单统计检验、数据建模分析和模型评估。

数据建模包括:聚类、关联规则、决策树、随机森林、支持向量机、回归、神经网络和生存分析。

模型评估包括:混淆矩阵、风险图、Cost curve、Roc曲线、Hand图、Prv Ob图、Score等

上篇文章学习了Rattle的聚类、关联规则建模,今天主要学习决策树模型,Rattle提供了传统决策树、随机森林决策树和自适应选择决策树,如下如所示:

图1 Rattle决策树模型

决策树(Decision tree )是通过一系列规则对数据进行分类的过程,具体讲是利用信息论中的互信息 (信息增益 )寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分支 ,在每个分支子集中重复建立树的下层节点和分支的过程。决策树树形图如下所示:

图2 决策树树形图,SPSS25.0制作

图3 决策树树形图,来源网络

决策树在医学研究领域的应用:疾病诊断治疗,疾病程度分级、筛选危险因素,基因与高分子序列分析,医院信息系统挖掘,医疗政策分析、医疗卫生保健、医疗资源利用评价,感兴趣可在知网检索第二军医大学徐蕾的硕士学位论文《决策树技术及其在医学中的应用》及发表在《数理医药学杂志》的两篇文献,目前知网下载2400余次,被引100余次。下面是通过知网检索的决策树在医学领域应用的13篇文献,如下所示:

(左右滑动查看)

目前,常用决策树算法有ID3算法、CHAID算法、CART算法、C4. 5 /C5. 0算法 ,SPSS提供了CHAID算法、穷举CHAID算法、CRT算法和QUEST算法,如下所示:

图4 SPSS决策树算法

1

传统决策树模型

Rattle的传统决策树模型算法有Tradional和Conditional两种,Min Split为最小分支节点数、Min Bucket为叶子节点最小样本数、Max Depth树的最大深度、Complexity为某个点的复杂程度、Loss Matrix损失矩阵,Draw可以输出可视化树形图。

以自带数据集weather.csv为例,默认参数设置,传统决策树模型结果如下所示:

可视化决策树树形图输出,如下所示:

2

随机森林决策树

随机森林(Random froests)决策树可以克服传统决策树过拟合的缺点,算法分为传统随机森林算法(Traditional)、约束随机森林算法(Conditional),Trees表示决策树个数,Variables表示每棵树节点分支处选择变量的数量,Importtance绘制模型各变量的重要性可视化图,Errors绘制误判率图像,Rules输出规则集合,OOB ROC绘制误判率ROC图。

以自带数据集weather.csv为例,Trees设置为500,Variables设置为4,传统随机森林算法模型输出如下:

误判率和ROC可视化图如下所示:

规则图

3

自适应选择决策树模型

Boost自适应决策树模型的算法有Extreme和Adaptive两种,Max Depth、Min Split、Complexity的参数同传统决策树模型,Importance表示变量的重要性、Errors输出训练误差曲线、Continue可增加新的树。

以自带数据集weather.csv为例,选择Extreme算法,默认参数设置,自适应决策树模型输出如下:

参考文献:

1.https://rattle.togaware.com/

2.https://bit.ly/rattle_data_mining

3.https://bit.ly/essentials_data_science

—END—

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181209G0SJAB00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动