首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言数据挖掘利器:Rattle包

玉渊潭进入樱花季,晒几张我出门玩耍的照片

书接上回:上一期我介绍了R语言交互式图形界面R commander(传送门),这一期介绍数据挖掘可视化工具Rattle包,是一个用于数据挖掘的R语言图形交互界面,可以快速处理常见的数据挖掘问题。安装、载入Rattle包并调出Rattle界面的命令是:

install.packages("RGtk2")

install.packages("rattle")

library(rattle)

rattle()

可以看到Rattle提供的数据挖掘流程:导入数据Data-数据探索Explore-统计检验Test-预处理Transform-数据挖掘Cluster、Associate、Model-模型评估Evaluate:

1

导入数据Data

通过Data选项卡可导入R自带示例数据,txt、csv、Excel等格式的外部数据,通过ODBC连接SQL Server、MySQL等数据库等等。以导入Rattle自带的天气数据weather.csv文件为例:

2

数据探索与统计检验Explore/Test

通过Explore/Test选项卡可对数据进行汇总Summary,分布Distributions,相关分析Correlation,主成分分析Principal Components,t检验,F检验,K-S正态性检验,Wilcoxon检验等。以RainTomorrow为分组变量,画出MaxTemp变量的箱线图、直方图、累积分布图和benford图为例,并做weather数据的描述性统计:

3

预处理Transform

通过Transform选项卡可对数据进行标准化Rescale,数据插值Impute,数据重排列Recode,数据清理Cleanup操作。这里不再演示。

4

数据挖掘Cluster、Associate、Model

通过Cluster选项卡可实现数据聚类的K均值聚类法KMean,自适应的软子空间聚类算法 Ewkm,层次聚类法 Hierarchical,双聚类算法BiCluster;通过Associate选项可实现Apriori算法:默认最小支持度阈值min-sup是0.100,最小置信度阈值min-conf是0.100,每个项集所含项数的最小值是2,可根据实际情况进行调整参数设置;通过Model选项卡可评估数据模型的决策树模型Tree,随机森林模型Forest,自适应选择模型Boost,支持向量机分类模型SVM,普通线性回归模型Linear,单隐藏层人工神经网络模型Neural Net。以weather数据为例,分别建立K-Means聚类模型、随机森林模型:

5

模型评估Evaluate

通过Evaluate选项卡可以看到一系列模型评估标准:混淆矩阵Error Matrix,模型风险表Risk,模型ROC图像ROC,模型得分数据集Score。这里不再演示。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180410G02XDQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券