R语言—Rattle包数据挖掘(4)

3637字▕ 9图▕ 预计阅读21分钟

Rattle包基于R语言开发的强大数据挖掘工具,图形交互式可视化界面,如同SPSS Molder一样,可以让很多R初学者或R语言薄弱的同学完成数据挖掘工作。Rattle提供了数据清洗、简单统计检验、数据建模分析和模型评估。

数据建模包括:聚类、关联规则、决策树、随机森林、支持向量机、回归、神经网络和生存分析。

模型评估包括:混淆矩阵、风险图、Cost curve、Roc曲线、Hand图、Prv Ob图、Score等

有同学后台留言怎么安装Rattle? 怎么启动?

安装Rattle和其他包一样,利用命令安装如下所示,也可以在Rstudio中通过Packages下的install安装,由于Rattle基于很多R包,耐心等待。

前面分别更新了Rattle包简介、数据准备、简单统计分析,可点击以下链接查看,今天主要学习Rattle数据转换功能。

1

Rattle启动

启动Rattle之前,检查是否安装了cairoDevice和RGtk2两个packages,如果安装了先载入Rattle,然后启动即可,如下所示:

如果未安装cairoDevice和RGtk2,安装后启动即可,如下所示:

2

数据变换

Rattle数据变化提供了4种数据变换和处理功能,分别为:Rescale(重新定义范围)、Impute(填充缺失值)、Recode(数据类型转换)、Cleanup(删除),每种功能下又有若干参数和方法。

3

Rescale(重新定义范围)

Rescale(重新定义范围)提供了Normalize(归一化)、Order(排序)两种大的处理方式。

Normalize(归一化)

Recenter

Scale [0-1]

Median/MAD

Natural Log

Log 10

Marrix

Order(排序)

Rank

Interval

Number of groups

4

Impute(填充缺失值)

Impute(填充缺失值)下有5种方式,分别为:Zero/Missing、Mean、Median、Mode和Constant。

5

Recode(数据类型转换)

Recode(数据类型转换)下面有定量变量离散化、分类变量(名义变量)指标化、分类变量(名义变量)合并、分类变量(名义变量)相互转换:Binning(离散化)有Quantiles、KMeans、Equal Width三种方式,默认Number为4。分类变量(名义变量)指标化Indicator Variable、分类变量(名义变量)合并Join Categorics、分类变量(名义变量)相互转换As Categoric和As Numeric。

6

Cleanup(删除)

Cleanup(删除)下有4个参数,分别为:Delete Ignored(忽略移除变量)、Delete Selected(删除已选择变量)、Delete Missing(删除缺失变量)、Delete Obs with Missing(删除有缺失值的行变量)。

7

Rattle数据转换总结

将Rattle数据转换整理如下:

参考文献:

1.https://rattle.togaware.com/

2.https://bit.ly/rattle_data_mining

3.https://bit.ly/essentials_data_science

—END—

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181115G0B62F00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券