Rattle包是基于R语言的图形用户界面GUI可视化数据挖掘工具,避免代码书写,功能丰富,还可通过Log查看日志,学习代码,接下来通过10篇文章学习Rattle包在数据挖掘中的应用。
1
初识Rattle
载入和启动Rattle,第一行为菜单栏,第二行工具栏,第三行选项卡,选项卡分别有:Data(输入数据)、Explore(数据探索)、Test(统计检验)、Transform(数据转换)、Cluster(聚类分析)、Associate(关联规则)、Model(模型)、Evaluate(模型评估)。
2
Data选项卡
数据来源选择和输入,格式TXT、CSV、Excel、SQL等以及R语言包自带的数据集。
30
Explore选项卡,数据探索
Summary/Summary 进行描述统计分析
Summary/Describe 查看分类变量信息
Summary/Basics 查看基本统计量信息
Summary/Kurtosis 查看峰度
Summary/Skewness 查看偏度
Summary/Show Missing 查看缺失值
Summary/CrossTab 查看交叉表
Summary/Summary
以Rattle自带的Weather数据集为例,22个变量的最大值、最小值、平均值、中位数和上下四分位数。
Summary/Describe
22个变量的n、missing、distinct、Info、Mean、Gmd 、0.05 、0 .10 、0 .25、0 .50 、0 .75、0.90 、0 .95。
Summary/Basics
22个变量的nobs、NAs、Minimum 、Maximum、1. Quartile、3. Quartile 、Mean 、Median、Sum 、SE Mean、LCL Mean、UCL Mean、Variance、Stdev 、Skewness、Kurtosis。
Summary/Kurtosis
22个变量的Kurtosis
Summary/Skewness
22个变量的Skewness
Summary/Show Missing
Summary/CrossTab
定量数据分布图
Box Plot 箱式图
Histogram 直方图
Cumulative 累计分布图
Benford 本福特图
Pairs 多变量相关图
分类资料的分布图
Bar Plot 条形图
Dot Plot 点图
Mosaic 马赛克图
Pairs 散点矩阵图
Box Plot
Histogram
Cumulative
Benford
Pairs
Bar Plot
Dot Plot
Mosaic
Pairs
领取专属 10元无门槛券
私享最新 技术干货