前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【连载】R语言18讲(四)

【连载】R语言18讲(四)

作者头像
小莹莹
发布2018-04-24 11:56:03
5040
发布2018-04-24 11:56:03
举报

前面讲到了怎么导入数据,获取数据,按照数据挖掘的流程,在我们导入数据之后接下来的工作便是对数据进行初步的探索,探索的工作主要包括两大块,第一是数据质量分析,第二是数据特征分析. 数据质量分析就是看看数据有没有缺失值,有没有异常值,数据是否具有一致性等,而数据特征分析则包括数据的分布,数据进行对比,数据简单的统计,以及数据周期性和相关性的检查.这部分工作对于我们后面数据建模非常重要,也是我们发现问题,解决问题的重要一步,那么接下来,会用两节来讲讲数据的初步探索,当然是用R语言实现的,这节主要讲数据质量分析.

1.探索数据的构成.

  • 整体查看数据集的情况:这里以R自带数据集mtcars为例.

这仅是查看数据的结构信息,当我们想整体看看数据的情况时,R也可以提供可视化的形式,以表格呈现给我们,当然当数据量非常大时,我们也可以选择查看部分行的数据.代码如下:

记住以上的几个函数,我们就可以初步的观察数据的整体结构了,我们便可以明了,拿到的是一份怎样的数据,大致的样子是怎么样的了.接下来我们便需要仔细的观察每一列,也就是每一个字段的情况.

  • 简单的选择性查看数据部分情况

这部分内容主要包括怎么使用下标的方式简单的查看符合条件的数据集,部分代码及功能如图;

以上几个函数都是做简单的查询,对于我们前期探索以及后期建模也非常重要,在建模时可能需要用到数据集中的某一变量,或者某一符合条件的部分数据,使用上述的函数就可以.

  • 在我们编程时经常会报错,有一部分原因就是不清楚数据的类型,在前面我们讲到了数据的分类,现在我们举出几个查看数据类型的函数:

至此数据的大致情况构成我们便可以清楚的知道了.

2.缺失值,异常值查询

其中complete.cases返回的是每一行的情况,而is.na则返回每一个元素的情况.

summary则返回了每个变量的最小值,下分位数,中位数,均值,上分位数,最大值.

3.一致性分析

对于一致性分析,则需要分析者 的经验和专业知识了,即所谓数据明显不符合逻辑和要求的,性别变量填成了数值,身高变量填成了字母.等等


未完待续,

PPV原创文章,严禁转载. (文:@白加黑治感冒)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档