前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【学习】R语言18讲(五)

【学习】R语言18讲(五)

作者头像
小莹莹
发布2018-04-24 11:53:54
6300
发布2018-04-24 11:53:54
举报

上篇讲到了数据挖掘的质量分析,主要是对数据缺失情况,准确情况,以及数据集的结构进行探索,接下来,我们就要对数据的特征进行分析了,所谓数据的特征分析就是指数据的分布情况,数据各个变量之间的对比,以及数据的简单统计和周期性检查,包括相关性等等.这些还主要是对数据进行浅层的分析和探索,却往往要花费很大的精力和时间去做这些事,那么对于数据的特征分析需要用到的函数,在这里也进行讲述.

1.分布情况:

对于定量数据,我们查看其是否对称,有没有特别大的或特别小的可疑值,以及频率分布.而对于定性的数据,我们查看其比例,像饼图,条形图等等.

2.对比

对比就是看某种类型的数据占的比重,或变量之间的比例关系,或同一时间的对比,或者变量的密度强度,以及速度等

3.统计量

就是我们常见的均值,中位数,众数,极差,标差,变异系数,四分位距,偏度和峰度.

4.周期性

主要是对时间序列进行分析

5.贡献度

即累积效应达80%的前几个因素.

6.相关性

主要讲散点图,和相关系数,包括pearson相关系数,spearman秩相关系数,也称等级相关系数

当我们进行完数据的初步探索之后,我们对于数据的分布,以及一些相关关系都很清楚了,接下来便是我们的数据处理,数据处理就是为了我们建模的,为了让数据适合模型,我们需要对数据进行一系列的处理,这其中主要有四大块,分别是数据清洗,数据集成,数据变换,数据规约.而这部分工作量是整个数据挖掘中最繁重的,需要我们非常仔细和耐心,其中涉及的函数也是非常之多这里,而且函数都比较复杂,这里尽量有条理的举出一些.方便我们记忆.

1.衍生新字段

在我们处理数据的时候,有时需要根据目前的字段衍生新字段,来帮助我们分析,这里有两种方法

2.重命名

3.缺失值处理

4.排序

5.合并

6.分组统计

这节涉及到一些画图的函数,只是简单的列出,对于其具体使用,将在下面的章节详细的讲解,这节的函数,还有其他用法,我们可以按照前面讲到的使用帮助文档去看它的使用方法和使用例子.


未完待续,

PPV原创文章,严禁转载. (文:@白加黑治感冒)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-04-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据集成
数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档