【学习】R语言18讲(五)

上篇讲到了数据挖掘的质量分析,主要是对数据缺失情况,准确情况,以及数据集的结构进行探索,接下来,我们就要对数据的特征进行分析了,所谓数据的特征分析就是指数据的分布情况,数据各个变量之间的对比,以及数据的简单统计和周期性检查,包括相关性等等.这些还主要是对数据进行浅层的分析和探索,却往往要花费很大的精力和时间去做这些事,那么对于数据的特征分析需要用到的函数,在这里也进行讲述.

1.分布情况:

对于定量数据,我们查看其是否对称,有没有特别大的或特别小的可疑值,以及频率分布.而对于定性的数据,我们查看其比例,像饼图,条形图等等.

2.对比

对比就是看某种类型的数据占的比重,或变量之间的比例关系,或同一时间的对比,或者变量的密度强度,以及速度等

3.统计量

就是我们常见的均值,中位数,众数,极差,标差,变异系数,四分位距,偏度和峰度.

4.周期性

主要是对时间序列进行分析

5.贡献度

即累积效应达80%的前几个因素.

6.相关性

主要讲散点图,和相关系数,包括pearson相关系数,spearman秩相关系数,也称等级相关系数

当我们进行完数据的初步探索之后,我们对于数据的分布,以及一些相关关系都很清楚了,接下来便是我们的数据处理,数据处理就是为了我们建模的,为了让数据适合模型,我们需要对数据进行一系列的处理,这其中主要有四大块,分别是数据清洗,数据集成,数据变换,数据规约.而这部分工作量是整个数据挖掘中最繁重的,需要我们非常仔细和耐心,其中涉及的函数也是非常之多这里,而且函数都比较复杂,这里尽量有条理的举出一些.方便我们记忆.

1.衍生新字段

在我们处理数据的时候,有时需要根据目前的字段衍生新字段,来帮助我们分析,这里有两种方法

2.重命名

3.缺失值处理

4.排序

5.合并

6.分组统计

这节涉及到一些画图的函数,只是简单的列出,对于其具体使用,将在下面的章节详细的讲解,这节的函数,还有其他用法,我们可以按照前面讲到的使用帮助文档去看它的使用方法和使用例子.


未完待续,

PPV原创文章,严禁转载. (文:@白加黑治感冒)

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-04-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

ACL 2017自然语言处理精选论文解读

13910
来自专栏机器学习算法与理论

最新姿态估计研究进展

最新姿态估计研究进展 自上而下:就是先检测包含人的框,即human proposal,然后对框子中的人进行姿态估计。一般RCNN(区域CNN就是这个思路) 自下...

98360
来自专栏人工智能

从零开始学人工智能-Python·决策树(四)·树

作者:射命丸咲Python 与 机器学习 爱好者 知乎专栏:https://zhuanlan.zhihu.com/carefree0910-pyml 个人网站:...

29890
来自专栏java一日一条

基于 10 大编程语言的 30 个深度学习库

本文介绍了包括 Python、Java、Haskell等在内的一系列编程语言的深度学习库。

12210
来自专栏AI研习社

从零开始用 TensorFlow 分析情绪,硅谷网红带你飞

Siraj Raval 作为深度学习领域的自媒体人在欧美可以说是无人不知、无人不晓。 凭借在 Youtube 上的指导视频,Siraj Raval 在全世界吸...

40860
来自专栏CreateAMind

【前沿跟进】Google, OpenAI提出层次强化学习新思路

14310
来自专栏AI科技大本营的专栏

“史上最强”BigGAN公开TensorFlow Hub demo!

还记得前些日子轰动一时的 BigGAN 模型吗?生成对抗网络(GAN)作为当前最热门的技术之一,最近在图像生成方面的成果颇受人关注。近日,由 DeepMind ...

17620
来自专栏AI研习社

看硅谷数据工程师如何使用TensorFlow构建、训练和改进RNN

在本文中,我们提供了一个用于训练语音识别的RNN的简短教程,其中包含了GitHub项目链接。 ? 作者:Matthew Rubashkin、Matt Molli...

45240
来自专栏DT数据侠

前方高能!哈利·波特的咒语已破译(机器学习控必点)

《哈利波特与魔法石》推出的时候,谁也不曾料到,那个最初连一句“Leviosa”羽毛漂浮咒语都念不好的绿眼睛男孩,竟会陪伴我们这群麻瓜整整20年。

9000
来自专栏达观数据

达观数据搜索引擎排序实践(下篇)

机器学习排序 机器学习排序(Machine Learning to rank, 简称MLR) 机器学习排序系统框架 机器学习排序系统一般分为离线学习系统和在线预...

555100

扫码关注云+社区

领取腾讯云代金券